Back to top

Ein Dateisystem-Staging Repository für Suchmaschinen

A Modern Architecture for Faster Content Processing and a Seamless Search Experience

Eine moderne Architektur für schnellere Content-Verarbeitung und eine nahtlose Sucherfahrung

Durch Einsatz eines Staging Repositorys für das Dateisystem kann die für die Content-Verarbeitung benötigte Zeit von Tagen oder Wochen auf Minuten oder Sekunden gesenkt werden, was schlussendlich auch die Sucherfahrung des Benutzers verbessert.

Im Video wird die Erfolgsgeschichte unseres Kunden durch die Erfahrung unseres Architekten aus erster Hand vorgestellt.

 

 

Die Herausforderungen einer traditionellen Sucharchitektur

Gehen wir von einer typischen Architektur für eine Suchanwendung und deren Komponenten aus.

  • In der Phase des Content-Erwerbs wird der Content durch Crawler durchforscht und gesammelt.
  • In der Phase der Content-Verarbeitung wird der Content für das Indexieren in der Suchmaschine vorbereitet.
  • Die Suchmaschine bietet Dienste für Indexieren und Abfragen gegen den Content.
  • Die Suchanwendung erlaubt es dem Benutzer, den indexierten Content zu durchsuchen.

Diese Art einer traditionellen Architektur ist unkompliziert und wird häufig eingesetzt, weist jedoch einige Einschränkungen auf.

Zuerst einmal sind die Phasen des Content-Erwerbs und der Content-Verarbeitung eng miteinander verknüpft, so dass das erneute Indexieren von Content immer das erneute Durchforsten der ursprünglichen Contentquellen erfordert. Hierbei muss man sich die enormen Mengen von Geschäftsdaten heutzutage vor Augen halten, und die Zeit, die es dauert, diese zu durchforsten. Je nach Volumen des Contents und Kapazität des Hostsystems kann das erneute Durchforsten des Contents Tage oder Wochen in Anspruch nehmen. Man kann sich vorstellen, dass weder die Unternehmen noch ihre Kunden so lange warten wollen (oder es sich nicht leisten können, so lange zu warten), bis sie ihren Content für die Suche verfügbar haben. Dazu kommt, dass ein vollständiges erneutes Durchforsten zu Problemen bei Geschäftsprozessen führen kann, da Zeit und IT-Ressourcen für diese Aufgabe aufgewendet werden müssen. Ein solcher Aufbau kann daher Aufgaben verzögern oder gar verhindern, die zur Optimierung der Suchmaschine vorgenommen werden müssten, wie etwa das Suchmaschinen-Scoring und die Relevanz-Feineinstellung.

Die zweite Herausforderung bei einer solchen Architektur ist, dass die Suchanwendung und die Benutzererfahrung voneinander getrennt sind. Die folgende Situation stellt sich oft: Nachdem ein Begriff in das Suchfeld der Website eingegeben und auf „Suche“ geklickt wurde, kommt man in ein anderes, neues Fenster, in dem die Suchergebnisse aufgelistet werden. Diese Trennung kann den Benutzer frustrieren, der an intuitive Suchschnittstellen wie Google gewöhnt ist, insbesondere wenn er nicht direkt beim ersten Versuch findet, was er sucht.

 

Erwartungen neuer Benutzer, Demokratisierung der Daten und der Aufstieg des Staging Repository

Werfen wir einen Blick auf die eigene Erfahrung als Nutzer von Suchdiensten wie Google oder Amazon. Es scheint alles so nahtlos und einfach, oder? Diese Internetgiganten sind das Maß für die moderne Sucherfahrung, an der sich alle messen müssen. Der Benutzer hat sich daran gewöhnt, eine einzelne Suchanwendung mit einer intuitiven Schnittstelle zu nutzen, in der Suche, Browsen und Ansehen der Ergebnisse vorgenommen werden. Das ist auch ein Grund dafür, warum die Suchanwendungen so vieler Unternehmen der Zeit hinterherzuhinken scheinen.

Unser Team für Aspire hat dieses Problem über einen Staging Repository-Dienst für Dateisysteme gelöst. Das Konzept, ein Staging Repository zu nutzen, um schnellere Content-Verarbeitung zu bieten, wurde in der Branche schon früher genutzt, gewinnt aber erst jetzt wirklich an Bedeutung, seit die Cloud uns enorme Datenmengen, mehr Optionen für dynamischen Speicher zu geringen Kosten und leistungsfähigere Open-Source-Tools für Big Data bringt, wie Cloudera, den Elastic ELK-Stack oder Apache-Projekte wie Hadoop und Spark.

 

Unterschiede in der Leistung einer Architektur mit Dateisystem-Staging Repository

Das Aspire Dateisystem-Staging Repository geht auf die Herausforderungen der traditionellen Sucharchitektur ein, um eine schnelle, nahtlose Erfahrung für Indexieren und Suche zu bieten. Es funktioniert wie folgt:

 

  • Durch Hinzufügen des Dateisystem-Staging Repositorys zu einer Architektur können wir den Erwerb des Contents von der Verarbeitung des Contents abkoppeln. In der Phase des Content-Erwerbs sammeln die Aspire Konnektoren Content von verschiedenen Datenquellen und speichern diese im Dateisystem-Staging Repository.
  • Die Pipeline für die Content-Verarbeitung in Aspire liest den Content aus dem Repository ein und bereitet ihn für das Indexieren in der bestehenden Suchmaschine des Unternehmens vor. Da das Dateisystem-Staging Repository Aspire lokal vorliegt kann der Content sehr schnell erneut indexiert werden. Sonstiges erneutes Durchforsten von Content ist nicht erforderlich. Statt Tagen oder Wochen kann das Indexieren nun in Minuten oder Sekunden vorgenommen werden.
  • Das Dateisystem-Staging Repository bietet auch Dienste für Suchanwendungen. Die Suchanwendungen können Content aus dem Repository anfordern (wie HTML, PDF oder Office-Dokumente), um diesen dem Benutzer zu liefern. Mit dem Dateisystem-Staging Repository können Anwendungen nun in einer einzelnen Suchschnittstelle Suchen, Browsen und Content vereinen.

 

In der Praxis: Schnelleres Indexieren und bessere Suche für die Desktop-Anwendung des Katalogs der Library of Congress 

Das Dateisystem-Staging Repository hat die Funktionsweise der Suchanwendung in der Library of Congress von Grund auf umgekrempelt.

Über diese Architektur können die Konnektoren in Aspire den Content einsammeln, egal, ob er aus Dateisystemen, von Crawlern im Internet oder aus anderen Dokumentenarten stammt, und ihn im Dateisystem-Staging Repository speichern, so dass er wann immer benötigt sehr effizient erneut indexiert werden kann.

Hierbei werden über 300 Ressourcen von einem Crawler durchsucht, indexiert und für einheitliches Suchen, Browsen und Betrachten verfügbar gemacht. Die Effizienz des neuen Staging-Systems erlaubt es der Library of Congress, die Crawl-Vorgänge gegen den Content effizienter zu gestalten und damit die Desktop-Anwendung des Katalogs für mehr als 10.000 Bibliothekare und über 1.000 Institutionen weltweit jederzeit aktuell zu halten.

Mehr Informationen über das Projekt der Verbesserung der Suchqualität in der Desktop-Anwendung für den Katalog der Library of Congress finden sich hier.

-- Derek

0