Back to top

Federated Search: Die Optionen

HAUPTPUNKTE

  • Unter Fachkräften der Suchbranche gibt es zwei grundlegende Formen von "Federated Search". Beide sprechen sehr unterschiedliche Ansätze an, sowohl von der Konzeption als auch in technischer Hinsicht.
  • Es ist wichtig zu verstehen, welcher dieser Ansätze am besten zu Ihren Anforderungen passt.

In diesem Artikel definieren und erklären wir die beiden alternativen Modelle für Federated Search. 

 

EINFÜHRUNG

"Federated Search" bedeutet in der Regel:

Entwicklung einer Suche über verteilte und möglicherweise heterogene Datensätze und Erhalten einer einheitlichen Liste der Suchergebnisse.

Es gibt zwei grundlegende Ansätze zu Federated Search, die man als Query-Merging und Index-Merging bezeichnen kann. Im Folgenden werden die Vor- und Nachteile dieser Ansätze umrissen.

 

QUERY-MERGING

In den meisten Fällen ist diese Lösung einfacher und schneller zu implementieren.

  • Ein Query Federator fängt die Abfrage ab und leitet sie an mehrere Suchmaschinen weiter
  • Der Federator wartet dann auf Antwort der Suchmaschinen. Sobald diese eintrifft, werden die Ergebnisse in einer Ergebnisliste verbunden oder verknüpft

Dieses Modell nutzt Daten-Repositories, um eine Suchfunktion zu bieten.

VORTEILE: Der wichtigste Vorteil dieses Ansatzes ist, dass er sehr einfach zu implementieren ist, da kein zusätzliches Indexieren des Contents notwendig ist. Das Query Federation System nutzt einfach bestehende Systeme und extrahiert Ergebnisse, die dann verbunden werden.

In einigen Fällen ist Query-Merging die einzige praktikable Lösung. Beispiele:

  • Verbinden von Web Content in großem Umfang über eine führende Suchmaschine, wie Google
  • Verbinden in einem privaten Datensatz, der hinter einer Paywall liegt und daher nicht lokal indexiert werden kann

NACHTEILE:

  • Wenn der Federator auf die langsamste Suchmaschine warten muss, kann es zu Leistungseinbußen kommen
  • Das Verbinden von Suchergebnissen in einer sinnvollen Trefferliste kann schwierig werden, wenn diese auf Relevanz basiert, da jede Suchmaschine Relevanz unterschiedlich bewerten kann.  Oft ist es daher besser, gar nicht erst nach Relevanz zu verbinden, sondern entweder separate Ergebnislisten (z.B. auf Registerkarten verteilt) auszugeben, ein deterministischeres Datenelement für die Verbindung zu wählen (z.B. das Datum, den Ort oder den Preis), oder Ergebnisse von verschiedenen Quellen in Blöcken anzeigen.
  • Verschiedene Suchmaschinen bieten unterschiedlich fortgeschrittene Abfragemöglichkeiten. Durch die Verbindung während der Abfrage muss man sich in der Regel an der leistungsschwächsten Suchmaschine orientieren. Das muss aber nicht immer der Fall sein. So können etwa fortgeschrittene Query Parser genutzt werden, um sicherzustellen, dass Suchbegriffe für jede beteiligte Suchmaschine optimiert werden
  • Document-Level-Security ist ein möglicher Grund für Leistungsprobleme. Dies hängt aber von der Komplexität der Sicherheitsumgebung ab

 

INDEX-MERGING

Für diesen Ansatz muss der Content in einem zentralen Index gesammelt werden. Dies ist typisch für traditionelle Systeme der Unternehmenssuche.

VORTEILE:

  • Die meisten Suchmaschinen sortieren standardmäßig nach Relevanz, da dies von den meisten Benutzern erwartet wird. Indem alle Daten in einem zentralen Index gesammelt werden, können fortgeschrittene Erweiterungen der Abfrage und Relevanz-Algorithmen angewandt werden, um dem Benutzer hervorragende Suchergebnisse zu bieten.

NACHTEILE:

  • Den Content aus den verschiedenen Repositories zu sammeln kann einen großen Aufwand darstellen. Dies geschieht über schreibgeschützte Leseprozesse. Der Content der entfernten Repositories wird nicht bewegt oder verändert, aber der Prozess zum Indexieren muss alle Elemente lesen. Immer wenn Änderungen vorgenommen werden muss erneut gelesen werden.  In einigen Fällen, beispielsweise bei privatem Content hinter einer Paywall, ist das nicht möglich

 

HYBRID FEDERATED SEARCH

Manchmal ist ein hybrider Ansatz die beste Lösung. Wo immer es sich anbietet, wird der Content in einem zentralen Index gesammelt. Für Repositories, bei denen dies nicht kosteneffizient (oder schlichtweg nicht möglich) ist, werden die Ergebnisse während der Abfrage zusammengelegt. Wenn ein solcher Ansatz genutzt wird, muss die Präsentation der Ergebnisse besonders sorgfältig bedacht werden. Man muss sicherstellen, dass die Benutzer verstehen, wie das System aufgebaut ist, wie man durch das System navigiert und wie die Ergebnisse effizient interpretiert werden können.

 

WELCHER ANSATZ IST DER BESTE?

Welcher Ansatz der Beste ist hängt immer von Ihrer konkreten Datenumgebung und den Anforderungen Ihrer Nutzer ab.

Als erstes müssen die Datenumgebung, Benutzer- und Geschäftsanforderungen eingehend analysiert werden, dann können informierte Entscheidungen getroffen werden.  Wenn wir diese Aufgaben übernehmen, beginnen wird für gewöhnlich mit dem Search Assessment.

Um Ihre Anforderungen an Federated Search genauer zu besprechen können Sie uns auch immer gerne kontaktieren.

Blogkategorien
0