Back to top

Ersatz der GSA durch eine Open-Source-Alternative (Elasticsearch oder Solr): 5 zentrale Punkte

Die Google Search Appliance (GSA) hat das Ende ihrer Laufzeit erreicht. Weitere Informationen über die Supportzeiten und Migrationsstrategien finden Sie im FAQ

Da Google einer der größten Akteure in der Suchbranche ist, bietet die GSA erwartungsgemäß leistungsfähige Suchfunktionen und gute Relevanz, kombiniert mit Benutzerfreundlichkeit und integrierten Wartungsmöglichkeiten. Eine Herausforderung, die sich unseren GSA-Kunden oft stellt, besteht darin, die Relevanz und Funktionen auf die besonderen Kundenanforderungen anzupassen. Dies ist eine häufige Einschränkung bei vielen kommerziellen Suchlösungen.

Open-Source-Suchmaschinen wie Elasticsearch oder Solr (die zu den beliebtesten Suchmaschinen zählen) bieten Flexibilität für eine benutzerdefinierte Anpassung und Feineinstellung nach Bedarf. Die Migration von der GSA zu einer Open-Source-Lösung verschafft auch die Gelegenheit, bestimmte Suchfunktionen hinzuzufügen oder zu optimieren, die mit der GSA bisher nicht möglich waren. 76 % der Teilnehmer an unserer GSA-Umfrage erwägen den Umstieg auf eine Open-Source-Suchmaschine, wie z. B. Elasticsearch oder Solr. Wenn Sie auch zu dieser Gruppe gehören, gibt es einige Punkte, die Sie im Voraus planen sollten: Die Art der Datenaufnahme, die Art der Suchmaschinenabfragen, die Anzeige der Ergebnisse usw.

In diesem Blog möchten wir die fünf wichtigsten Punkte aufzeigen, die man bei einem Umstieg von GSA zu einer Open-Source-Alternative bedenken sollte.

gsa-migration-open-source-de.jpg

 
1.    Spracherkennung

Die GSA bietet Spracherkennung während der Abfrage und Indexierung. Für Ihre Lösung auf der Basis einer Open-Source-Suchmaschine sollten Sie zuerst herausfinden, ob Sie sprachspezifischen Content besitzen. Content, der in mehreren Sprachen oder in Kombinationen mehrerer Sprachen im selben Dokument vorliegt, erfordert einen ganz eigenen Ansatz. 

Um die Hauptsprache des Dokuments zu bestimmen, verlassen sich Elasticsearch und Solr beide auf den Aufnahmeprozess. Plug-Ins für die Spracherkennung, wie die Spracherkennung von Tika oder der Compact Language Detector von Google, können leicht integriert werden, um während des Aufnahmeprozesses die Sprache zu erkennen. Für die meisten grundlegenden sprachlichen Nutzungsfälle funktionieren diese Plug-Ins für die Spracherkennung sehr gut. Handelt es sich jedoch um sehr komplexe Fälle einer speziellen Sprache, kann eine individuelle Anpassung oder die Integration einer anderen Spracherkennungslösung eines Drittanbieters erforderlich werden. Ein Beispiel dafür wäre der Rosette Language Identifier von Basis Technology. 

Sobald die primäre Sprache des Dokuments bestimmt wurde, können angemessene Hilfsmittel für die Sprachanalyse gewählt werden. So kann Elastic Mapping etwa Templates nutzen, um eine Zuordnung zu erstellen, die sprachspezifische Analysehilfsmittel für verschiedene Sprachen bietet. Namen von Templates können Muster aufweisen, wie etwa ein Suffix (z. B. marketing_en für englischen Content und marketing_de für deutschen Content). In ähnlicher Weise können in Solr sprachspezifische Feldarten (durch angemessene Analysehilfsmittel von Lucene) definiert und auf Feldebene angewendet werden.

2.    Rechtschreibkorrektur

Die Rechtschreibkorrektur der GSA lässt sich leicht aktivieren und basiert auf dem indexierten Content. Diese Funktion ist auch in Elasticsearch und Solr verfügbar. In den meisten Fällen reicht es aus, wenn die Rechtschreibkorrektur den indexierten Content nutzt, der aus ausgewählten Feldern gewonnen wird (z. B. Titel, Beschreibung, Thema, usw.). In Solr 6 können Sie Felder für die Rechtschreibprüfung und den Content-Index definieren, in dem sich diese Felder für die Rechtschreibprüfung befinden. In Elasticsearch kann auf ähnliche Weise der Term Suggester mit einem bestimmten Feld für Vorschläge zur Rechtschreibung konfiguriert werden. Wenn Sie mehrere Felder haben, können diese in ein einzelnes Feld kopiert werden, das im Term Suggester angegeben wird.

Ein häufiger Nachteil ist es, dass die Rechtschreibkorrektur in bestimmten Situationen nicht die erwarteten Ergebnisse liefert – aufgrund von unzureichendem Content, Tippfehlern im Content oder nicht angemessenen Erwartungen. Für noch speziellere Nutzungsfälle können Sie auch ein eigenes Wörterbuch für die Rechtschreibkorrektur erstellen oder alternative Lösungen erwägen, zum Beispiel: 

  • Die Technik, die in diesem ACL 2009-Artikel beschrieben wird: Mittels Content aus dem Internet als Corpus werden ein Fehlermodell und ein n-gram Sprachmodell erstellt, um eine sprachunabhängige Autokorrektur zu bieten. 
  • Microsoft Azure Cognitive Services APIs: Dieser Dienst besteht aus mehr als 20 APIs, eine davon ist die Bing Spell Check API. Diese API nutzt Maschinelles Lernen und statistische Methoden, um eine Rechtschreibkorrektur basierend auf der Sprache des Contents zu ermöglichen. Sie ist erhältlich für die Integration mit Open-Source-Suchanwendungen. 

3.    Textvervollständigung

Text- oder Abfragevervollständigung ist eine beliebte Funktion, die Vorschläge anzeigt, während der Benutzer die ersten Buchstaben in das Suchfeld eingibt. Die Textvervollständigung der GSA basiert auf folgenden Säulen: 

  • Häufige Suchbegriffe, die Treffer erzielt haben.
  • Eine Blacklist, die bestimmte Begriffe aus der Liste für die Autovervollständigung ausnimmt.
  • Keine konfigurierbare Whitelist für die Aufnahme bestimmter Begriffe oder Ausdrücke in die Liste der Textvervollständigung. Sie können stattdessen ein benutzerdefiniertes Skript nutzen, das wiederholt ausgeführt wird, um die GSA abzufragen und damit der Liste der Textvervollständigung Suchbegriffe hinzuzufügen, die Treffer gefunden haben.

Ähnliches Verhalten können Sie in den Open-Source-Alternativen Elasticsearch und Solr über zwei Wege erreichen:

  • Feldbasierend: Ähnlich wie bei der Rechtschreibkorrektur kann dieselbe Lösung auch hier genutzt werden, indem der indexierte Content genutzt wird, um eine Auswahl für die Textvervollständigung zu bieten. Bei diesem Ansatz wird ein Feld, wie etwa Titel oder Beschreibung so konfiguriert, dass Optionen für die Textvervollständigung zurückgegeben werden. 
  • Auf Query-Log basierend: Dieser Ansatz bietet mehr Flexibilität, um benutzerdefinierte Begriffe der Liste der Textvervollständigung hinzuzufügen. Er erfordert mehrere Schritte:

- Erstellung eines Logmechanismus, mit Logs von Abfragen, Treffern und Session-IDs als Minimum. Dieses Verfahren kann kompliziert werden, wenn eine bestimmte, sprachspezifische Funktion der Textvervollständigung benötigt wird, ist jedoch nicht unmöglich zu implementieren.
- Logs durchsuchen, um häufige Abfragen zu bestimmen, die zu Ergebnissen führen.
- Erstellen von Begriffslisten für die Textvervollständigung, die in einem separaten Index gespeichert werden.
- Konfigurieren eines Dienstes für die Textvervollständigung und dessen Integration in die Benutzeroberfläche über JavaScript.

4.    Protokolle und Berichte

Die GSA bietet grundlegende Berichte und Suchprotokolle für die häufigsten Abfragen, Abfragen ohne Treffer usw. Da mehr und mehr Anwendungen auf die Suche setzen, ist es inzwischen essenziell geworden, Funktionen der Suchanalyse mit einzubeziehen. Die Suchanalyse ist der Schlüssel zum Verständnis, wie die Benutzer die Suche verwenden und wo man Verbesserungen einbringen kann. 

Es gibt verschiedene Werkzeuge von Drittanbietern, die man integrieren kann, um die Suchanalyse in Solr und Elasticsearch zu ermöglichen. Als Teil des Elastic Stacks bietet Elasticsearch eine nahtlose Integration mit Kibana und Logstash und liefert damit benutzerfreundliche Analyseberichte und Visualisierung. Für Solr gibt es vergleichbare Werkzeuge für die Visualisierung, wie z. B. Banana, Silk und Hue. 

5.    Click-Relevanz 

Die Click-Relevanz der GSA wird durch die Funktion Advanced Search Reporting (ASR) ermöglicht. Diese Funktion analysiert automatisch das Benutzerverhalten und die Clicks auf den Seiten der Suchergebnisse, um die Relevanzbewertung für bestimmte Abfragen zu optimieren. Open-Source-Suchmaschinen bieten Flexibilität, um die Relevanz über Felder und BM25-Relevanzparameter fein einzustellen. Daher ist es möglich, über die folgenden Schritte eine ähnliche Relevanzlösung in Elasticsearch und Solr zu erstellen:

  • Entwickeln eines benutzerdefinierten Mechanismus zum Erfassen der Clickdaten der Benutzer auf Sitzungsebene aus den Logs.
  • Einsatz von Learn-to-Rank in Elastic oder Solr, um die Suchrelevanz fein einzustellen.

Achten Sie bei der Planung Ihrer Migration von der GSA auf diese fünf Punkte, dann können Sie das Risiko einer Unterbrechung des Betriebs oder schlechter Leistung abwenden. 

Erwägen Sie einen GSA-Ersatz in der Cloud?

Zusätzlich zu den Open-Source-Alternativen gibt es auch diverse kommerzielle Optionen für den Ersatz der GSA durch eine Alternative in der Cloud. Viele Search-as-a-Service-Plattformen sind als Software-as-a-Service (SaaS), Platform-as-a-Service (PaaS) und Infrastructure-as-a-Service (IaaS) verfügbar. Diese cloudbasierten Suchlösungen sind vielleicht in dem Funktionsumfang beschränkt, der von dem Betreiber angeboten wird, können jedoch bis zu einem gewissen Grad angepasst werden und bieten auch fantastische Skalierbarkeit. Zu den möglichen SaaS-Lösungen gehören Azure Search, Amazon CloudSearch und Google Cloud Search (derzeit verfügbar für Google G Suite-Kunden). Sowohl IaaS- als auch PaaS-Dienstmodelle können jede Elasticsearch- oder Solr-Anwendung unterstützen, die in der Cloud gehostet wird (ähnlich wie bei Systemen vor Ort). 

Wenn Sie mehrere Suchmaschinen in der näheren Auswahl haben, bietet unser E-Book zehn Schlüsselkriterien für die Evaluation einer GSA-Alternative. Fordern Sie Ihre kostenlose Beratung an, damit wir Ihnen helfen können, eine nahtlose Migration von der GSA zu planen und zu implementieren.

- Sundip

0

Wir freuen uns, bekannt zu geben, dass wir jetzt Teil von Accenture sind! Lesen Sie die Ankündigung hier.