Back to top

Reed Business Information (RBI): Migration von FAST ESP zu Solr – Fallbeispiel

Weltweit aktives Unternehmen für Geschäftsinformationen setzt auf Open-Source-Suchmaschine Solr, um Kosten zu reduzieren und Leistung hoch zu halten.

reed-business-information-logo.jpg„Wir haben den Übergang unserer Sites und Dienste von FAST auf Solr progressiv in einer zweiwöchigen Periode vorgenommen, ohne dass es jemandem aufgefallen wäre. Gleichzeitig haben wir unsere laufenden Betriebskosten um mehr als die Hälfte reduziert.“

- Graeme McCracken, CIO, Reed Business International


HINTERGRUND

Reed Business Information (RBI) ist ein führender Anbieter von Geschäftsinformationen, Daten- und Marketinglösungen, der für die Branche kritische Datendienste erbringt und führende Tools entwickelt und eine Online-Community und Job-Websites unterhält. RBI hat Search Technologies mit einem Migrationsprojekt beauftragt, um die Systeme von FAST ESP auf eine Infrastruktur zu migrieren, die auf Solr basiert und auf Amazon Web Services (AWS) EC2 Instanzen eingesetzt wird.

HERAUSFORDERUNG

RBI setzte FAST schon seit 2005 ein, um die Suche auf zahlreichen Websites zu betreiben. FAST ESP bot hierfür eine erwiesenermaßen hochgradig zuverlässige Plattform. Zusätzlich zu minimaler Downtime bot FAST große Abfragekapazitäten und wurde als Plattform für die Entwicklung und den Einsatz zahlreicher fortgeschrittener, mehrsprachiger Funktionen für die Extrahierung und Kategorisierung von Entitäten genutzt. Somit stand FAST sowohl hinter der Suche als auch den kontextgebundenen Angeboten der Links in Widgets, die auf Hunderten von Websites gefunden werden.

FAST, das seit 2008 zu Microsoft gehört, wird in Zukunft als Teil von SharePoint angeboten. Als schnell beweglicher Herausgeber von Titeln sowohl für Geschäfts- als auch Direktkunden in speziellen Nischen hat RBI beschlossen, dass Solr eine bessere Alternative darstellt, FAST ESP zu ersetzen. RBI beauftragte Search Technologies, sowohl für Consulting als auch die Implementierung des Migrationsprojekts von FAST ESP auf Solr.

Das erste Ziel des Projektes war, einen Dienst zu bieten, der die Funktionen von FAST erfolgreich nachstellt, ohne dass irgendwo Funktionen verloren gehen oder Leistung abfällt.

Die Websites, die von dieser Anwendung bedient werden, verwenden verschiedene Sprachen, darunter Chinesisch (sowohl vereinfachte Kurzzeichen als auch traditionelle Langzeichen), Englisch, Holländisch, Spanisch, Französisch, Italienisch und Deutsch.

Zu dem Content, der in den Index aufgenommen werden musste, gehörte erstmal der gesamte Content aller betroffenen Websites, damit diese eine fortgeschrittene Suchfunktion erhalten. Hinzu kamen diverse andere Contentquellen, über die zusätzliche Informationen und Nachrichten eingebunden werden, normalerweise mit Fokus auf Querverbindungen der einzelnen Branchen. Das neue System betreibt auch die Suche für das Unternehmenssuchportal bei RBI, Zibb.com. 

Hauptforderung von RBI war, die bestehenden Funktionen beizubehalten, den Publishern innerhalb von RBI einen hochgradig funktionalen und zuverlässigen Dienst zu bieten und gleichzeitig die gesamten Betriebskosten der Suchinfrastruktur substanziell zu senken.

Einige zentrale Aspekte der bestehenden Infrastruktur nutzten Methoden, die nur speziell durch FAST geboten werden. Zudem wurde FAST auf einer von Microsoft gehosteten Anlage mit mehr als 90 Servern eingesetzt.

ANSATZ

Ein zentraler Aspekt bei den Anforderungen war, dass bei Publikationen, welche die Suche nutzen, keine Änderungen in der Konfiguration notwendig werden darf. Hierzu mussten eine Reihe FAST ESP-Methoden nachgestellt werden, darunter:

  • Transformation von FAST FQL-Suchanfragen in die Solr-Abfragesyntax
  • Ausgabe von Ergebnissen in normalem FAST ESP-Format (durch Manipulation der von Solr ausgegebenen XML-Ergebnisse)
  • Nutzen der bestehenden Funktionen für die Content-Verarbeitung, wie Extrahierung und Kategorisierung von Entitäten

Es wurde abgestimmt, dass die Aspire Content Processing-Plattform und QPL, die Query Processing Language, von Search Technologies für diese Funktionen eingesetzt werden sollen. Daher umfasste die endgültige Lösung Solr, Aspire und eine Reihe bereits bei RBI bestehender Technologien, die oft selbsterstellt waren.

LÖSUNG

Über einen Zeitraum von mehreren Monaten wurde das Projekt durch tägliche Telefonate zwischen RBI und Search Technologies abgestimmt und in Details ausgearbeitet. Zu den wichtigsten Entscheidungen gehörten:

  • Der Einsatz von Amazon AWS zum Hosten des neuen Suchdienstes
  • Die Entwicklung eines Query Parsers, um FAST FQL in Solr-Suchsyntax und Solr-Suchergebnisse in FAST ESP-Format umzuwandeln, damit die empfangenden Content Management Systeme keine Änderungen bemerken und wie gehabt funktionieren
  • Der Einsatz eines softwarebasierten Lastausgleichs, um Abfragen an Server mit freien Kapazitäten zu senden

In dem Projekt wurde auch eine beachtliche Menge Arbeit erforderlich, um die Index-Pipeline von FAST ESP nachzustellen, einschließlich der Schnittstellen und Tools von Drittanbietern. Dies wurde durch das Aspire Content Processing-Framework erreicht.

Die nativen Fähigkeiten der Sprachverarbeitung in Solr konnten die Anforderungen dieses Projektes an die Mehrsprachigkeit gut bewältigen.

ERGEBNISSE

Graeme McCracken, CIO bei Reed Business International, meinte dazu: „Wir haben den Übergang unserer Sites und Dienste von FAST auf Solr progressiv in einer zweiwöchigen Periode vorgenommen, ohne dass es jemandem aufgefallen wäre. Gleichzeitig haben wir unsere laufenden Betriebskosten um mehr als die Hälfte reduziert.“

Viele Unternehmen von Reed Business werden jetzt von diesem auf Solr basierenden Dienst versorgt. Laut Spezifikationen des Design sollten durchschnittliche Suchzeiten von weniger als 200 Millisekunden erreicht werden. Das aktuelle System liefert konsistent einen Durchschnittswert von 70 Millisekunden. 

Das neue Solr-Suchsystem hat mehr als 30 Millionen Dokumente im Index und erfüllt die nachhaltigen Anforderungen an die Kapazität von mehr als 300 Abfragen pro Sekunde, ohne dass es zu Einbußen bei der Suchgeschwindigkeit kommt.

0