Back to top

Wie können wir im Zeitalter des Big Data intelligentere Suchmaschinen entwickeln?

Kommentar zum Gartner-Artikel: „Insight Engines“ werden eine Unternehmenssuche ermöglichen, die natürlich, umfassend und proaktiv ist

Eine intelligente Suchmaschine fängt damit an, die Ausnahmen zu verstehen

Innovation kommt meist von unerwarteter Stelle – es wäre ja auch keine echte Innovation, wenn man mit ihr gerechnet hätte. In letzter Zeit haben viele Entwicklungen die Suche und Suchmaschinen in ein neues Licht gesetzt und wir sind wieder an einem unerwarteten Ort angekommen: Der Behandlung von Ausnahmen.

Wenn man sich eine Suchmaschine so ansieht, bemerkt man überall Ausnahmen. 

Damit sind keine Ausnahmefehler in der Software gemeint, wie Java Exceptions oder Throwables, sondern wirklich echte Ausnahmen im Sinne der „Ausnahme von der Regel“. Anders ausgedrückt, wie werden diese seltenen (aber oft wichtigen) Situation gehandhabt, in denen die reguläre Betriebsweise der Suchmaschine nicht angemessen wäre?

Die Grafik rechts zeigt die Methoden, über die solche Ausnahmen in Suchmaschinen behandelt werden. Anders ausgedrückt, die Arten, auf die bestimmte Abfragen oder Suchergebnisse „repariert“ werden.

In letzter Zeit sind mir diese verschiedenen Ausnahmen aber so oft aufgefallen, dass ich diese Elemente inzwischen eigentlich eher als ein großes Ganzes sehe, ganz so, als ob all diese Methonen versuchen, ein und dasselbe Problem zu lösen. Diese Erkenntnis hat mir geholfen, mir das Problem anders anzugehen. Das Ergebnis meiner Gedanken war ein großer Haufen Arbeit, die aktuell von Search Technologies erledigt wird, um Tools und Methoden zu erstellen, mit denen all diese Techniken in ein einzelnes, umfassendes System vereint werden, das dann auch komplett neue Möglichkeiten für Funktionen in der Unternehmenssuche eröffnet.

Und erstaunlicherweise haben wir als Resultat auch ein System erhalten, mit dem intelligente digitale Assistenten für Jedermann erstellt werden können.

 

Suche als digitaler Assistent: Siri, Google Now, Cortana und die „Insight Engines“

Warum machen wir das überhaupt? Weil die Kunden es wollen.

Seit Jahren schon wollen unsere Kunden Systeme, die Fragen beantworten, wie Siri. Durch Google Now und Cortana werden solche Systeme immer sichtbarer und daher noch stärker gefordert. Und vor kurzem hat auch Gartner diese „Insight Engines“ besprochen, eine neue Technologie, die den Markt um die Suche neu ausrichtet, indem natürliche, umfassende und proaktive Suche und Einblickerkundung geboten werden.

All das zeigt, dass wirklich ein grundlegender Bedarf an solchen fragebeantwortenden Systemen besteht.

Wenn mich jemand nach solchen Systemen gefragt hat, habe ich bisher immer geantwortet: „Jetzt nicht, vielleicht später“. Warum? Weil ich Angst hatte. Ich konnte keine Lösung sehen, die praktisch umsetzbar war.

Das Grundproblem lag im Verständnis. Generische Systeme der Fragebeantwortung (wie Siri und Google Now) verstehen nur einen sehr allgemeinen, auf ein breites Publikum ausgelegten Themenbereich. Dinge wie Spielfilme, Geburtstage, Geografie und dergleichen mehr. Aber das ist nicht, was unsere Kunden wollen (unabhängig davon, ob es ihnen bewusst ist).

Denn, jeder unserer Kunden will eine Suchanwendung speziell für seine eigene Welt, also für die Suche auf Intranetportalen, im E-Commerce, bei Personaldienstleistungen, bei Mediendiensten und Publikationen oder für den öffentlichen Dienst. Jeder verwendet seine eigene Fachsprache, eigene Abkürzungen, eigene Geschäftsprozesse, eigene Methoden – und doch erwartet jeder, dass sein eigener digitaler Assistent diesen einzigartigen Fachbereich versteht und Fragen beantwortet wie „Wo findet man das TBB-Formular?“ oder „Wie viele Widgets wurden im letzten Jahr an KMU in EMEA verkauft?“

Daher müsste also jedes fragenbeantwortende System einer umfassenden Feinabstimmung unterzogen werden (will heißen: extrem kostspielig), um die konkreten Fragen beantworten zu können.

Aber jetzt sage ich mir: Schon gut. Wir bekommen das hin. Und ich glaube echt, dass das machbar ist!

Schon seit der ersten Suchmaschine, die ich über NLP (Natural Language Processing) programmiert habe, war mit klar, dass das Verstehen der Abfrage der Schlüssel zur optimalen Suchqualität ist.

 

Neues Natural Language Processing für Suchmaschinen

Ich stehe voll und ganz hinter NLP. Schon während des Studiums habe ich Kurse für NLP besucht und Maschinen für syntaktischen (und semantischen) Zustand erstellt. Ich habe damals sogar Software geschrieben, die transitionale Netzwerke für Satzdiagramme, semantische Analyse, anaphorische Referenz, Ausbrüche, Segmentierung und dergleichen mehr implementiert. Aber all diese alten Methoden waren so empfindlich und kostspielig, dass sie es nie in den freien Markt geschafft haben.

Was sich geändert hat, ist, dass es jetzt eine neue Art gibt, Natural Language Processing zu betrachten, über zwei Stufen der Vereinfachung. Man gleicht einfach Text mit großen Datenbanken von Mustern ab und gewinnt aus diesem Abgleich ein Verständnis. Es ist eine Art RISC (Reduced Instruction Set Computing, Rechnen mit reduziertem Befehlssatz) für NLP. Statt in Satzstruktur und interner Bedeutung nach einem tieferen Verständnis zu suchen, erstellen wir einfach große Datenbanken mit Mustern und gleichen die Abfragen mit diesen Mustern ab.

Einige Beispiele:

  • „TBB“ > „Tabellarische Bewertungsbögen“ > FormType
  • „Kleine Unternehmen“ > CustomerCategory

Der Trend bei intelligenten Suchsystemen sieht inzwischen so aus:

 

Big Data verwenden, um Muster zu erstellen

Aber Paul, sag mal, wie hilft uns das alles? Ich meine, wir müssen doch immer noch eine enorme Anzahl Muster manuell erstellen, ist das nicht extrem kostspielig?

Die Bedenken sind berechtigt. Zu Glück gibt es aber mehrere Antworten darauf:

  1. Das Erstellen von Mustern ist inzwischen viel weniger kostspielig, weil keine Experten mehr dafür benötigt werden
  2. Das Erstellen von Mustern ist auch weniger kostspielig, weil wir eine tolle neue Schnittstelle haben
  3. Das Erstellen von Mustern für Unternehmen ist weniger kostspielig, als Muster für die ganze Welt zu erstellen
  4. Man sieht direkt Vorteile, auch nur mit einigen wenigen Mustern
  5. Wir können Big Data verwenden, um Muster zu erstellen!

Also, ja, im Endeffekt werden vermutlich viele Muster benötigt, aber da das Erstellen jedes einzelnen Musters (deutlich) weniger kostspielig ist und wir schon durch wenige Muster einen Vorteil sehen, ist dieses neue System für alle Benutzer von Suchmaschinen sinnvoll.

Mancheiner mag jetzt vielleicht fragen, ob diese Methoden zur Behandlung von Ausnahmen nicht dem Prinzip des Big Data entgegenwirken. Schließlich geht es bei Big Data ja darum, viele Daten anzusammeln und eine weite statistische Analyse über diese vorzunehmen, um Einblicke und Algorithmen für die Vorherbestimmung zukünftigen Verhaltens zu gewinnen.

Mir ist aber klar geworden, dass die beiden Methoden gut zusammenarbeiten: Wir verwenden Big Data, um eine Datenbank mit Mustern zu erstellen.

Die Muster können von überall kommen. Sie können manuell eingegeben werden. Sie können aus Content extrahiert werden (mittels Techniken des Text Minings). Sie können aus Wikipedia, Geonames oder Freebase extrahiert werden. Sie können aus Benutzerabfragen gewonnen werden. Sie können aus den Geschäftssystemen des Kunden extrahiert werden. Oder eine Kombination dieser Möglichkeiten.

Viele dieser Techniken erfordern Big Data, um etwa die große Zahl Token und die große Zahl Query-Logs zu handhaben. Der Output dieser Prozesse sind Muster, Wörterbücher, Tags und dergleichen mehr, die dann in die Maschine eingegeben werden, welche gegen die Muster abgleicht und das Verständnis der Abfrage fördert.

Einer unserer Kunden verfügt bereits über mehr als 12 Millionen Muster, die über Big Data-Analyse, manuelle Bereinigung und eine Kombination davon gewonnen wurden.

 

Wie werden die „Insight Engines“ die Suche verändern?

Unser Ziel ist es hier (wie immer), die Branche der Unternehmenssuche zu bewegen. Alles, was wir hier bei Search Technologies tun, geschieht mit Blick auf die Zukunft der Branche, und so ist es auch in diesem Fall.

Wir wollen diese Ideen verwenden, um einen großen Schritt nach vorne zu schaffen: Hinzu auf wirklich intelligente Suchmaschinen. Damit werden verschiedenste Funktionen möglich, die bisher einfach nicht machbar waren:

  • Fragebeantwortende Systeme 
  • Schnittstellen zu Geschäftssystemen 
  • Gezielte E-Commerce-Suchen (Lesen Sie hier mehr zur Optimierung der Suchfunktionen für den E-Commerce)
  • Intelligente digitale Assistenten 

 

Die Suche für den Benutzer einfach gestalten: Die Sprache der eigenen Welt in Code fassen

Letztendlich wollen wir natürlich ein digitales Verständnis der Welt schaffen. Dieses digitale Verständnis stellt die Brücke zwischen der Sprache (Abfragen, Anforderungen, Aktionen und Content) und den Geschäftsobjekten dar, welche all das darstellen, mit dem sich das Unternehmen befasst.

Und wäre das nicht wunderbar? Ein Computer, der die Sprache des Unternehmens versteht? Der die Bedürfnisse verstehen kann, die hinter den Anfragen stehen? Da muss man dann nur noch ein Spracherkennungssystem hinzufügen und schon hat man einen ganz persönlichen, benutzerdefinierten digitalen Assistenten. Cool.

Dabei gehen wir davon aus, dass wir mit unseren Ideen hier bisher nur an der Spitze des Eisbergs kratzen, hinsichtlich der Möglichkeiten, die ein solcher digitaler Assistent über Suche und Big Data-Analyse bieten kann.

Man muss sich nur mal vorstellen, was alles möglich sein könnte!

- Paul

0