Back to top

Suche: Interaktiver Explorer für Big Data

HAUPTPUNKTE

  • In der nächsten Generation interaktiver, erforschender Anwendungen zur Datenanalyse wird die Suche eine zentrale Rolle spielen
  • Die Entwicklung in diese Richtung wird auch durch die letzten Schritte von Marktführern im Bereich Big Data angezeigt.
  • Jeder weiß, wie eine Suche funktioniert, daher ist es nur natürlich, Daten über eine Suchfunktion zu erforschen.
  • Unternehmen können jetzt handeln und sich über Best Practices als Marktführer in diesem Bereich positionieren.

 

KOMMENTAR

Traditionell hat die Datenanalyse, also die Suche nach Trends und Einblicken, immer auf Berichten basiert, die über SQL-Abfragen oder andere sorgfältig ausgearbeitete Syntax generiert werden. In der Zukunft hingegen wird die interaktive Untersuchung von Datensätzen immer mehr an Bedeutung gewinnen.

Entscheidungsträger in Unternehmen lieben Berichte in festgelegtem Format, die ihnen exakt die Informationen liefern, die sie benötigen, um Geschäftsprozesse zu überwachen. "Wissensarbeiter" hingegen, deren Einblicke die Grundlage für Innovationen und zukünftigen Erfolg des Unternehmens bieten, finden ihre Inspiration durch Interaktion mit Datensätzen.

Die Suche wird eine zentrale Rolle dabei übernehmen, interaktive, explorative Anwendungen zu erstellen. In diesem Artikel wollen wir einige der wichtigsten Gründe besprechen, warum zur Suche gewechselt werden sollte.

 

DIE STEIGENDE BEDEUTUNG DER SUCHE

Yonik Seeley, der Erfinder von Solr, arbeitet jetzt für Cloudera. 

Für diejenigen, denen der Name noch kein Begriff ist: Cloudera ist das führende Software-Unternehmen für Big Data. Cloudera bietet eine kommerzielle Software an, die auf Apache Hadoop basiert und zusätzliche Funktionen sowie professionellen Support für Produktionssysteme bietet.

Vor etwa einem Jahr wurde dem Produktangebot "Cloudera Search" hinzugefügt, eine Suchanwendung basierend auf Solr. Um die Entwicklung mit Nachdruck zu verfolgen hat Cloudera nun einen der führenden Gurus für Solr schlechthin angeworben.

Von unserem Standpunkt aus gesehen (also mit Hinblick auf die Implementierung von Suchmaschinen und den dazugehörenden Consulting-Dienstleistungen) war dieser Schritt nur logisch. Über die letzten Jahre hinweg hat unser CEO auf verschiedenen Konferenzen immer wieder das Potenzial der Suche für Big Data angesprochen.

Aber warum ist die Suche so wichtig für Big Data? Kurz gesagt bietet sie die beste Möglichkeit für interaktive Erforschung und Analyse großer Datensätze.

 

WARUM STELLT DIE SUCHFUNKTION EINEN MEHRWERT DAR?

Die Suche ist inzwischen so alltäglich geworden, dass wir oft vergessen, warum sie für uns so wichtig ist. Auf ihre Bedeutung für die Analyse bezogen gibt es drei wichtige Gründe, warum die Suche als standardmäßige Zugriffsmethode sinnvoll ist. Die Suche ist:

  • SCHNELL: Auch bei sehr großen Datensätzen kann die Suche Ergebnisse in Bruchteilen einer Sekunde liefern. Dadurch wird die Konversation mit den Daten angeregt.
  • FLEXIBEL: Ein Suchindex bietet enorme Flexibilität. Er stellt die ultimative schemafreie Datenstruktur dar und weist keine rigiden Einschränkungen auf, welche Kombinationen von Wörtern oder Datenfacetten gesucht, verglichen oder analysiert werden können.
  • GEWOHNT: Jeder weiß, wie eine Suche funktioniert. Die meisten von uns benutzen sie jeden Tag.

Die Suche als Hilfsmittel für die interaktive Analyse einzusetzen ist einfach nur eine Frage der Anwendung von Best Practices, Gedanken zur Architektur und einer angemessenen Benutzeroberfläche für die Anzeige der Abfrageergebnisse. 

 

EINEN HERAUSRAGENDEN SUCHINDEX ERSTELLEN

Die erste Voraussetzung für eine suchbasierte Analyse-Anwendung ist ein guter Index. Hierbei sollte man sich Gedanken zur Vorverarbeitung der Daten vor dem Indexieren machen und Fragen wie die Qualität und Sauberkeit der Daten und die Normalisierung der Begriffe erwägen. Als Beispiel: Sollte der Begriff "International Business Machines" für die Analyse mit dem Begriff "IBM" zusammengelegt werden?

Die gute Nachricht ist, dass es jemanden gibt, der mit all den Fähigkeiten und Best Practices aushelfen kann, die benötigt werden, um einen herausragenden Suchindex zu erstellen: Genau das ist seit Jahren unsere Aufgabe im Bereich der Unternehmenssuchen.

 

WERT AUS SUCHLOGS GEWINNEN

Ein Beispiel, wie eine einfache Suchschnittstelle mit einem sehr großen Datensatz arbeiten kann:

An dem Tag, als der Wechsel von Yonik Seeley zu Cloudera bekannt wurde, war ich mit meinem liebsten Analysetool für Big Data beschäftigt, Google Trends.

Unser Unternehmen befasst sich mit Suchfunktionen, daher lieben wir alles, was mit Log-Dateien von Suchfunktionen zu schaffen hat. Viele unserer Kunden haben Vorteil aus den Informationen gezogen, die wir in diesen Log-Dateien finden konnten. Damit wir nicht zu sehr abschweifen, will ich die Diskussion der Analyse von Log-Dateien in diesem Artikel auf eine Anekdote beschränken.

Wir hatten in den neunziger Jahren einen Kunden, der für die Website einer großen Zeitung zuständig war. Dieser hatte es sich angewöhnt, jeden Abend eine Liste der 20 häufigsten Suchbegriffe auszudrucken, die in den letzten 12 Stunden auf seiner Website vorgekommen sind, und diese persönlich zum Meeting der Redaktionsleitung zu bringen, das jeden Abend in einem verrauchten Raum stattfand. Über dem einen oder anderen Bier erzählte er uns davon, wie seine Suchlogs nicht selten dazu geführt haben, dass die Titelseite der Druckausgabe am nächsten Morgen noch einmal geändert wurde. Ebenso können Suchlogs auch die Content-Strategie beeinflussen. Niemand hätte je daran gedacht, dass altmodische Kreuzworträtsel auch für Besucher der Online-Angebote ein beliebtes Ziel sein würden, bis dies durch Suchlogs belegt wurde. Seitdem umfasst jenes Onlineangebot auch ein tägliches Online-Kreuzworträtsel.

 

INFORMATIONEN AUS ABFRAGEN GEWINNEN

Neugierige Geister stellen Fragen. Für Suchvorgänge online ist die Eingabe eines Abfragebegriffs in einer Suchmaschine immer noch die beliebteste Art, Informationen zu finden. Eine Abfrage ist ein direkter, formfreier Ausdruck eines Bedürfnisses.

Google Trends ist die ultimative Manifestation der Analyse von Query-Logs, die Daten basieren auf Milliarden Suchen jeden Tag. Dadurch wird ein nützlicher Grundwert für die Nachverfolgung und den Vergleich geboten. Die eigentlichen Funktionen sind sehr einfach, können aber äußerst nützliche Einblicke liefern.

So wird beispielsweise angezeigt, dass das Interesse an ElasticSearch im Bereich Open-Source seit letztem Jahr höher ist als an Solr. Rein gefühlsmäßig hätten wir das wohl auch erwartet, aber es geht nichts über solide empirische Erkenntnisse, über die eine Theorie hinterlegt, widerlegt oder in Frage gestellt werden kann.

 

 

Im Folgenden steht ein Beispiel (bereitgestellt durch Kibana, die Benutzeroberfläche, die im ElasticSearch "ELK Stack" verwendet wird), wie Suchergebnisse, die durch eine Abfrage bei einem sehr großen Datensatz geliefert wurden, auf eine Art ausgegeben werden können, dass sie Gedanken anregen und Einblicke herbeiführen

 

 

Dies ist die Zukunft der Suche. Die Suche wird wichtige Geschäftsprozesse immer stärker unterstützen, von E-Commerce zur Forschung, vom Kundendienst bis zu Compliance. Gleichzeitig wird die Suche aber auch die standardmäßige Zugriffsmethode für die Erforschung von Big Data werden.

 

ZUSAMMENFASSUNG

  • Jeder kennt die Suchfunktion. Sie ist die universelle Zugriffsmethode, um Fakten zu prüfen, Dokumente abzurufen oder Informationen zu einem Thema zu finden. 
  • Auch in der Welt des Big Data wird die Suche zum universellen Tool für die interaktive Analyse von großen Datensätzen werden.
0