Back to top

Analyse, Suche und datengestützte Unternehmen

Search, Personalization, Relevancy Ranking, and Predictive Analytics & All Play a Part in a Data Driven Organization

Suche, Personalisierung, Relevanzbewertung und Predictive Analytics spielen für datengestützte Unternehmen eine große Rolle

Als ich anfing, diesen Artikel zum "Erschaffen eines datengestützten Unternehmens" zu schreiben, dachte ich, dass ich hier etwas unheimlich Cooles erfinde. Dann habe ich festgestellt, dass es zu diesem Thema sogar schon ein  Buch von O’Reilly gibt, wie auch ein Haufen Forschung durch Analysten der Branche. Es scheint sich hier also um einen der heißen Geschäftstrends des Jahres zu handeln.

Nun gut. Das ist nicht das erste Mal, dass ich etwas "erfinde", was schon von jemand anderem erfunden (und nicht selten besser ausgearbeitet) wurde. Daher will ich also den Gedanken eines datengestützten Unternehmens mit etwas Konkretem und Praktischen verbinden: Der Suche nach besseren Suchergebnissen.

Zuerst sollten wir Analyse, Personalisierung und Relevanzbewertung besprechen, und warum diese für datengestützte Unternehmen so wichtig sind.

Der Prozesskreislauf eines datengestützten Unternehmens

Es hat etwas gedauert, aber inzwischen kann ich meine Gedanken zum Prozesskreislauf auf vier Worte reduzieren:

Dieser Prozess beschreibt meine Vision, wie Unternehmen, Geschäftsprozesse und Nutzerschnittstellen in der Zukunft funktionieren werden. Dabei steht "Nutzer" sowohl für "Mitarbeiter" (bei internen Interaktionen) und "Kunden" (bei externen Interaktionen).

Dieser Prozess beschreibt gleichzeitig auch, wie Projekte für Suchmaschinen vorgehen sollten. Über die Relevanzbewertung bei Suchmaschinen (welche eigentlich Predictive Analytics kombiniert mit Nutzerinteraktion in Echtzeit ist) ist mir dieser Prozess und sein Wert für Unternehmen jeder Art vollständig klar geworden.

 

Sammeln = Logs & Data Warehouse

Das Ziel dieses Schritts ist es, so viele Informationen wie möglich über den Nutzer (Mitarbeiter oder Kunde) von jeder verfügbaren Quelle zu sammeln und zu normalisieren.

Dabei dreht sich alles um die Log-Analyse. Mir geht es aber weniger um die Logs an sich (die nur das Medium für die Informationen zu Ereignissen darstellen), sondern mehr um die Geschäftsereignisse. Diese Geschäftsereignisse bieten wertvolle Informationen über den Nutzer, die erfasst und gespeichert werden müssen, damit sie genutzt werden können, um die Schnittstelle zwischen Nutzer und Unternehmen zu optimieren.

Auf den ersten Blick ist es schwer zu verstehen, wo der Wert darin liegt, so viele Daten über den Nutzer zu sammeln, die zuerst unnötig erscheinen. Darüber werden wir später noch reden.

 

Erforschen = Analyse & Visualisierung

Sobald wir die Daten haben, müssen sie erforscht, visualisiert und analysiert werden.

Hierzu nutzen wir Tools wie Kibana und R, die Einblicke über den Nutzer liefern, die in den Daten stecken, und die Theorien über den Nutzer prüfen, die zu weiteren Einblicken oder nutzbaren Prognosen führen können.

Die Phase "Erforschen" legt den Schwerpunkt auf Flexibilität und Data-Mining. Das Ziel ist es, Signale zu bestimmen, die in den Daten liegen und die einen engen Bezug zu den Bedürfnissen des Nutzers haben und Einblicke liefern können.

 

Prognose = Relevanzformeln

Wenn wir jetzt also einen besseren Überblick über die Signale des Nutzers haben, die in den Daten stecken, können wir diese Signale nutzen, um Prognosen zu erstellen. Das Ziel dabei ist es normalerweise, Prognosen zu erstellen, die zu Erfolg führen, wie z.B. zu gekauften Produkten, geliefertem nützlichen Content, beantworteten Supportfragen, zufriedenen Kunden, belegten Stellen, zugeordneten Ressourcen, erfolgreich abgeschlossenen Projekten usw.

Big Data und maschinelle Lernverfahren sind für diesen Prozess von kritischer Bedeutung, ebenso sind aber gesunder Menschenverstand, sorgfältige Auswertung und Analyse wichtig. Es wäre zu einfach, wenn man nur einen Haufen Signale in einen Prognose-Algorithmus füttert und darauf wartet, dass die Magie losgeht. Man braucht einen zielstrebigen und kritischen Blick, um die Algorithmen zu evaluieren und testen, um unklare Prognosen und Überinterpretation zu vermeiden.

Das Ergebnis dieser Phase ist eine Formel, die mit Erfolg Prognosen erstellt. In der Branche der Suchanwendungen nennen wir dies eine "Relevanzformel". Diese versucht basierend auf Input (also Signalen) zu bestimmen, welcher Content für den Benutzer relevant ist.

 

Interaktion = Suche & Personalisierung

Der letzte Schritt ist es, die neue Formel in den Betrieb einzubinden. Wir bei Search Technologies füttern die Formel meist über benutzerdefinierte Operatoren direkt in die Suchmaschine. Dadurch wird die Suchmaschine zu einer Maschine für Zuordnungen in großem Maßstab umgeformt (natürlich muss man hierfür Zugriff auf den Quellcode der Suchmaschine haben, beispielsweise durch Solr oder ElasticSearch). Über das Medium der Suchmaschine interagiert der Benutzer in Echtzeit mit der Prognoseformel. Während der Benutzer sich durch das System bewegt wird jeder Input gesammelt und an die Suchmaschine geliefert, die wiederum relevanten Content und relevante, personalisierte Ergebnisse ausgibt, die den Benutzer bei Navigation oder Einkäufen unterstützen.

Bei Mitarbeitern ordnet die Suchmaschine deren berufliche Anforderungen dem verfügbaren Content zu und liefert Antworten passend zur Arbeitsbeschreibung und deren Anforderungen, immer dann, wenn sie benötigt werden. In einigen Szenarien (Personaldienstleistungen, Kundendienst) kann die Suchmaschine in die Tätigkeit selbst eingebaut werden, so dass diese die potenziellen Antworten automatisch liefert, wann immer sie benötigt werden.

 

Suche ist allgegenwärtig

Für mich, der in den 90er Jahren die Grundlagen der Suchfunktionen gelernt hat, ist es verblüffend, dass die Suche in so ziemlich jeder Phase eine Rolle spielt:

Von Relevanzbewertung zu Predictive Analytics

In letzter Zeit habe ich viel Zeit mit Projekten für die Evaluation der Exaktheit von Suchmaschinen über Big Data verbracht (siehe auch das White Paper zur Analyse von Exaktheit in der Suche) und Operatoren für neue Modelle der Relevanzbewertung entwickelt.

Ein Punkt, den ich bisher noch nie schriftlich ausformuliert habe, obwohl er eine der Grundprämissen für meine Arbeit darstellt, ist, dass die Relevanzbewertung eine Form von Predictive Analytics darstellt.

Das Ziel der Relevanzbewertung bei Suchmaschinen ist schließlich, Dokumente (oder Produkte oder Websites) auszugeben, die für den Benutzer relevant sind. Dazu versucht die Suchmaschine basierend auf einem bestimmten Satz Inputs zu bestimmen, welche Dokumente für den Benutzer zu einem bestimmten Zeitpunkt relevant sind.

In letzter Zeit hat sich nur geändert, dass Big Data, statistische Analyse und Technologien der maschinellen Lernverfahren die Möglichkeiten der Relevanzbewertung revolutioniert haben und diese in eine statistisch belegte Datenwissenschaft umwandeln. Dies ist einer der Gründe, warum es so aufregend ist, jetzt in der Branche der Suchmaschinen zu arbeiten - während der Revolution von Big Data und statistischer Analyse.

Aber noch wichtiger ist, wie Relevanzbewertung und Predictive Analytics immer enger miteinander verknüpft werden, um Geschäftswerte zu schaffen:

  1. Bestimmen, welche Produkte gezeigt werden --> Kunde kauft  
  2. Personen mit benötigten Produkten verbinden --> Kunde ist zufrieden
  3. Interessanter Content wird geboten --> Kunde ist involviert

In vielen Unternehmen begegnen mir Entscheidungsträger, die nur mitfühlend nicken, wenn ich versuche ihnen zu erklären, wie wichtig die Relevanzbewertung für die Kundenzufriedenheit und den Umsatz ist. Offensichtlich ist es mir noch nicht gelungen, diesen Bezug angemessen in Worte zu fassen, da Projekte für Scoring, metrische Analyse und Predictive Analytics über Big Data bei Suchmaschinen einfach zu oft zu weit unten auf der Prioritätenliste landen.

Es ist frustrierend, aber die einfache Wahrheit ist:

Geld, das in Relevanzbewertung und Predictive Analytics investiert wird, bringt zehnfachen Ertrag zurück.

Noch vor einigen Jahren habe ich gedacht:  "Relevanz ist wichtig, aber niemand wagt sich daran, weil es zu hohe Investitionen erfordert." Inzwischen haben wir daran gearbeitet, die Kosten des Scorings und der Relevanzoptimierung zu reduzieren (Open-Source-Produkte helfen, da wir bei diesen neue Relevanzmodelle direkt in die Suchmaschine eingeben können). Heutzutage haben wir mehr Tools, Big Data-Frameworks und Prozesse, dadurch sind die Kosten überschaubarer geworden und Relevanz wird mit jedem Tag finanzierbarer.

Also ist es inzwischen keine Frage der Kosten mehr, vor allem, da der ROI nach wie vor offensichtlich ist. Vielleicht liegt es also einfach daran, dass Predictive Analytics ein zu neues und zu fachspezifisches Thema ist. Im Folgenden zwei Beispiele für kürzlich durchgeführte Projekte bei Kunden, bei denen voller ROI bereits nach wenigen Monaten erreicht wurde: 

Wenn ich versuche, Predictive Analytics, Relevanzbewertung und Optimierung der Relevanz zu erklären, führe ich gerne an: 

"Bei Kunde X haben wir diese Schritte vorgenommen und eine Verbesserung der Umwandlungsrate bei Abfragen um 7,5% erreicht, welche in zusätzlichen 4,5 Millionen US$ Umsatz resultierten, für eine Investition in Höhe von 350.000 US$. Das entspricht einem 12,8fachen ROI."

"Bei Kunde Y haben wir das System optimiert und einen Zuwachs von 6% im Vertrieb erreicht, was in zusätzlichen 480 Millionen US$ Umsatz resultierte, für eine Investition in Höhe von 2 Millionen US$. Hier hatten wir einen 240fachen ROI."

Meist ernte ich aber nur leere Blicke und Kommentare wie "Oh, sehr interessant", dann verlasse ich den Raum, frustriert, da ich einfach nicht kommunizieren kann, wie sehr die Welt sich um uns herum über Big Data, maschinelle Lernverfahren und Predictive Analytics neu definiert (Alles Inputs zur Relevanzbewertung). Jetzt wäre die Zeit, solche Projekte zu starten! Später könnte es schon zu spät sein.

Die Welt um uns herum wird neu definiert, Big Data, maschinelle Lernverfahren und Predictive Analytics als Inputs für die Relevanzbewertung spielen dabei eine führende Rolle. Der ideale Zeitpunkt, diese Chancen zu ergreifen, wäre jetzt sofort.

Aus diesem Grund schreibe ich auch diesen Artikel. Um die Menschen zu informieren. 

Aber was, wenn Daten fehlen?

Wenn ich die Entscheider schließlich überzeugt habe, treffen wir oft auf das zweite frustrierende Problem.

"Machen wir was mit Big Data!", sagen sie.

"Fantastisch!", antworte ich. "Wo sind denn die Daten?"

"Ähm...", antworten sie. "Ich glaube, Jeremy hat welche. Oder?"

Oha.

Das Problem dieser Unternehmen ist, dass sie rein historisch gesehen nie wirkliche Datensammler waren. Daher begegnet uns immer und immer wieder das Problem, dass Unternehmen nicht ausreichend Daten besitzen, um ihre Nutzer (Mitarbeiter oder Kunden) zu verstehen.

Jedes Projekt, das heutzutage gestartet wird, sollte auch Daten sammeln. In diesen Daten liegt der Schlüssel zum Verständnis des Benutzers. Durch dieses Verständnis können wir dem Nutzer besser helfen, den Umsatz steigern, Kosten reduzieren und die Nutzer glücklich und produktiv halten.

Daher sollte wirklich jedes Ereignis und jede Interaktion festgehalten werden, darunter:

  • Aktivitäten auf der Website (angesehene Seiten, angesehene Elemente)
  • Aktivitäten auf anderen Websites oder Webseiten
    • Klicks auf Werbung, Referral-Links, Partner-Angebote usw.
  • Käufe von digitalen Quellen und traditionellen Quellen
  • Kenntnisse über Gruppenmitgliedschaften, wenn verfügbar, und Verständnis der Gruppentätigkeiten
    • Beispiel: Ob der Benutzer Mitglied einer Organisation ist, einer sozialen Gruppe, einer Bürogruppe, eines ISP usw. 
  • Aktivitäten von externen Quellen (soziale Medien, öffentliche Informationen)
  • Aktivitäten in anderen Geschäftssystemen und -anwendungen

 

Und wenn Daten unvollständig sind?

Die nächste Herausforderung liegt in den Log-Dateien. Oft werden Logs erstellt, aber leider meist ohne User-IDs (oder nur mit IDs innerhalb der POST-Daten und nicht auf dem Server, der das Log erstellt).

Puh.

Die Information über ein Ereignis ist viel weniger wertvoll, wenn wir nicht wissen, von wem dieses Ereignis ausgelöst wurde. Eine User-ID (verschlüsselt oder chiffriert) ist am hilfreichsten, eine Session-ID würde auch noch helfen. Nur, wenn wir Ereignisse zu Aktivitätensätzen zusammenfassen können, bringen diese uns Einblicke in den Benutzer, die wir für die Personalisierung nutzen können.

Das Problem ist, dass Logs traditionell genutzt werden, um Ausgaben zu rechtfertigen. "Wir haben die Änderungen vorgenommen, der Traffic auf unserer Website ist um 40% gestiegen, die Abbruchrate um 5% runtergegangen!"

Diese Kennzahlen sind praktisch, um einen groben Überblick zu bekommen, aber sie helfen nicht wirklich, die Benutzermuster zu verstehen, die für Personalisierung, Relevanzbewertung und Matching verwendet werden können.

Daher sollte man immer darauf achten, dass die Logs und Daten alle Felder für Metadaten enthalten, vor allem die IDs (siehe unten).

Man sollte auch immer sicherstellen, dass Zugriff auf die Logs möglich ist. In letzter Wir haben schon oft erlebt, dass Logs auf Servern von Drittanbietern lagen (Omniture, Site Catalyst) und nicht ohne weiteres für Predictive Analysis über Big Data heruntergeladen werden konnten.

 

Teil 2: Datenerfassung und datengestützte Unternehmen -->

 

0