Back to top

Datenerfassung für datengestützte Unternehmen

Dies ist der zweite Teil des Blogs zu Analyse, Suche und datengestützten Unternehmen. Im ersten Teil haben wir besprochen, wieso Suche, Personalisierung, Relevanzbewertung und Predictive Analytics für datengestützte Unternehmen wichtig sind.

 

Empfehlungen zur Datenerfassung für datengestützte Unternehmen

Alle Unternehmen sollten alle verfügbaren Daten sammeln und speichern, zu allen Interaktionen, für alle Kunden und Mitarbeiter. Zu diesen Daten sollte gehören:

  • Die Art des Ereignisses (Klick, Kauf, Einloggen, Kommentar, Suche, Ansicht usw.)
  • Die ID des Benutzers, der das Ereignis ausgelöst hat
  • Die ID der Session, in der das Ereignis stattgefunden hat
  • Die Art und Eigenschaften des Ereignisses
  • Die IDs der Geschäftsobjekte, die von dem Ereignis betroffen sind
  • Die IDs von Querverweisen, falls erforderlich

Diese Daten finden sich oft in Log-Dateien, manchmal werden sie aber in anderen Geschäftssystemen erfasst (z.B. Finanztransaktionen) und im Data Warehouse gespeichert.

Es geht um die IDs. 

Ich weiß, wie schwer es sein kann, unternehmensweit konsistente IDs einzusetzen. Unternehmen sind primär darauf ausgelegt, ihre Arbeit zu erledigen (ein Produkt oder eine Dienstleistung zu erstellen und zu liefern und dafür Geld zu kassieren), dass Aspekte wie konsistente IDs und Sammeln von Daten oft außen vor gelassen werden, da sie nur sekundär erscheinen.

Nehmen wir zum Beispiel ein Unternehmen für Konsumprodukte. Im Folgenden ein Beispiel, welche Informationen das Unternehmen sammeln sollte:

  • Jeden Klick auf jeder öffentlich zugänglichen Website, von jedem Benutzer, dazu:
    • Die Session-ID, wenn es sich um einen anonymen Benutzer handelt, der zum ersten Mal erscheint
    • Die Cookie-ID, wenn es sich um einen wiederkehrenden Benutzer handelt
    • Die User-ID, wenn der Benutzer angemeldet ist
    • Eine Methode für Querverweise zwischen den IDs (z.B. ein Login mit allen IDs)
    • Die ID der Website oder des Anwendungselements, das angeklickt wurde
    • Die Produkt-ID und/oder Produktgruppen-ID des angeklickten Elements
    • Die URL der Quelle des Klicks (Google Suche, verweisende URL)
    • Datum und Zeit des Klicks
    • IP-Adresse und geschätzter Standort des Benutzers zum Zeitpunkt des Klicks
  • Bei E-Commerce-Websites alle Elemente, die dem Warenkorb hinzugefügt oder gekauft wurden, zusammen mit den oben beschriebenen Informationen und:
    • Die IDs (oder auch mehrfach-IDs und SKUs, falls benötigt) und Eigenschaften der gekauften Produkte
    • Die Produktgruppe
    • Sonstige Informationen zur Identifizierung des Benutzers, falls verfügbar und gemäß rechtlichen und kommerziellen Bestimmungen zulässig (Adresse, Name, Zahlungsinformationen usw.)
  • Einkäufe aus traditionellen Quellen, einschließlich:
    • Der ID (oder IDs) und Eigenschaften der gekauften Produkte
    • Der Produktgruppe
    • Sonstiger Informationen zur Identifizierung des Benutzers, falls verfügbar und gemäß rechtlichen und kommerziellen Bestimmungen zulässig
    • Des physischen Standortes und Datum und Zeit des Kaufs
    • Des registrierten Standortes und der Mitarbeiter-ID des Mitarbeiters, der den Kauf durchgeführt hat
  • Downloads und Ereignisse für Apps auf Mobiltelefonen…
  • Aktivitäten zur Produktregistrierung…
  • Anrufe und E-Mails zum Kundendienst und Supportereignisse…
  • Erwähnungen auf Twitter oder Facebook und Fanaktivitäten…

Und dergleichen mehr.

Wenn eine konsistente ID über alle Quellen nicht möglich ist, ist die Verknüpfung der IDs auch akzeptabel. So könnte zum Beispiel ein anonymer Zugriff auf eine Website für alle Ereignisse die Session-ID aufzeichnen und diese dann mit der User-ID verknüpfen, sobald der Benutzer sich einloggt.

 

Daten-Audit

Man sollte betonen, dass es für gutes und vollständiges Sammeln von Daten notwendig ist, Daten-Audits und Kontrollprüfungen vorzunehmen.

Es gibt zahlreiche Gründe, warum die Datensammlung unvollständig bleiben kann, wie etwa fehlende Log-Hooks, Log-Rotation, Überschreiben von Logs, nicht verzeichnete Ereignisse, Netzwerkausfall, unvollständige Transfers, fehlender Speicherplatz, Downtime von Servern usw.

Daher müssen die gesammelten Daten regelmäßig überprüft werden. Dies kann auf verschiedene Arten geschehen:

  1. Kontrollprüfungen (Zählen der Gesamtzahl der Ereignisse, der Ereignisse nach Ereignisart, Vergleich der Ereigniszahlen über mehrere Systeme usw.) 
  2. Einleitung der Ereignisse prüfen, indem Vorgänge über Test-Accounts erzeugt werden und die Daten in diesen Accounts überprüft werden
  3. Teilmengen von Ereignissen prüfen, indem rohe Daten aus dem Anfang einer Ereigniskette gesammelt werden und mit nachbereiteten Ereignissen am Ende der Kette verglichen werden (normalerweise im Big Data-Framework).

 

Erforschung & Prognose

Die Frage jetzt ist, was fängt man mit all diesen Daten an? Welche Algorithmen setzt man ein? Wie wird dadurch die Interaktion mit den Kunden verbessert?

Die Frage kann man nicht einfach beantworten. Zumindest nicht vollständig. Hier setzt die "Erforschung" an.

Wie bereits angemerkt wird der gesamte Prozess durch die rohen Geschäfts- und Ereignisdaten angetrieben. Die Schritte zu Erforschung und Prognose werden zyklisch vorgenommen, es können mitunter viele Zyklen erforderlich sein, um ideale Ergebnisse zu erzielen.

Das Ziel der Erforschung ist es, Signale zu bestimmen, die eine hohe Korrelation zu den Interessen der Benutzer aufweisen. Der Prozess sieht wie folgt aus:

Die einzelnen Schritte sind dabei die folgenden:

  • Bereinigen und Anreichern – Rohe Daten kommen in rohem Format und enthalten viele irrelevante Ereignisse (z.B. Systemüberwachung und Testereignisse, Keep-Alive-Ereignisse, Heart-Beat-Checks usw.), die bereinigt werden müssen. Die Vielzahl der Formate muss auch vereinheitlicht werden.
  • Nach Benutzern gruppieren – Wir bei Search Technologies konzentrieren uns auf den Benutzer. Der erste Schritt ist für uns daher immer, die Aktivitäten nach Benutzern zu gruppieren, normalerweise über die User-ID und/oder die Session-ID. Dieser Schritt erfordert oft substanzielle Querverweise der IDs.
  • Benutzer zu Clustern zusammenlegen – Als nächstes legen wir die Benutzer zu Clustern zusammen, nach Themen, Branchen, Aktivitäten usw. Vorteil hierbei ist, dass man einen neuen Benutzer leichter einem Cluster zuorden kann (leichter, als mit zu wenig Daten zu personalisieren) und dass Cluster mehr Aktivitäten aufweisen (z.B. mehr Samples) und daher für die angesammelte Analyse nützlicher sind.
  • Erforschen – Während der Erforschung werden die verschiedenen Signale auf Relevanz, Benutzerzufriedenheit und andere Kennwerte geprüft. Dies umfasst in der Regel verschiedene Verbindungen und Histogramme der Werte im Vergleich zu einer anderen verfügbaren Dimension.
  • Prognose – Sobald ein ausreichend guter Satz Signale gefunden wurde, wird ein Prognosemodell um diese herum erstellt (über maschinelle Lernverfahren). Das Modell bestimmt die optimale Kombination von Signalen, die bestimmen, ob ein Element (Content, Produkt, Website, Arbeitsauftrag, Arbeitsbeschreibung usw.) für den Benutzer relevant ist. Normalerweise werden die bestimmten Elemente auch in den Logs (relevanter Content) oder Finanzdaten (Käufe, Waren im Warenkorb) aufzufinden sein.
  • Evaluieren – Die Prognose muss evaluiert werden (gegenüber den neuen Daten, die zu diesem Zweck gesammelt werden), um zu bestimmen, wie gut sie zugetroffen hat. 

Hierbei handelt es sich um einen kontinuierlichen Kreislauf der Verbesserung. Die Prognosen und Signale können (und sollten) fortlaufend ausgewertet und optimiert werden, um so ideale Resultate zu liefern.

 

Interaktion = Suchrelevanz & Personalisierung

In der Phase "Interaktion" sammeln wir alle bisher herausgearbeiteten Einblicke und formen sie zu einem Produkt, das direkt mit dem Endbenutzer (Kunden oder Mitarbeiter) interagiert.

Hierbei müssen zwangsläufig Kompromisse eingegangen werden:

  • Nicht alle Arten von Daten sind für alle Benutzer verfügbar (insbesondere bei neuen Benutzern)
  • Signale in Echtzeit können eventuell nicht auf die Art berechnet werden, die wir gerne hätten
  • Prognosemodelle können zu komplex werden, um auf Echtzeit-Suchen angewandt zu werden
  • Implementieren von Relevanz und Personalisierung erfordert Änderungen an konkreten Websites, die eventuell von anderen Unternehmen mit anderen Zielen und Prioritäten betrieben werden

Search Technologies arbeitet daran, diese Barrieren zu reduzieren, indem wir benutzerdefinierte Operatoren in Suchmaschinen einsetzen, über die Prognosemodelle für Personalisierung, hochakkurate Relevanzbewertung und suchorientierte Websites eingebunden werden. Diese benutzerdefinierten Operatoren vereinfachen den Bereitstellungsprozess und bieten die kritische fehlende Verbindung zwischen den Big Data-Prognosen und dem echten Alltag der Nutzer (Kunden oder Mitarbeiter).

 

Entwickeln einer durch Messwerte gestützten Kultur der kontinuierlichen Verbesserung

Um all dies umzusetzen müssen wir unsere gewohnten Prozesse für die IT-Arbeit von einer Projektorientierung hin zu einer Kultur der fortlaufenden, durch Messwerte gestützten und kontinuierlichen Verbesserung ändern.

Die meisten Unternehmen sind immer noch "projektbasiert". Für jedes neue Produkt, jede neue Software, jede neue Website wird ein Projekt erstellt und implementiert. Projekte werden entwickelt, finanziert und nachverfolgt und nach Ende des Projekts gibt es eine Nachbesprechung.

In diesem Prozess fehlt aber die fortlaufende kontinuierliche Optimierung. Leider sind die meisten Unternehmen so eingerichtet, dass sie gar nicht in der Lage sind, Initiativen mit nachhaltigen, iterativen Prozessen zu erkennen, auszuwerten und zu fördern.

Vielleicht liegt das in der menschlichen Natur. Man ist ja schließlich auch lieber der Held (Anerkennung für eine einzelne, großartige Leistung, wie z.B. den großen Frühjahrsputz) als die graue Maus (die jede Woche ihre Pflicht tut und das Haus sauber hält).

Die digitale Produktion

In vielen Unternehmen existiert bereits ein Bereich, in dem nach dem Prinzip der kontinuierlichen Verbesserung gearbeitet wird. Man nennt ihn den Produktionsbereich, die Fertigungsstätte, wo die Produkte hergestellt werden. Vielleicht sollte man auch eine digitale Fertigungsstätte einrichten.

Natürlich haben wir "Produktionssysteme", im Sinne von Software-Systemen, die online gebracht und von Administration verwaltet werden. Aber die meisten Produktionssysteme sind geschlossen, unterlaufen keiner kontinuierlichen Verbesserung. Stattdessen sind sie feste Systeme, die einmal eingerichtet wurden und nun in Echtzeit laufen und auf Anfragen antworten.

Vielleicht sollten wir also die Ideen der realen Produktionsstätten auf die digitale Produktion ausweiten, so dass neben den Produktionssystemen auch eine kontinuierliche Verbesserung stattfindet, die immer wieder Einfluss auf die Produktionssysteme nimmt.

Anders ausgedrückt brauchen wir eine Unternehmenskultur, in der kontinuierliche Verbesserung in den Alltag der Produktionssysteme einfließt.

Test und Evaluation

Nur zu oft versuchen Unternehmen über Trial & Error mit den Nutzers zu interagieren. Neuer Content, neue Dienstleistungen, neue Algorithmen werden dem Nutzer (Kunden oder Mitarbeiter) vorgesetzt, ohne Testphase oder Überwachung oder Evaluation in Echtzeit. Die einzigen Kennzahlen des Erfolgs sind Umsatz und Nutzung, und sobald diese Zahlen vorliegen ist es schon zu spät.

Stattdessen sollte man einen Prozess der kontinuierlichen Verbesserung einsetzen, der von Messwerten gestützt wird. Die Systeme müssen gegenüber den früheren Verhaltensweisen der Nutzer geprüft werden, um sicherzustellen, dass kommende Algorithmen und Präsentationen mindestens ebensogut funktionieren. Dafür müssen die Unternehmen die Prozesse überarbeiten, über die digitale Produkte bereitgestellt werden:

  • Benutzerdaten sammeln, so viel wie möglich, wo immer möglich
  • Exaktheit und Statistiken für das bestehende System berechnen
  • Exaktheit und Statistiken für das vorgeschlagene System gegenüber früherem Benutzerverhalten vergleichen, ehe es in den produktiven Betrieb genommen wird
  • A/B-Tests der vorgeschlagenen Änderungen vornehmen, im produktiven Betrieb mit echten Benutzern, ehe das System für alle Benutzer umgesetzt wird
  • Logs und Streams zu Geschäftsereignissen in Echtzeit sammeln und überwachen
  • Fortlaufend evaluieren, verbessern, testen und messen

Leider folgen nur sehr wenige Unternehmen diesen Empfehlungen. So beabsichtigt beispielsweise fast jeder, A/B-Tests vorzunehmen. Tatsächlich umgesetzt wird dieser Gedanke aber selten, noch seltener wird ein Testplan erstellt und als normale Geschäftspraxis eingeführt.

Was ich mit diesem Artikel erreichen will, ist, Führungskräfte in Unternehmen anzuregen, diese Probleme ernst zu nehmen. Ein von Messwerten gestützter Prozess muss von Anfang an geplant und von oberster Ebene unterstützt werden.

Die von Messwerten gestützte Evaluation, Tests und kontinuierliche Verbesserung sind die Eckpfeiler eines datengestützten Unternehmens. Es handelt sich hierbei um einen ausgearbeiteten, zuverlässigen Prozess, der messbare, fortlaufende, vorhersehbare Verbesserungen bei Umsatz und Kundenzufriedenheit bietet, bei einem überschaubaren und messbaren ROI.

Das sollte die Mühe wert sein.

 

Ein datengestütztes Unternehmen aufbauen

Jetzt kann man sich die Frage stellen, warum sich jemand, dessen Fachgebiet die Suchfunktionen sind, so sehr für das Sammeln und Nutzen von Daten interessiert.

Eng genommen enthalten die Geschäftsdaten das Rohmaterial, um den Nutzer zu verstehen. Und nur, wenn wir den Nutzer verstehen, können wir eine perfekt funktionierende Suchfunktion erstellen.

Ich war schon immer der Meinung, dass die Suchmaschine der zentrale Verbindungspunkt zwischen dem Körperlichen und dem Geistigen ist:

Für mich ist es offensichtlich, warum Daten so wichtig sind: Je besser wir den Nutzer verstehen, desto besser können wir die Suche entwickeln. Je besser wir die Suche entwickeln, desto mehr Produkte werden gekauft, desto zufriedener sind die Kunden, desto besser wird die Marke angenommen.

Und das ist wohl für jeden das ideale Szenario.

 

-- Paul

0