Back to top

Ein Open-Source-Ansatz an die Log-Analyse mit Big Data

Big Data und Suche im Härtetest – Blog und Video

Unternehmen nutzen Logs zur Gewinnung von Einblicken, nicht erst, seit Big Data in Mode gekommen ist. Aber durch das exponentielle Wachstum der Log-Dateien werden Verwaltung und Analyse der Logs zu einer großen Herausforderung, wenn nicht gar komplett unmöglich. Hier ein Beispiel, wie wir Big Data über Open-Source-Mittel genutzt haben, um jeden Tag über 600 GB Log-Daten schnell, akkurat und kosteneffektiv zu analysieren. 

 

Die Risiken der Daten-Seen

Wollen Sie ein flexibles IT-Netzwerk nutzen? Dann sind System-Logs erforderlich, um potenzielle Sicherheitsrisiken und Netzwerkfehler zu erkennen. Arbeiten Sie in einer streng kontrollierten Umgebung, wie dem Finanzbereich, einer Rechtsabteilung oder einer Regierungseinrichtung? Dann sind Log-Daten für regelmäßige Audits und Compliance-Berichte erforderlich. Und im E-Commerce? Hier bieten Benutzer-Logs wertvolle Einblicke für eine bessere Benutzererfahrung und höhere Umwandlungsraten. 

Es gibt zwei normale Arten der Logs:

  • Ereignis-Logs – bieten einen umfassenden Überblick darüber, wie das System und alle Komponenten zu einem bestimmten Zeitpunkt funktionieren: ob alle Server fehlerfrei laufen und ob Netzwerkfehler oder andere Anomalien im Netzwerk aufgetreten sind.
  • Benutzer-Logs – bieten einen tiefreichenden Einblick in das Verhalten der Benutzer online, wie etwa, was sie auf der Website getan haben oder was sie während ihres Besuchs angeklickt haben. Die Analyse roher Benutzer-Logs ermöglicht größere Kontrolle, Genauigkeit und Transparenz hinsichtlich der Benutzeraktivitäten im Gegensatz zu den Statistiken, die von den gewöhnlichen Webanalyse-Diensten wie Google Analytics oder Omniture angeboten werden.

Wenn die Datenmenge mehrere Terabyte oder gar Petabyte erreicht, ist es einer Software für traditionelle Loganalyse so gut wie unmöglich, schnell und akkurat Muster zu erkennen und Trends zu bestimmen. Ohne einen effizienten und automatisierten Prozess, über den diese Daten analysiert werden, laufen Unternehmen in Gefahr, wertvolle Daten in diesem „Daten-See“ zu belassen und damit langfristig die Möglichkeit zu verlieren, datengestützte Wettbewerbsvorteile zu gewinnen.

Wieso also nicht einen Ansatz über Suche und Big Data-Analyse einsetzen, um diese Log-Daten ideal zu nutzen?

 

Logs mit Big Data und Suche navigieren und analysieren 

Anwendungen von Big Data für die Log-Analyse helfen Unternehmen, das Risiko des „Daten-Sees“ zu vermeiden. Diese Anwendungen werden durch die Rechenleistung des Big Data unterstützt, sowie durch maschinelle Lernverfahren, Predictive Analytics und fortgeschrittene Suchfunktionen.

Eine Plattform für die Log-Analyse über Big Data: 

  • Sammelt und speichert rohe Log-Dateien aus verschiedenen Geschäftssystemen (oft mehrere GB jeden Tag)
  • Lässt die Daten durch Puffer laufen
  • Lädt die Daten in einen Log-Analyse-Stack, für Query Parsing, Indexieren für die Suche und Visualisierung von Trends
  • Ermöglicht Unternehmen, Analysen in großem Maßstab vorzunehmen, hinsichtlich Benutzertrends, Clusterbildung, Trends in der Clusterbildung, Markttrends und dergleichen mehr

 

Log-Analyse über Open-Source: Big Data für jeden verfügbar 

Es gibt zahlreiche Tools für Verwaltung und Analyse von Logs, aber durch das weitere exponentielle Wachstum der Datenmenge in Logs werden Open-Source-Lösungen für die Log-Analyse immer wichtiger, da sie vollständige Funktionen und Zuverlässigkeit auf Unternehmensniveau zu geringen Kosten bieten. Elastics ElasticSearch, LogStash und Kibana (ELK Stack) ist ein gutes Beispiel für eine aufstrebende Technologie, deren drei Komponenten zusammenarbeiten, um so einen nahtlosen Prozess der Analyse von Log-Daten zu bieten:

  • ElasticSearch: Importiert Log-Dateien in die Suchmaschine, für Indexierung und Verfügbarkeit für die Suche
  • Logstash: Sammelt, speichert und verarbeitet Logs
  • Kibana: Bietet eine intuitive Browserschnittstelle für die Visualisierung und Analyse von Trends

Zusätzlich zu Lösungen der Log-Analyse von der Stange kann man kommerzielle Lösungen auch mit Open-Source verbinden, um den eigenen, benutzerdefinierten Stack für die Log-Analyse zu erstellen. Einige Optionen, die wir bisher gesehen haben:

  • Sammlung und Verarbeitung von Log-Daten: Apache Flume, Search Technologies Aspire
  • Indexieren für Suchmaschinen: Solr, Lucidworks
  • Visualisierung und Analyse von Trends: Apache Hue, Pentaho Analytics and Data Integration, HighCharts, D3 Charts

 

In der Praxis: Bessere E-Commerce-Umwandlungsraten durch Personalisierung in Echtzeit über Logs

Für Online-Unternehmen ist es von höchster Bedeutung, zu verstehen, was die Besucher auf der Website angeklickt haben, was sie gesucht haben, wie ihr Einkauf abgelaufen ist. Diese Informationen bieten Einblicke darein, wie der Umsatz gesteigert werden kann. Neu ist jetzt die Möglichkeit, diese Daten in Echtzeit zu erfassen und zu analysieren! Es ist nur logisch: Die richtigen Daten zur richtigen Zeit resultieren in optimalen Ergebnissen.

Wir arbeiten an einer fortgeschrittenen Big Data-Architektur, welche Apache Spark nutzt, um Benutzerprofile in Echtzeit zu erstellen, gewonnen durch Klicks des Benutzers, Produkte im Warenkorb, Suchabfragen und ähnliche Faktoren. Durch eine Geschwindigkeit der Datenberechnung in nahezu Echtzeit kann Apache Spark die Log-Daten des Benutzers aufnehmen und in eine Maschine für die Echtzeit-Personalisierung einbinden, die damit Suchergebnisse, Kataloge und Produktempfehlungen und dergleichen mehr anpasst, um so eine bessere Benutzererfahrung zu bieten und damit langfristig zu höheren Umwandlungsraten zu führen.

Die Technologien finden allmählich zusammen – massive Log-Daten, Hadoop für die Analyse und Berichterstattung von Big Data, eine intelligente Suchmaschine und Apache Spark. Zusammen bieten sie eine kosteneffiziente Möglichkeit der Informationsgewinnung in Echtzeit. Die Log-Analyse über Suche und Big Data ermöglicht es modernen Unternehmen, den „Daten-See“ zu überwinden und weiter im Rennen um die besten Gelegenheiten zu bleiben, angefangen mit einem genauen Verständnis des sich stetig ändernden Benutzerverhaltens.

Die Log-Analyse ist einer unserer Nutzungsfälle, die in der Reihe „Big Data und Suche im Härtetest“ beschrieben werden – ein tieferer Einblick in sechs wichtige Anwendungsgebiete von Big Data für moderne Unternehmen. Sie finden hier die vollständige Liste der sechs Nutzungsfälle für Big Data und in Zukunft auch Videobeiträge zu Unternehmen, die ihr Geschäft erfolgreich mit diesen beschriebenen Techniken bereichert haben.

 

 

(Englisch)

0