Back to top

Eine Architektur für den Datensee, über Hadoop und Open-Source-Suchmaschinen

Datenseen in Unternehmen für moderne Analyse und Business Intelligence nutzen

„Big Data“ und „Datenseen“ haben für die Unternehmensziele eigentlich nur Bedeutung, wenn sie helfen, konkrete Probleme im Unternehmen zu lösen, etwa durch Demokratisierung, Wiederverwendung, Erforschung und Analyse der Daten. Wir bei Search Technologies verwenden Big Data-Architekturen, um Suche und Analyse zu verbessern. Als Ergebnis haben wir Unternehmen geholfen, umwerfende Resultate zu erzielen.

Was ist ein Datensee? 

Ein Datensee ist ein großes Repository zur Speicherung von Daten, das enorme Mengen roher Daten in ihrem nativen Format aufbewahrt, bis sie benötigt werden. Ein Unternehmens-Datensee ist einfach nur ein Datensee für die Aufbewahrung und Freigabe von Informationen aus dem ganzen Unternehmen.

 

Was sind die Vorteile eines Datensees? 

datenseeDer Hauptvorteil eines Datensees ist die Zentralisierung unterschiedlicher Contentquellen. Sobald diese zusammengelegt wurden (aus ihren „Informationssilos“), können diese Quellen kombiniert und mit Techniken für Big Data, Suche und Analyse verarbeitet werden, was zuvor unmöglich gewesen wäre. Die unterschiedlichen Contentquellen enthalten oft geschützte und sensible Informationen, die Implementierung von angemessenen Sicherheitsmaßnahmen im Datensee erforderlich machen.

Die Sicherheitsmaßnahmen im Datensee können so umgesetzt werden, dass Benutzer des Datensees Zugriff auf bestimmte Informationen erhalten, die keinen Zugriff auf die ursprünglichen Contentquellen haben würden.  Diese Benutzer dürfen auf die Informationen zugreifen, jedoch aus irgendeinem Grund nicht auf die Quelle.

Einige Benutzer müssen eventuell gar nicht direkt mit den Daten der ursprünglichen Contentquelle arbeiten, brauchen aber Daten, die über Prozesse in diesen Quellen gewonnen werden. Oder es mag Limitierungen hinsichtlich der Anzahl der Lizenzen geben, so dass einige Benutzer nicht mit ihren eigenen Zugangsdaten auf die ursprüngliche Contentquelle zugreifen können.  In einigen Fällen wurde die ursprüngliche Contentquelle vielleicht bereits geschlossen, eventuell, weil sie obsolet geworden ist und bald ausrangiert wird. Der Content kann aber für Benutzer im Datensee immer noch wertvoll sein.

Sobald der Content sich im Datensee befindet, kann er normalisiert und angereichert werden. Dies kann Metadaten-Extraktion umfassen, Format-Konvertierung, Erweiterung, Entitäten-Extrahierung, Quer-Verknüpfung, Ansammlung, Denormalisierung oder Indexieren. Lesen Sie hier mehr über Best Practices für die Vorbereitung von Daten. Daten werden hier „nach Bedarf“ vorbereitet, so dass die Kosten der Vorbereitung reduziert werden, im Gegensatz zu Systemen, in denen der gesamte Content vorab verarbeitet wird (wie es in einem Data Warehouse erforderlich wäre). Eine Rechenstruktur über Big Data macht es möglich, diese Verarbeitungsstrukturen zu skalieren, bis auch die größten denkbaren unternehmensweiten Datensätze eingeschlossen sind.

Benutzer aus unterschiedlichen Abteilungen, theoretisch über die ganze Welt verteilt, können flexiblen Zugriff von überall aus auf den Datensee und seinen Content erhalten. Das steigert die Wiederverwendung des Contents und hilft dem Unternehmen dabei, die Daten leichter zu sammeln, die für Geschäftsentscheidungen benötigt werden.

Informationen sind Macht, und der Datensee gibt die Informationen des Unternehmens in die Hände vieler Mitarbeiter, so dass das Unternehmen als Ganzes intelligenter, beweglicher und innovativer wird.

 

Den Datensee durchsuchen

Datenseen umfassen Zehntausende Tabellen und Dateien und Milliarden Datensätze. Noch dazu sind diese Daten unstrukturiert und komplett uneinheitlich.

In einer solchen Umgebung ist die Suche ein notwendiges Hilfsmittel:

  • Zum Finden von benötigten Tabellen - basierend auf Tabellenschema und Tabellencontent
  • Zum Extrahieren von Teilmengen von Datensätzen für weitere Verarbeitung
  • Zum Arbeiten mit unstrukturierten (oder auf unbekannte Weise strukturierten) Datensätzen
  • Und nicht zuletzt, zum Einsatz von Analyse in großem Maßstab

Nur Suchmaschinen können eine Analyse in Echtzeit über Milliarden von Datensätzen vornehmen, ohne dass die Kosten explodieren.

Suchmaschinen sind das ideale Hilfsmittel, um den Datensee im Unternehmen zu verwalten, weil:

  1. Suchmaschinen sind leicht zu verwenden – jeder kann mit einer Suchmaschine umgehen.
  2. Suchmaschinen sind schemafrei – es müssen keine Schema vordefiniert werden. Suchmaschinen können Einträge mit verschiedenen Schemas im selben Index handhaben.
  3. Suchmaschinen können auf natürliche Weise auf Milliarden Datensätze skalieren.
  4. Die Suche kann sich durch vollständig unstrukturierten Content arbeiten.

 

Der Zustand der Nutzung des Datensees

Radiant Advisors und Unisphere Research haben kürzlich den ultimativen Leitfaden für den Datensee („The Definitive Guide to the Data Lake“) herausgegeben, ein gemeinsames Forschungsprojekt, in dem das aufkommende Konzept des Datensees geklärt werden soll. 

Zwei der wichtigsten Erkenntnisse der Forschung waren: 

  1. Datensee werden mehr und mehr als gültiger und nützlicher Teil der Datenstrategie anerkannt, sowohl kleine als auch große Unternehmen schließen sich weiter dem Trend an. 
  2. Governance und Sicherheit sind immer noch führend, sowohl als die größten Bedenken als auch herausragenden Erfolgsfaktoren für den Datensee. 

Mehr und mehr Forschung zu Datenseen wird verfügbar, da immer mehr Unternehmen sich trauen, diese Datenseen in ihre allgemeine Strategie des Daten-Managements einzubinden. Man geht davon aus, dass in den nächsten Jahren Datenseen immer mehr zum Alltag werden und sich dabei zu immer ausgereifteren Formen entwickeln werden. 

 

Datenseen in Biotech und Gesundheitsforschung – zwei Beispiele für Datenseen in Unternehmen

datenseen in biotech Wir arbeiten derzeit mit zwei internationalen Forschungsunternehmen der Bereiche Biotechnologie und Gesundheitsforschung. In diesen Unternehmen gibt es zahlreiche verschiedene Abteilungen, in denen die Mitarbeiter Zugriff auf zahlreiche verschiedene Contentquellen aus unterschiedlichen Geschäftssystemen haben müssen, die überall in der Welt verteilt liegen. Zu diesen Daten gehören:  

  • Produktionsdaten (Chargenprüfung, Chargenertrag, Sensordaten der Fertigungslinie, Systemdaten der Gebäude wie Heizung, Lüftung und Klima);
  • Forschungsdaten (elektronische Notizen, Forschungsläufe, Testergebnisse, Daten der Ausstattung);
  • Kundendienstdaten (Kontaktanfragen, Antworten); und
  • Öffentliche Daten (chemische Zusammensetzungen, Datenbanken der Medikamente, Medical Subject Headings, Proteine).

Unser Projekt konzentriert sich darauf, strukturierte und unstrukturierte Daten von einem zentralen Datensee aus durchsuchbar zu machen. Das Ziel dabei ist es, den Geschäftsbenutzern Zugriff in nahezu Echtzeit auf die Daten zu bieten und die Sichtbarkeit der Prozesse bei Produktion und Forschung zu steigern. Sowohl Unternehmens-Datensee als auch Big Data-Architektur werden über Cloudera erstellt. Cloudera sammelt und verarbeitet die rohen Daten an einem Ort und indexiert diese Daten dann in Cloudera Search, Impala und HBase, um dem Endbenutzer eine einheitliche Erfahrung für Suche und Analyse zu bieten.

Mehrere Benutzeroberflächen werden erstellt, um den Anforderungen der verschiedenen Communitys zu entsprechen. Einige davon werden eher einfache Benutzeroberflächen für die Suche sein, während andere Benutzeroberflächen sich an ein anspruchsvolleres Publikum richten und fortgeschrittenere Suchen ermöglichen. Einige der Benutzeroberflächen werden hochgradig spezialisierte Tools der Datenanalyse enthalten (wie etwa Genomik und klinische Analyse). Die Benutzeroberflächen werden die jeweiligen Sicherheitsanforderungen reflektieren. 

Die Möglichkeit, die Daten effektiver zu durchsuchen und analysieren wird zu Fortschritten in verschiedenen Bereichen führen, darunter:

  • Trends zur Entwicklung von Medikamenten – Die Suche nach Trends oder Tendenzen bei bestimmten Batches von Medikamenten oder Rohmaterialien, die potenzielle Probleme in der Zukunft andeuten (Kalibrierung der Instrumente, Qualität der Rohmaterialien usw.), die untersucht werden sollten.
  • Vergleiche bei der Entwicklung von Medikamenten – Der Vergleich der Produktion mit dem Ertrag bei unterschiedlichen Produktionsprozessen, Produktionsverfahren, Produktionsstätten oder als Vergleich zwischen Forschung und Produktion. Wissen über die historischen Daten der verschiedenen Orte kann Qualität und Quantität des Ertrags steigern. Solche Verbesserungen im Ertrag bedeuten eine deutliche Steigerung des ROI.
  • Nachverfolgbarkeit – Der Datensee gibt dem Benutzer die Möglichkeit, alle Materialien und Prozesse über den gesamten Produktionsprozess zu analysieren (einschließlich der Qualitätssicherung). Bei Bio-Pharma handelt es sich um eine starken regulatorischen Bestimmungen unterworfene Branche, so dass Sicherheit und Einhaltung von Branchennormen bei Experimenten Anforderungen von kritischer Bedeutung sind. 
  • Faktoren, die zum Ertrag beitragen – Der Datensee kann dem Benutzer helfen, einen genaueren Blick auf die Quantität des Ertrags an Endprodukten zu werfen, basierend auf Materialien und Prozessen, die während des Produktionsprozesses eingesetzt wurden. So kann dieser etwa analysieren, wie viele Produkte mit einer bestimmten Menge Rohmaterial bei welcher Menge Arbeitsleistung und welchen Eigenschaften des Produktionsortes hergestellt wurden. Dies hilft dabei, datengestützte Entscheidungen zu treffen, wie der Ertrag durch bessere Steuerung dieser Faktoren gesteigert werden kann (oder, wie man Geld sparen kann, wenn diese Steuerungsmaßnahmen nicht zu einer Steigerung des Ertrags führen).

 

Eine Architektur für den Datensee

Der gesamte Content wird in den Datensee oder in ein Staging Repository aufgenommen (basierend auf Cloudera) und anschließend durchsucht (über eine Suchmaschine wie Cloudera Search oder Elasticsearch). Wo notwendig wird der Content analysiert und die Ergebnisse werden dem Benutzer zurückgeliefert, über Suchfunktionen und diverse Benutzerschnittstellen über verschiedene Plattformen. 

architektur fur den datensee

 

Was bringt die Zukunft?

Zu diesem Zeitpunkt ist der Unternehmens-Datensee noch eine sehr unreife Ansammlung von Technologien, Frameworks und großen Zielen. Die Entwicklungen in der Zukunft werden sich darauf konzentrieren, diesen Dschungel zu entwirren und in eine Struktur zu bringen, die nahtlos in den Rest des Unternehmens integriert werden kann.

Die kommenden Eigenschaften eines erfolgreichen Unternehmens-Datensees werden umfassen:

  • Allgemeine, leicht verständliche Methoden und APIs zur Aufnahme des Contents

- als Erleichterung für externe Systeme, um Content in den Datensee zu bringen

- zum Bereitstellen von Frameworks, über die Konnektoren leicht konfiguriert und getestet werden können, die dann Content in den Datensee ziehen

  • Unternehmensweites Schema-Management

- Methoden zur Identifizierung und Nachverfolgung von Metadaten über Geschäftssysteme

- Nachverfolgen, dass „EID“ dasselbe bedeutet wie „EMPLOYEE_ID“ sowie „CSV_EMP_ID“ und dies zuverlässig über mehrere Geschäftssysteme zugeordnet werden kann

  • Schnittstellen für Geschäftsbenutzer für Content-Verarbeitung

- Format-Umwandlungen, Parsing, Anreicherung und Denormalisierung (alles gewöhnliche Prozesse, die auf Datensätzen vorgenommen werden müssen)

  • Text Mining

- Unstrukturierte Texte wie E-Mails, Berichte, Problembeschreibungen, Forschungsnotizen usw. können oft nur schwer für die Analyse ausgewertet werden

- Gewöhnliche Technologien des Text Minings werden verfügbar werden, um diese Bereiche anzureichern und zu normalisieren

  • Integration mit Dokumentmanagement

- Der Zweck der Arbeit mit dem Datensee ist es, Business Insight zu gewinnen, die zu konkreten Geschäftstätigkeiten führt

- Es ist zu erwarten, dass diese Einblicke und Aktionen niedergeschrieben und durch Berichte kommuniziert werden

- Daher wird ein System, welches diese Berichte als Vorläufer der Analyse durchsucht – anders ausgedrückt, eine systematische Methode der Überprüfung vor der Forschung – ultimativ in jeglichen Forschungsprozess integriert werden

Wir stehen am Anfang einer langen und aufregenden Reise! Wir sehen eine Plattform vor uns, an der ganze Teams von Wissenschaftlern sich mit dem Data Mining befassen und gemeinsam an den Daten des Unternehmens arbeiten, um Analysen vorzunehmen und das Unternehmen zu stärken. Den im Endeffekt ist Wissen Macht, daher nehmen Unternehmen inzwischen das Potenzial der Datenseen ernst, als Möglichkeit, all ihre Informationsquellen zu kombinieren und zu nutzen, um damit den Geschäftsbetrieb zu optimieren und aggressiv neue Märkte zu erschließen.

-- Carlos  

0