Back to top

EU-GDPR-Compliance: 10 Sachen, die Sie nicht vernachlässigen sollten

GDPR wird am 25. Mai 2018 in Kraft treten. Durch diese neue EU-Gesetzgebung soll der Schutz persönlicher Daten für EU-Bürger gestärkt werden. Hier können Sie weitere Hintergründe zu den Bestimmungen finden. Ohne Zweifel bringen Daten enorme Einblicke, die Geschäftsergebnisse fördern und Entscheidungen stützen können. So auch die Arten von Daten, die von GDPR betroffen sind. Was bedeutet diese neue Bestimmung also für Ihr Unternehmen?

Zuerst sollte man erwähnen, dass GDPR nicht nur Unternehmen betreffen wird, die in der EU ansässig sind, sondern alle Unternehmen, die mit Daten von EU-Bürgern arbeiten, unabhängig vom Sitz des Unternehmens. Weiterhin, mit Hinblick auf den Brexit, bestimmt GDPR auf der offiziellen Website, dass „Wenn Daten über Individuen im Kontext eines Warenvertriebs oder einer Dienstleistungserbringung für Bürger anderer EU-Länder verarbeitet werden, muss dies unter Übereinstimmung mit den Bestimmungen von GDPR geschehen, unabhängig davon, ob Großbritannien nach dem Brexit weiter Mitgliedsland von GDPR bleibt. Wenn der Geschäftsbetrieb ausschließlich auf Großbritannien beschränkt ist, ist die Position (nach der Übergangsphase des Exits) weit weniger klar.“

Da GDPR bald in Kraft treten wird, steht Ihre Planung hinsichtlich der neuen Anforderungen und Erfüllen der Compliance vielleicht schon? Für viele Unternehmen wird die Compliance allein schon durch das reine Volumen der Daten im Besitz schwierig. Wissen Sie genau, welche Daten für die Compliance Sie wo auffinden können? Wie Sie die Nutzungsgenehmigungen nachverfolgen? Wie Sie Verstöße gegen die Compliance überwachen und erkennen? 

Hier eine Liste mit 10 Punkten, die Sie nicht vernachlässigen sollten.

1.  Erwerb/Aufnahme von unstrukturierten Daten

GDPR gilt für alle Daten, sowohl strukturierten als auch unstrukturierten Content. Erwägen Sie folgende Schritte:

  • Aufnahme um die unstrukturierten Contentquellen des Unternehmens erweitern
  • Sicherstellen, dass jede Person, die in diesen unstrukturierten Contentquellen (wie etwa E-Mails, Kommentare im Kundendienst, Umfrageergebnisse, Resultate von Fokusgruppen, Verträge, Rechnungen, Abkommen, einschließlich eingescannter Element und dergleichen mehr) erwähnt wird, auch im Prozess der Datenentdeckung eingeschlossen ist

2.  Schemafreie Suche

Sind Suchmaschinen effektiver und skalierbarer als relationale Datenbanken, da sie große Volumen mit stark unterschiedlichem strukturiertem Content (etwa Datentabellen) durchsuchen können. Bedenken Sie daher:

  • Die Gesamtzahl der Contentquellen kann enorm sein. Gleiches gilt für die Vielzahl der Contentquellen – zahlreiche unterschiedliche Tabellen, viele verschiedene Schemata. Suchmaschinen können all diese Daten aufnehmen, ohne die Schemata vorab verarbeiten oder normalisieren zu müssen.
  • Nehmen Sie alles auf und untersuchen Sie alles nach personenbezogenen Daten. Verschwenden Sie keine Zeit mit mühseligen, langsamen und kostspieligen ETL-Prozesses, ehe Sie nicht Ihre Daten erforscht haben.

- Denn, ein Name ist immer ein Name, egal, in welchem Feld. Es spielt keine Rolle, ob der Name der Person in einem Feld namens „Person“, „Name“, „Kunde“, „Klient“, „Benutzer“ oder auch einfach nur „X“ gespeichert ist. Wenn man ihn nicht nachverfolgen kann, verstößt man gegen GDPR.

- Suchmaschinen können leicht alle Felder durchsuchen. Dieser schemafreie Ansatz hilft, die Barrieren in der Entdeckung personenbezogener Daten einzureißen.

3.  Verarbeitung natürlicher Sprache

Für die Handhabung unstrukturierter und halb-strukturierter Daten kann es hilfreich sein, über den Einsatz der Verarbeitung natürlicher Sprache nachzudenken. Durch Techniken und Hilfsmittel der Verarbeitung natürlicher Sprache können personenbezogene Daten aus strukturiertem wie auch unstrukturiertem Content extrahiert werden. Zum Beispiel:

  • Einfache Bezeichner: E-Mail-Adressen, URLs, Landeskennungen, Telefonnummern und dergleichen mehr
  • Komplexe Bezeichner: Namen, Adressen, Standorte, Unternehmen

Sobald wir „das Unstrukturierte strukturiert“ haben, folgen Bereinigung und Normalisierung. Unsere Methoden der Content-Verarbeitung arbeiten effizient mit:

  • Unklarheit – wir haben Erfahrung mit verschiedenen Techniken, über welche Unklarheit behoben werden kann. Wir haben ein Framework entwickelt, um beliebiges Hinzufügen nach Kundenanforderungen vorzunehmen
  • Einer Kombination von statistischen und wörterbuch-/datenbankgestützten Ansätzen
  • Sehr hohe Präzision – dies funktioniert gut mit Ansätzen des „Teilens und Herrschens“
  • Sehr schnell und skaliert auf hunderte Millionen Muster, Entitäten und Variationen

Wir bei Accenture entwickeln „Multi-Modell“-Ansätze, um personenbezogene Daten zu identifizieren:

  • Über maschinelle Lernverfahren: Wie Bezeichner in Kontext auftreten
  • Über maschinelle Lernverfahren: Der Aufbau des Bezeichners selbst (Zeichenmuster)
  • Über maschinelle Lernverfahren: Kombinationen von Tags, die personenbezogene Daten nahelegen
  • Über Ansätze, die auf Wörterbüchern basieren
  • Über Ansätze der Rechtschreibprüfung (durch eine angepasste Rechtschreibprüfung, die auf Datenbanken des Unternehmens abgestimmt ist)
  • Über Ansätze, die auf Mustern basieren (skalierbar auf Zehntausende von Mustern)
  • Über Ansätze, die auf regulären Ausdrücken basieren

Und all diese Ansätze zusammen. Dies ist besonders wichtig, weil oft das Vorhandensein von personenbezogenen Daten nicht durch einen einzelnen Ansatz bestimmt werden kann, sondern durch das Zusammenspiel mehrerer Ansätze erreicht wird.

4.  Abgleich

Es reicht nicht, einfach nur das Vorhandensein von personenbezogenen Daten zu bestätigen, man muss auch noch bestimmen, welche Person genau betroffen ist.
Aber wie? Diese Aufgabe kann recht komplex sein, vor allem, wenn man bedenkt, wie viele verschiedene „John Smith“ und „Zhang Wei“ es in der Welt gibt. Und um es noch schlimmer zu machen, kommen nicht selten Tippfehler in den Namen oder anderen Bezeichnern vor.

Wir (die Content-Analyse-Gruppe bei Accenture) können mit unserer Matching-Technologie helfen (die ursprünglich für Personaldienstleister und Produktunternehmen entwickelt wurde).

Durch einen Abgleich können wir sowohl strukturierte als auch unstrukturierte Signale für maschinelle Lernverfahren nutzen, um die Personendaten aus verschiedenen Quellen abzugleichen. Diese Abgleichmethode hat viele Vorteile:

  • Sie ist flexibel auf einen weiten Bereich Informationen anwendbar: Namen, Zeichenmuster in Namen, IDs, Zeichenmuster in IDs, Daten, Standorte, Beschreibungen, Kaufdaten, Schriftstücke (wie etwa E-Mails oder Kommunikationen) und dergleichen mehr.
  • Sie bietet Fehlertoleranz: Genaue Treffer sind nicht notwendig.
  • Sie sammelt Informationen von vielen Signalen, um die wahrscheinlichsten Treffer zu bestimmen.

Diese Funktionen sind notwendig, weil GDPR erfordert, dass man akkurat und vollständig die Informationen einer Person im ganzen Unternehmen bestimmen kann, damit man diese Person vollständig aus den Datenbanken des Unternehmens entfernen kann, falls diese das wünscht.

Abgleich über Name + Geburtsdatum reicht nicht. Ein Abgleich-Algorithmus, der alle verfügbaren Signale einbezieht, ist erforderlich.

5.  Document-Level-Security

Sicherheit ist von entscheidender Bedeutung. Daher ist es wichtig, dass Ihre Suchanwendung detailliert auf Document-Level-Security eingehen kann. Hiermit wird sichergestellt, dass nur die richtigen Personen Zugriff auf die Dokumente haben.

Sie werden Zeit auf Ihre Datenbank aufwenden müssen, Inventar, Aufnahme und Erkundung überprüfen müssen. Während dieses gesamten Prozesses sollten Sie sorgfältig auf Document-Level-Security achten.

Wir können helfen, ACLs aus zugrundeliegenden Contentquellen aufzunehmen. Dies kann einen großen Effekt haben, um mögliche Risiken zu bestimmen. Wenn Sie beispielsweise einen Mitarbeiter in Großbritannien haben, der ein Dokument erstellt hat, auf das nur zwei Personen Zugriff haben, dann ist das Risiko hier viel geringer, als bei einem Dokument, das öffentlichen Zugriff erlaubt. Die Aufnahme von ACLs aus den zugrundeliegenden Contentquellen kann helfen, Risikostufen für sensible Informationen mit personenbezogenen Daten zu bestimmen.

6.  Verschlüsselte Suchmaschinen-Indexe

Es lohnt sich auch, mehr auf den Indexierungsprozess zu achten. Aufbauend auf der Erfahrung aus den Projekten für unsere Kunden haben wir einen Ansatz an den Indexierungsprozess entwickelt, bei dem der gesamte Index mit externen Schlüsseln verschlüsselt wird, ohne dabei Leistung oder Funktionen einzubüßen. Dadurch würde beispielsweise, selbst wenn der gesamte Index auf einen anderen Computer heruntergeladen würde, die Verschlüsselung den Index nutzlos machen, solange nicht die angemessenen Zugriffsrechte vorhanden sind.

Verschlüsselte Suchmaschinen-Indexe können eine wichtige Sicherheitsmaßnahme darstellen, wenn sensible personenbezogene Daten gespeichert und durchsucht werden.

7.  Erkennung in Echtzeit

Um Verstöße gegen die Compliance in Echtzeit erkennen zu können, sollten Sie Ansätze wie unsere Verarbeitung natürlicher Sprachen und Extrahierung von Entitäten in Erwägung ziehen. Dabei handelt es sich um Librarys, die auf gestreamte Daten eingesetzt werden können, die von Technologien wie den Folgenden unterstützt werden:

  • Apache Spark Streaming (erstellt skalierbare, fehlertolerante Streaming-Anwendungen)
  • Elasticsearch Percolate (gleicht neue Dokumente mit einer Abfragedatenbank ab) 

8.  Daten-Klassifizierung

Die folgenden Techniken der Datenklassifizierung können einige Optionen bieten, die Sie in Erwägung ziehen können: 

  • Einsatz von maschinellen Lernverfahren und Verarbeitung natürlicher Sprachen, um die Art der Kommunikation zu bestimmen und zu erkennen, ob diese in den Umfang von GDPR fällt
  • Nutzen von „globalen Klassifizierungen“ (beachten die Kommunikation als Ganzes, normalerweise mit prognostizierender Analyse) und „lokalen Klassifizierungen“ (untersucht mittels Verarbeitung natürlicher Sprache individuelle Sätze oder Datenauszüge nach lokalen Indikatoren)

9.  Herkunft und Abstammung

Abhängig vom Ansatz Ihres Unternehmens an die Nachverfolgung der Abstammung Ihrer Daten können Sie unterschiedliche Werkzeuge und Techniken für die Unterstützung nutzen. So umfasst beispielsweise die Datenaufnahme in unserem Aspire Content Processing-Framework immer die ID, den Standort und den ursprünglichen Hierarchiebaum der Quelle, aus der das Originaldokument aufgenommen wurde.

(Randbemerkung: Aspire ist auch eine herausragende Wahl für die Aufnahme von unstrukturiertem Content in hohen Volumen.) 

10.  Löschen, unkenntlich machen und ersetzen 

Bedenken Sie im gesamten Prozess der Datenverwaltung und Sicherung der Compliance folgende Aspekte:

  • Techniken der Verarbeitung natürlicher Sprachen können Teile der Dokumente bestimmen, in denen personenbezogene Daten enthalten sind und die unkenntlich gemacht werden müssen.
  • Aspire-Konnektoren kümmern sich um die Verbindung und APIs vieler Legacy-Systeme. Diese Verbindungen können wo immer angemessen genutzt werden, um wieder auf diese Systeme zurückzugreifen und Aufzeichnungen innerhalb der Legacy-Systeme zu löschen oder unkenntlich zu machen.
  • Aspire kann auch genutzt werden, um inkrementelle Updates zu beziehen und die Änderungen zu untersuchen, um sicherzustellen, dass Löschvorgänge und unkenntlich machen korrekt und komplett vorgenommen wurden.

Wenn Sie sich Gedanken über die Datenverarbeitung machen und einen umfassenden, auf die Suche zentrierten Blick auf alle Ihre Datenquellen werfen, können diese 10 Dinge Ihnen helfen, eine Strategie zu entwickeln, über welche Sie Verwaltung und Überwachung steuern und sicherstellen, dass Ihr Unternehmen die Compliance für GDPR erfüllt. Weiterhin können diese Ansätze neben ihrem Nutzen für GDPR auch andere Aufgaben der Compliance, Betrugsvorbeugung und Risikosicherung unterstützen. Kontaktieren Sie uns, um mehr zu erfahren

-    Paul

0

Wir freuen uns, bekannt zu geben, dass wir jetzt Teil von Accenture sind! Lesen Sie die Ankündigung hier.