Back to top

Erfassen von Metadaten: Sich bietende Chancen ergreifen

Metadaten sind für die meisten Suchanwendungen wichtig, leicht erfassbare Metadaten können die Benutzererfahrung enorm anheben

 

Die meisten coolen neuen Funktionen der Unternehmenssuche hängen von den passenden und verfügbaren Metadaten ab. Trotzdem werden in vielen Implementierungen von Suchmaschinen Gelegenheiten verpasst, bestehende Metadaten zu erfassen. Es mag viele Gründe geben, warum dies so ist. Meist liegt es wohl daran, dass der Kunde zu sehr darauf aus ist, Fertiglösungen einzusetzen. 

Man kann daraus lernen: Nur weil man etwas als Fertiglösung einsetzen kann, heißt das nicht, dass man es auch dabei belassen sollte. 

Die Inspiration für diesen Artikel kam, als kürzlich eine extreme Version eines häufigen Szenarios aufgetreten ist.

Die reguläre Dateifreigabe ist wohl das immer noch am häufigsten genutzte Repository. Bei normalen Szenarien der Unternehmenssuche befindet sich in dieser Dateifreigabe mehr Content für den Index als in jeder anderen Quelle (obwohl der Wert dieses Content eher niedrig sein könnte). Der Kunde in diesem Fall hatte bereits einen plug-and-play Daten-Konnektor implementiert – der auch perfekt funktionierte. Die Sucherfahrung war jedoch zu schwach, als dass man das System über die Testphase hinaus umsetzen wollte. Also hat man uns gerufen. 

Der Kunde dachte, er hätte einfach nur ein Problem mit der Relevanz und wollte, dass wir die Parameter im Algorithmus der Suchmaschine abstimmen und dieses Problem lösen. Also haben wir das getan. Danach lief es etwas besser, aber immer noch nicht wirklich befriedigend. Insgesamt hatte der Kunde etwa 7 Millionen Dokumente verteilt auf 4TB Speicher in der Dateifreigabe. Also haben wir die Daten im Detail untersucht (mittels automatischer Tools, die auf Aspire basieren). Dabei sind uns gleich eine ganze Reihe interessanter Dinge aufgefallen, die wir vielleicht in einem folgenden Artikel vorstellen werden. Für hier und jetzt konzentrieren wir uns auf die Metadaten. 

Auf der Dateifreigabe lagen mehr als 700.000 Verzeichnisse, in vielen der Pfadnamen konnte man hilfreiche Metadaten finden. Ein normaler Dateipfad sah in etwa so aus:

 

/customers/abc-inc/financial-reports/bs12345.xls 

 

Natürlich hatte die plug-and-play Fertiglösung keine dieser Metadaten eingefangen. In diesem Fall war das von ganz besonderer Bedeutung, weil der Kunde eine Reihe ganz spezieller Dateien hatte, die für die Suche essentiell wichtig waren. Diese waren Tabellenkalkulationen mit den folgenden Eigenschaften:

  • mehrere Gigabyte groß (ich habe nie zuvor Tabellenkalkulationen gesehen, die so viel Speicherplatz benötigt haben. Bei dem Kunden lagen hunderte solcher Dateien mit einer Größe von je mehr als 5GB)
  • enthielten keinen indexbaren Text - nur sehr viele Zahlen. So war in diesen riesigen .xls-Dateien nicht einmal der Name des Unternehmens vermerkt, sondern nur generischer Text – Wörter wie Saldo, konsolidiert, gesamt usw.

Also war der Suchindex komplett verstopft mit Hunderten von Millionen Zahlen, die wohl nie als Suchbegriff auftauchen würden – aber trotzdem Ressourcen im System in Anspruch nahmen – und dennoch würden die Dokumente nie von einer realen Suche gefunden werden. 

Die Lösung war einfach – wir haben die Informationen aus dem Dateipfad als Metadaten erfasst und den Dateien zugeordnet. Also mussten wir nur ein bisschen nachdenken, den Text aus dem Dateipfad indexieren und Optionen für die Suchnavigation gemäß den nun erfassten Metadaten anbieten. 

Dabei war eigentlich nur notwendig, einen anderen Ansatz an das Erfassen der Metadaten zu nutzen als bei den anderen Teilen der Dateifreigabe. Partitionierung auf oberster Ebene war möglich. Danach erstellten wir vier grundlegende Ansätze, darunter das Erfassen der Metadaten und einbinden in die Navigation, sowie das Ignorieren des Dateipfads in den Bereichen der Dateifreigabe, in denen er keinen Mehrwert bot. 

Die benötigte Implementierungsarbeit war sehr gering, vergleichen mit den Gesamtkosten des Systems. Die Suchgeschwindigkeit konnte weiter leicht angehoben werden und die Nutzerzufriedenheit war wie ausgewechselt.

 

0