Back to top

Implementieren von SolrCloud in den US National Archives

Vorgestellt bei der 2014 Solr Lucene Revolution Konferenz durch Paul Nelson, leitender Architekt bei Search Technologies

Das Problem, dem sich die U.S. National Archives and Records Administration (NARA) gegenüber sah, wird wohl nicht zu häufig vorkommen. Die Infrastruktur musste so erweitert werden, dass über die kommenden Jahre die Möglichkeit gegeben ist, das System so weit zu skalieren, dass mehr als 1,2 Milliarden Dokumente und mehr als 7 Petabyte Speicher gehandhabt werden können. NARA hält mehrere Milliarden Datensätze, die auch gelegentlich als „Mount Everest der Daten“ bezeichnet werden. In der Vergangenheit waren all diese Daten weder durchsuchbar noch auch nur der Öffentlichkeit zugänglich, man musste in Person vor Ort erscheinen, um Einblick zu erhalten. Jetzt wird sich das alles ändern.

Am 14. November 2014 hat der leitender Architekt von Search Technologies, Paul Nelson, vor dem Publikum der 2014 Solr/Lucene Revolution Konferenz in Washington DC über die Herausforderungen gesprochen, die sich bei der Implementierung von SolrCloud für das mehrere Milliarden Dokumente umfassende Archiv bei NARA ergeben.

Die Präsentation konzentrierte sich auf die Architektur und Entwicklung der Initiative „Online Public Access“ (OPA) der National Archives. Hierbei handelt es sich um eine der Öffentlichkeit zugängliche Suchschnittstelle, mit der sowohl die Informationen im Katalog als auch weiterer Content online durchsucht werden können. Diese Plattform wird aktuell über SolrCloud komplett neu erstellt und in der Cloud gehostet.

Er sprach dabei die Ziele, Schwierigkeiten und Vorteile der neuen Architektur an. Zu den herausragenden Aspekten der Architektur gehören:

  • Content-Verarbeitung für eine Vielzahl von Contentarten
  • Handhabung von und Suchen in Content aus Social Media (Tags, Kommentare, Transkriptionen, Übersetzungen)
  • Skalierbarkeit auf Milliarden Datensätze
  • Suchfunktionen mit Metadaten, die speziell auf große Medienanbieter und Archive zugeschnitten sind

Sobald verfügbar stellen wir hier eine Videoaufzeichnung der Präsentation ein. Schauen Sie bald wieder rein!

0