Back to top

Techniky semantické extrakce

Semantická extrakce z nestrukturovaného textu

Definice

Semantické extrakce odkazuje na škálu technik zpracovávání, které identifikují a extrahují entity, fakta, atributy, koncepty a události a vyplňují pole metadat. Účel tohoto je umožnění analýzy nestrukturovaného obsahu.

Ve zkratce je semantická analýza nestrukturovaných dat důležitou technikou “strukturování nestrukturovaného” bez čehož nemohou dodávat Big Data aplikace použitelné výstupy.

Dále je kritická přesnost semantické extrakce. Bez vhodné přesnosti a původu riskujete to, že budete dodávat těm, kdo dělají důležitá rozhodnutí výstupy a informace, které nemusí být jen nepoužitelné, ale dokonce i závadné.

 

Detaily

Semantická extrakce je většinou založena na jednom ze dvou přístupů nebo jejich kombinací.

  • Párování na základě pravidel: Podobně jako u extrakce entit, tento přístup vyžaduje podporu jednoho či více slovníků
  • Strojové učení. Statistická analýza obsahu je náročná na výpočetní výkon a může těžit z použití Hadoop pokud je dat mnoho. Tento přístup vytváří vztahy ze statistických spojení v rámci korpusu dokumentů.
  • Hybridní řešení: Statisticky vedeno, ale podpořeno slovníkem. To je typicky nejelšpí přístup pokud je obsah zaměřen na specifickou oblast zájmu.

Aspire, ocěňovaná platforma pro zpracovávání obsahu od Search Technologies podporuje veškeré výše zmíněné přítupy. Její role spočívá v přípravě nestrukturovaných dat co se týče rozebrání, pročištění, normalizace, filtrování a sémantické analýzy pro potřeby vyhledávacích či analytických projektů v jakékoliv škále, včetně big data aplikací.

Pro více informací a nezávaznou diskuzi o Vašich nápadech s jedním z našich odborníků nás kontaktujte.

0