Back to top

Federované vyhledávání: Možnosti volby

Federované vyhledávání: možnosti volby

 

KLÍČOVÁ TÉMATA

  • V průmyslovém odvětví vyhledávacích webů existují dvě různé definice „federovaného vyhledávání“. Obě vyjadřují velmi odlišné přístupy; nejen po stránce koncepční, ale také technické.
  • Je důležité pochopit, který z těchto přístupů nejlépe vyhovuje vašim potřebám.

Tento článek definuje a vysvětluje dvě alternativy federovaného vyhledávání modelů. 

 

ÚVOD

Obecně přijatelný význam „federovaného vyhledávání“ je tento:

Rozmístění vyhledávání napříč distribuovanými a (eventuálně) heterogenními datovými sadami a na oplátku získání seznamu ucelených výsledků vyhledávání.

Existují dva různé přístupy k federovanému vyhledávání; lze je označit jako setřídění indexů v čase (index-time merging) a setřídění v době dotazu (query-time merging). Výhody a nevýhody těchto přístupů uvádíme níže.

 

SETŘÍDĚNÍ V ČASE VYHLEDÁNÍ

Ve většině situací se jedná o rychlejší a jednodušší implementační řešení.

  • Federátor dotazu zachytí dotaz a předá ho webům vícenásobného vyhledávání.
  • Federátor pak počká, až uslyší odpovědi od vyhledávacích webů; poté, co je obdrží, vytřídí nebo zřetězuje výsledky do seznamu výsledků.

Aby tento model dokázal nabízet vyhledávací funkci, je závislý na datových úložištích.

Popis obrázku níže:

dotaz (query)              výsledky (výsledky)

query federator = federátor dotazu

search index = index vyhledávání

repository 1-4 = úložiště 1-4

 

DŮVODY PRO: hlavní výhodou tohoto přístupu je úleva od implementace, protože není třeba žádného dalšího indexování obsahu. Systém federování dotazů jednoduše pronikne do stávajících systémů a vytěží z nich výsledky, které jsou potom setříděny.

V některých případech je federování na základě dotazů jedinou schůdnou možností. Například:

  • federování (spojování) na webový obsah ve velkém měřítku prostřednictvím zkušenějšího a rozsáhlejšího vyhledávacího webu, jako je například Google
  • federování (spojování) do soukromé sady dat zadržované za zdí placeného přístupu k obsahu (dále jen „pay-wall“) a tudíž nepoužitelného pro lokální indexování

 

DŮVODY PROTI:

  • pokud federátor čeká na odpověď od nejpomalejšího vzdáleného vyhledávacího webu, mohou se vyskytnout potíže s výkonem 
  • setřídění výsledků hledání do citlivého „úkolovníku“ (Hit List) je obtížné, protože vyhledávací web bude vyhodnocovat důležitost jiným způsobem. Často je lepší nepokoušet se třídit podle důležitosti, ale místo toho: buď prezentovat odlišné seznamy výsledků (například výsledky skrývané za štítky) nebo používat pro data daleko přesněji určenou informační jednotku, se kterou se dají setřiďovat, například datum, polohu, nebo cenu; anebo prezentovat výsledky z různých zdrojů v blocích. Takto funguje například SharePoint 2013 Search Federation
  • Pro vyhledávací weby můžeme nastavit měnitelné úrovně náročnosti. Federování v čase dotazu obvykle znamená, že se daný dotaz naprosto zjednoduší, aby vyhodovoval i vyhledávacímu webu s nejnižší kapacitou. Důmyslné analyzátory dotazů, tzv. query parsers se dají kupříkladu využít v případě, že chceme u každého spojeného vyhledávacího webu dosáhnout optimalizace vodítek pro vyhledávání.
  • Možnou příčinou potíží s výkonem je úroveň zabezpečení dokumentu; to ale závisí na složitosti prostředí bezpečnosti.

 

SETŘÍDĚNÍ INDEXŮ V ČASE (INDEX-TIME MERGING) 

Tento přístup vyžaduje, aby byl obsah zahrnut do centrálního indexu; je to typické u tradičních podnikových vyhledávacích systémů.

Popis obrázku níže:

dotaz (query)              výsledky (výsledky)

search index = index vyhledávání

repository 1-4 = úložiště 1-4

 

DŮVODY PRO:

Většina vyhledávacích webů má výchozí nastavení řazení podle relevance, což většina uživatelů očekává. Získáváním veškerých dat do centrálního indexu lze zavádět lepší a důmyslnější dotazování a důležitější algoritmy, a tím nabídnout uživatelům vynikající vyhledávací výsledky.

 

DŮVODY PROTI:

Úsilí potřebné k získání obsahu z různých úložišť může být značné. Dělá se to skrze procesy read-only (dokument určený pouze ke čtení). Obsah vzdálených úložišť není ani přesunován, ani měněn, ale v procesu indexace systém musí každý dokument přečíst; pokaždé, když dojde k nějaké změně, musí být dokument přečten znovu. V některých případech to není možné, například tam, kde je soukromý obsah chráněn pay-wallem.

 

HYBRIDNÍ FEDEROVANÉ VYHLEDÁVÁNÍ

Někdy je optimálním řešením hybridní přístup. Tam, kde to praxe umožňuje, je obsah indexován centrálně. Naopak do úložišť, pro která to není efektivní kvůli nákladům (nebo jednoduše to není možné) jsou dotazy federovány v čase dotazu. Při tomto přístupu je nutno pečlivě zvážit prezentování výsledků a ujistit se, že uživatelé pochopí, jak je systém nastaven a jak účelně a účinně navigovat a interpretovat výsledky.

Popis obrázku níže:

dotaz (query)              výsledky (výsledky)

federátor dotazu

index vyhledávání

index vyhledávání/úložiště 1

úložiště 2    úložiště 3    úložiště 4

 

KTERÝ PŘÍSTUP FUNGUJE NEJLÉPE?

Přístup, který funguje nejlépe, záleží zcela na vašem datovém prostředí a vašich uživatelských potřebách.

Začněte tím, že se podíváte na datové prostředí, uživatelské požadavky a obchodní faktory – pak můžete činit informovaná rozhodnutí. V případě našich smluvních zakázek tento proces většinou začíná analýzou hodnocení vyhledávání (tzv. Search Assessment).

Pokud si chcete o federovaném vyhledávání pohovořit podrobněji, neváhejte a kontaktujte nás.

Blog Categories
0