środa, 30 października 2013

Szczegółowa analiza semantycznego wyszukiwania i jego rola w aktualizacji Hummingbird (Koliber)

W trakcie ostatniej aktualizacji wyszukiwarki Google (Hummingbird - Koliber) koncern zaimplementował semantyczne wyszukiwanie w algorytm swojego flagowego produktu. To fenomenalna zmiana, która jest jedną z największych od czasu wprowadzenia w życie algorytmu Caffeine.

Wielu webmasterów, specjalistów od marketingu oraz zwykłych użytkowników nadal wydaje się zagubiona w kontekście zasad działania nowego mechanizmu - w niniejszym artykule postaram się wyjaśnić nie tylko zasady, ale również opisać w jaki sposób Google implementuje semantykę celem przewidywania intencji użytkowników.

Czym jest semantyka?

Semantyka obejmuje znalezienie związku pomiędzy słowami, frazami, symbolami oraz odkrycie znaczenia, jakie za sobą niosą. W szerszej definicji obejmuje analizę lingwistyki, składni, etymologii, komunikacji oraz semiotyki (językoznawstwo).

Semantyczne wyszukiwanie

Semantyczne wyszukiwanie łączy w sobie analizę i implementację semantyki w technologii wyszukiwania informacji celem znalezienia właściwych intencji stojących za zapytaniem osoby chcącej znaleźć informacje. Celem tego zabiegu jest zaprezentowanie odpowiedzi lub szeregu wyników blisko powiązanych z tym, czego szuka użytkownik.

W semantycznym wyszukiwaniu dochodzi o oceny ważności kontekstu oraz identyfikacji właściwych związków pomiędzy wyrażeniami wykorzystanymi do budowy zapytania. Dopiero wówczas prezentowany jest wynik.

Gdzie to jest wykorzystywane?

Algorytmy wyszukujące używają semantyki celem zwrócenia relewantnych wyników zapytania. Niejednoznaczne zapytania (te zapytania, które mają więcej, niż jedno znaczenie) są rozbijane i analizowane przez zestaw predefiniowanych słów, co pomaga wyszukiwarce odkryć prawdziwy kontekst zapytania.

Semantyczne wyszukiwanie stosowane jest w momencie, gdy użytkownik szuka odpowiedzi na zadane pytanie zamiast zbioru stron, po których mógłby nawigować - przez Google jest to wykorzystywane w Knowledge Graph.

PageRank i Ocena Związku - dwa podstawowe czynniki ustalające ranking dokumentów

Google wykorzystuje dwa podstawowe czynniki oceniając ważność dokumentu. Te czynniki to PageRank (popularność na podstawie ilości i jakości linków prowadzących do strony) oraz Ocena Związku (analiza wykorzystania słów kluczowych oraz zapytań w odniesieniu do strony). Jednakże ta forma ustalania ważności dokumentów nie pomoże znaleźć tych stron, które będą relewantne do intencji użytkowników wpisujących zapytanie, jeśli czynnik popularności strony semantycznie odpowiedniej zapytaniu spadnie.

Z tego też względu Google używa semantyki do identyfikacji i ustalania rankingu stron cechujących się semantycznie relewantną treścią, zamiast zliczać jedynie linki oraz słowa kluczowe.

Przetwarzanie zapytania w semantycznym środowisku

Zapytanie otrzymane przez wyszukiwarkę jest parsowane celem identyfikacji jednego lub większej ilości członków (pierwszy oraz kolejny termin wyszukiwania). W tym procesie identyfikowane są synonimy oraz inne terminy, które da się swobodnie zastąpić.

Te synonimy określane są mianem kandydatów i w dalszym kroku są rozbijane i przetwarzane jako synonimy kwalifikowane.

W tym momencie wykorzystany zostaje silnik powiązań, celem identyfikacji związku pomiędzy każdym z terminów zapytania (słów użytych przez użytkownika) bazującej na odpowiednich 'domenach' (słowo domena w kontekście tego tekstu bliższe jest 'kategorii'). Na początku dany termin jest identyfikowany przez pierwszą 'domenę', która jest semantyczną kategorią kolekcji predefiniowanych encji. Podobnie z drugim terminem składni zapytania - identyfikowane jest ono przez drugą domenę również zawierającą bazę danych podobnych encji. To pomaga Google powiązać terminy i zwrócić najlepszy z możliwych wyników.

W tym miejscu warto wspomnieć, że Google znajdzie powiązane słowa tylko wtedy, gdy te są obecne w ich wewnętrznej bazie danych - a jest nią wspomniany Knowledge Graph).

Te oddzielne zapytania zostają połączone za pomocą silnika zapytań wykorzystującego pasujący do zapytania związek wspomnianych domen (po raz kolejny zaznaczam, że chodzi o kategorie) i finalnie, o ile semantyka zapytania zostanie zidentyfikowana, odpowiedni wynik jest prezentowany w wynikach wyszukiwania.

Hummingbird i semantyka

Powyższy artykuł świetnie zobrazuje przykład semantycznego zapytania oraz rezultat, jaki nam zwróci wyszukiwarka Google.

Brak komentarzy:

Prześlij komentarz