30.11.1999 00:00 wtorek

Google jest niekwestionowanym liderem wśród wyszukiwarek. Na czym polega jej sukces?
Aktualnie google kontroluje 80% światowego rynku wyszukiwarek internetowych. Ma ponad 120 wersji językowych, przeszukuje strony w ponad 35 językach. Potrafi indeksować oprócz HTML'owskich stron również dokumenty w kilku formatach np. pdf, formaty MS Office, Lotus itd. Dodatkowo przegląda zasoby internetu w poszukiwaniu grafik- plików graficznych, filmów wideo i co ważne również zagląda na fora internetowe, ale to nie wszystkie możliwości google, które wciąż się rozwija.
Za co cenią ją internauci? Napewno za skuteczność i szerokie zasięg działania. Jej skuteczność nie polega wyłącznie na odnalezieniu informacji, ale głównie na uporządkowaniu wyników i odrzuceniu stron podszywających się pod adekwatne do zapytania internauty. Z pewnością zdarzają się strony, które starają się oszukać wyszukiwarkę, lecz są to żadkie przypadki i z czasem znikają z wyników wyszukiwania.
PageRank
Google swój sukces zawdzięcza autorskiemu rozwiązaniu- PageRank'owi, którego twórcami są Larry Page i Sergey Brin. Stworzyli oni wyszukiwarkę google w ramach projektu studenckiego na Uniwesytecie Stanford w 1996 roku. We wrześniu 1998 roku system wystartował (data rejestracji firmy Google Inc.).
Idea algorytmu opiera się na "metodzie głosowania". Zamieszczenie linku na stronie B do strony A oznacza oddanie głosu na stronę A przez stronę B. Badana jest więc sieć powiązań, dokładnie sieć linków między stronami. Pozwala to określić jakość strony z punktu widzenia makro, chili strony jako elementu całości internetu. Wychodzi się z założenia, że pewna strona jest tym lepsza im więcej stron internetowych linkuje do niej. Oczywiście nie jest to wystarczające kryterium do wyznaczenia jakości. Na PageRank strony wpływa dodatkowo PageRank stron doń linkujących i ilość linków na nich.
Uproszczając, dla 4 stron model wygląda następująco:
![]()
Jest to przypadek, gdy strony B, C, D linkują do A, wyłącznie do A.
Gdy na przykład wszystkie linkują do A, ale dodatkowo strona B do strony C, a strona D do wszystkich pozostałych- A, B, C:![]()
Ogólnie można to zapisać tak:
gdzie L(X) oznacza ilość wszystkich linków wychodzących ze strony X.
Dodatkowo wprowadzono współczynnik d (damper). Określa on prawdopodobieństwo kliknięcia na jakikolwiek link na stronie. Po wielu próbach na studentach został on ustawiony na wartość 0.85.
N oznacza ilość linków na analizowanej stronie.
W uproszczeniu tak właśnie wygląda wzór na pagerank strony. Możliwe, że dziś jest trochę inny, ponieważ powyższe wzory pochodzą z raportu projektu.
Analiza dopasowań hipertekstowych
Googlowski PageRank był pierwszym tego typu silnikem wyszukującym. Jego wcześniejsze odpowiedniki bazowały na analizie słów kluczowych i treści bez zliczania stron linkujących. Obecna wersja silnika wyszukującego google nie wypiera się całkowicie "starej" metody. W określeniu pozycji brana jest również pod uwagę analiza dopasowań hipertekstowych. Oznacza to, że google analizuje zawartość stron. Nie polega to wyłącznie na przeglądaniu treści i jej indeksacji, ale głównie na zbadaniu korelacji tekstu na pojedyńczej stronie i pomiędzy sąsiednimi podstronami. Brana jest po uwagę wielkość czcionki, położenie wyrazów itp.



