Boty
20.12.2006 15:00 środa

Zanim ktokolwiek znajdzie stronę w wyszukiwarce najpierw musi odwiedzić ja robot, robot wyszukiwarki.
Robot, bot, pająk, spider, crawler
Roboty wyszukiwarek zwane też pająkami, spiderami lub crawlerami mają za zadanie przeszukiwanie internetu 24 godziny na dobę. Podążaja za linkami na stronach zbierając informacje do baz danych. Informacja tam zgromadzone poddawane są następnie analizie specjalnym algorytmom opracywującym wynik, który jest zwracany w wyszukiwarkach internetowych.
Jak pająk porusza się po sieci?
Jak roboty przeglądają sieć? Otóż naśladują zachowania internauty - podążają za linkami. Najprościej jest im odczytywać statyczny tekst, więc najlepiej jak link jest w postaci tagu a href. Jednakże mają problem z linkami w skryptach java czy stronami dynamicznymi(w adresie ze zmiennymi po znaku zapytanie). W pierwszym przypadku mogą go przeoczyć zaś w drugim, jeśli jest zbyt długi adres ignorują go. Roboty są ciągle ulepszane. Teraz są w stanie odczytać linki we flashu, choć w dość ograniczonym zakresie.
Oprócz samej indeksacji obrazy kilku stron serwisu zostaje zapisanych na serwerze wyszukiwarki, można je zobaczyć pod linkiem Kopia w wynikach wyszukiwania. Roboty nie przeglądają całości serwisu, zagłębiają się tylko w kilka "warstw" podstron. Jeżeli chcemy, aby został zaindeksowany cały serwis najlepiej wysłać do wyszukiwarki mapę strony. Może to być zwykły plik tekstowy z linkami osobno w każdym wierszy, ale lepiej zrobić mapę w formacie XML w oparciu o protokół Sitemap, w której oprócz samych linków zostana zapisane dodatkowe informacje o treści. Sitemap jest standardem obsługiwanym przez wszystkie wyszukiwarki.
Anchor text można określić jako nazwę celu, jakim jest strona docelowa linku i pod ową nazwą zostanie zapisany głos na stronę, będzie on frazą pod jaką najłatwiej znaleźć stronę docelową w wyszukiwarcę, dlatego ważne jest, żeby oprócz poprawnego odczytania linku robot portafił zaindeksować ją poprawnie pomimo często nieregularnych odmian wyrazów w jakimś języku np. polskim. To również jest powód, dlaczego powstają krajowe oddziały lub też dlaczego krajowe wyszukiwarki mogą być skuteczniejsze od globalnych.
Wynik
Gdy robot przejrzy już witrynę i ją zaindeksuje, wcześniej oczywiście sprawdzając czy webmaster nie posunął się do jakiś oszukańczych metod typu doorway itp., specjalne algorytmy wyliczają wagę serwisu rozwiązując równania nawet z 500 milionami zmiennych i 2 miliardami terminów. Oprócz analizy wyników "metody głosowania" brana jest pod uwagę zależność między wyrazami wewnątrz jednej z podston i pomiędzy innymi podstronami serwisu. Oczywiście algorytm wyliczający jest ściśle strzeżoną tajemnicą każdej wyszukiwarki, każdy jest inny i dlatego wyniki mogą się różnić w wyszukiwarkach. Ten algorytm jest to silnik wyszukiwarki, podobnie jak w samochodzię napędza on całą machinę. A SEO oznacza optymalizację strony pod silnik, aby on zwrócił wyższą pozycję witryny. Wiedza o SEO wynika z badań, prób i doświadczeń wielu webmasterów.
Plik robots.txt
Roboty są coraz szybsze i dokładniejsze i jest ich więcej, ponieważ roboty jednej wyszukiwarki są rozmieszczone na różnych serwerach i bywa, że mogą zajrzeć na stronę nawet kilka razy dziennie. Oczywiście też można zakazać robotu przeglądania witryny. Decyduje o tym meta tag "robots", w którym można zabronić robotowi indeksowania, a nawet przeglądania podstron. Jeśli natomiast robot ma mieć zakaz wstępy tylko do kilku folderów na serwerze lub chcemy, żeby tylko wybrane spidery przeglądały serwis trzeba stworzyć plik robots.txt w głównym katalogu. Jest to pierwszy plik odczytawany przez robota. Określa on dokładne na co może sobie pozwolić robot każdej wyszykiwarki, jednak trzeba pamiętać, że jest to tylko informacja dla robota, który wcale nie musi się do niej zastosować.



