Plik robots.txt
05.03.2007 07:49 poniedziałek
Plik robots.txt wprowadza udogodnienia dla zarządcy witryny w zakresie jej indeksacji. Można w nim określić zakres indeksowanych katalogów, podstron i zakres przeglądających je robotów. Jak stworzyć plik robots.txt?
Nazwa, format i miejsce pliku
Plik musi mieć nazwę robots.txt. i mieć format zwykłego pliku tekstowego w kodowaniu ASCII. Musi być też osadzony w głównym katalogu domeny, inaczej zostanie zignorowany przez boty.
Składnia robots.txt
Plik robots.txt składa się z dwóch krótkich poleceń:
User-agent: *
Disallow: /
Komenda User-agent: pozwala określić bota, natomiast Disallow: katalog lub plik zabroniony.
* i / to ich przykładowe wartości, gwiazdka oznacza wszystkie roboty, slash / wszystkie katalogi i wszystkie pliki.
Gwiazdka * i slash / są odpowiednio wartościami user-agent i disallow i nie mogą być stosowane zamiennie.
Żaden bot nie może indeksować zawartości folderu /images/
User-agent: *
Disallow: /images/
Zakaz indeksacji pojedyńczej stronny
User-agent: *
Disallow: /niedokonczona_strona.htm
Tylko Googlebot ma zakaz:
User-agent: Googlebot
Disallow: /
Odwrotnie:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Googlebot pozwala jeszcze na użycie znaku maskującego * w sekcji Disallow:, który zastępuję dowolny ciąg znaków w nazwach folderów lub plików.
Googlebot pominie wszystkie pliki zaczynające się od da z folderu /doc/
User-agent: Googlebot
Disallow: /doc/da*
$ - oznacza koniec nazwy
User-agent: Googlebot
Disallow: /doc/*.pdf$
Komentarze
Znak hash # oznacza początek komentarza i wszystko co znajduje się po nim w wierszu jest ignorowane przez boty.
#komentarz1
User-agent: * #komentarz2
Disallow: /
META tag robots
META tag jest innym prostym sposobem do wskazania robotom czy mogą indeksować stronę i/lub podążać za linkami.
Wytyczna index informuje robota, że może zaindeksować aktualnie przeglądaną stronę, natomiast follow, że może podążać za linkami.
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<title>Tytuł</title>
...
</head>
<body>
...
</body>
</html>
Wartości:
index
noindex
follow
nofollow
all =index,follow
none = noindex,nofollow
UWAGA: Nie wszystkie boty obsługują META tag robots!
Robots.txt a Sitemap
Zakaz w pliku robots.txt ma priorytet nad mapą witryny wysłaną do wyszukiwarki w formacie Sitemap. Oznacza to, że bot nie zajrzy do zakazanego mu (w pliku robots.txt) katalogu, nawet jeśli indeks tego katalogu znajdował się w wysłanej wcześniej mapie Sitemap.
Baza robotów:
Roboty



