Robots.txt – czym jest i jak go stworzyć (opis/przykłady)

 

Plik robots.txt

Zdecydowana większość witryn go posiada, ale to nie oznacza, że większość administratorów go rozumie. Wcześniej o nim słyszałeś, ale najprawdopodobniej nadal zastanawiasz się, jak dokładnie działa. Co to takiego? Plik robots.txt. Czyli niepozorny, mały plik na Twojej stronie internetowej, który niepoprawnie ustawiony jest w stanie trochę namieszać.

robots.txt plik

 

Mamy cichą nadzieję, że ten post okaże się małą skarbnicą wiedzy dla każdego laika i w prosty sposób odpowie na pytania, czym jest robots.txt i jak działa. Dowiesz się również jak go stworzyć i przetestować oraz jakie reguły można w nim umieścić, aby osiągnąć pożądany efekt. Co więcej, pokażemy kilka przykładowych ustawień tego pliku, wraz z ich znaczeniem.

 

Czym jest robots.txt?

Robots.txt jest plikiem tekstowym (.txt, nie .html) znajdującym się w witrynie, informującym roboty, które podstrony mają, a które nie mają być przez nie odwiedzane. W praktyce plik ten wskazuje, czy określone oprogramowanie do indeksowania witryn może zindeksować stronę czy nie (za pomocą instrukcji „blokowania” lub „zezwalania”).

Nie jest to całkowite uniemożliwienie przeszukiwania witryny przez wyszukiwarki, a jedynie prośba o nierobienie tego. Robots.txt nie może zmusić bota do przestrzegania jego zasad, a więc tym samym złośliwe boty mogą zignorować zalecenia z tego pliku i zindeksować witrynę w swojej wyszukiwarce. Można porównać to do napisania „Proszę nie wchodzić” na lekko uchylonych drzwiach swojego domu.

czym jest robots.txt

 

Generalnie wyszukiwarki stosują się ustawionych reguł, dlatego też warto zadbać o plik robots.txt we własnej witrynie. Poza tym, istnieją inne korzyści z tym związane. Zalety dobrej organizacji tego pliku można w większości przypadków podzielić na dwie główne kategorie:

  • Optymalizowanie zasobów indeksowania w wyszukiwarkach, poprzez informowanie ich, by nie traciły czasu na stronach, których nie chcesz indeksować (może to pomóc, jeśli chciałbyś by roboty skoncentrowały się na pozostałych, bardziej interesujących podstronach).
  • Optymalizowanie poprzez blokowanie botów, które niepotrzebnie wykorzystują zasoby serwera (zaawansowane).

 

Jak utworzyć i edytować plik robots.txt

Niektóre systemy CMS i ecommerce automatycznie tworzą plik robots.txt dla Twojej witryny. Tak więc czasami nie musisz robić nic, a Twoja strona będzie zawierać plik z podstawowymi regułami. Możesz sprawdzić, czy tak jest dołączając końcówkę „/robots.txt” na końcu swojej domeny. Na przykładzie naszego bloga: wejdź na „blog.jchost.pl/robots.txt”, by wyświetlić plik, z którego korzystamy my sami.

Aby utworzyć lub zarządzać plikiem robots.txt nie trzeba robić wiele. Parę kliknięć w Windowsie, a następnie zalogowanie się na swoje konto FTP lub do menedżera plików konta hostingowego.

Użyj dowolny edytor tekstu (np. notatnik w Windowsie), aby utworzyć nowy plik o nazwie „robots.txt”. Przejdź do głównego folderu swojej witryny (/public_html/) i wgraj do niego wcześniej utworzony plik. W tym miejscu będziesz mógł go również edytować w późniejszym okresie czasu.

jak stworzyc robots.txt

Sprawdź najszybszy na rynku hosting WordPress oraz hosting Ecommerce.

 

Co umieścić w robots.txt

Gdy już utworzyłeś i przesłałeś plik robots.txt na swój serwer, możesz zacząć go edytować. W ten sposób, tak jak wcześniej wspomnieliśmy, możesz w pewnym stopniu kontrolować interakcję robotów z witryną. Robisz to za pomocą trzech podstawowych poleceń:

  • “User-agent” – dzięki temu poleceniu możesz wskazać reguły dla okreslonych botów. „User-agent” to inaczej nazwa identyfikacyjna bota wyszukiwarki, np. Bing czy Google.
  • “Disallow” – polecenie, które pozwala Ci informować boty, do którego obszaru witryny nie powinny mieć dostępu.
  • “Allow” – z pomocą tego polecenia możesz zezwolić na dostęp do określonego folderu podrzędnego lub rozszerzenia, znajdującego się w folderze nadrzędnym, który wykluczyłeś poleceniem „Disallow”.

Polecenie „Allow” jest ustawione domyślnie w Twojej witrynie, dlatego możesz, ale nie musisz go używać.

przyklad robots.txt

 

Przykłady pliku robots.txt

Powyższe polecenia są podstawą do tworzenia reguł, z których składa się cała struktura pliku robots.txt. Na początku, stworzenie takich reguł może wydawać się trudne, ale to tak naprawdę bułka z masłem i zadanie do wykonania w kilkadziesiąt sekund.

Streszczając cały proces do jednego zdania: najpierw określasz, do którego robota/wyszukiwarki się odnosisz („User-agent), a następnie wymieniasz reguły, do których robot ma się stosować – za pomocą „Allow” i „Disallow”. Poniżej przedstawimy kilka przykładów oraz opiszemy, co dokładnie oznaczają.

Zablokowanie pojedynczego bota przed dostępem do witryny

User-agent: Google

Disallow: /

Zablokowanie wyszukiwarki Google przed indeksowaniem całej witryny.

Zablokowanie wszystkich botów przed dostępem do witryny

User-agent: *

Disallow: /

Zablokowanie wszystkich wyszukiwarek przed indeksowaniem całej witryny.

Zablokowanie określonego folderu lub pliku

User-agent: *

Disallow: /images/

Disallow: /support.html

Zablokowanie dostępu do folderu /images/ oraz strony /support.html dla wszystkich wyszukiwarek.

Odblokowanie pojedynczego pliku w zablokowanym folderze

User-agent: *

Disallow: /images/

Allow: /images/zdjecie.jpg

Zablokowanie dostępu do folderu /images/ z wykluczeniem pliku zdjecie.jpg dla wszystkich wyszukiwarek.

Zablokowanie różnych folderów dla różnych botów

User-agent: *

Disallow: /info/

User-agent: Bing

Disallow: /

User-agent: Google

Disallow: /images/

Zablokowanie folderu /info/ dla wszystkich wyszukiwarek, zablokowanie całej strony dla wyszukiwarki Bing oraz zablokowanie folderu /images/ dla wyszukiwarki Google.

 

Jak przetestować plik robots.txt

Możesz w prosty sposób przetestować reguły pliku robots.txt na stronie Google Search Console, aby upewnić się, że jest poprawnie skonfigurowany. Wystarczy wybrać swoją stronę w powyższym panelu, a następnie z zakładki „Pobieranie” wybrać „Tester pliku robots.txt”.

U dołu strony widnieje pasek adresu URL, który możesz przesłać do przetestowania. Nie wpisując nic, testowi zostanie poddana Twoja strona główna. Jeżeli po prawej stronie wyświetli się informacja „Dozwolony”. W tym przypadku będzie to oznaczać, że cała strona może zostać poddana indeksowaniu. Natomiast gdy wpiszesz podstronę lub folder, dla którego zastosowałeś polecenie „Disallow”, ujrzysz czerwony napis „Niedozwolony”.

testowanie robots.txt

 

 

 

 

 

 

 

Odbieramy telefony, odpisujemy na maile, nie ukrywamy kosztów, a dodatkowo oferujemy najszybsze pakiety hostingowe na rynku. Uważasz, że to zwroty marketingowe? Sprawdź sam/a!

Jeśli nie będziesz zadowolony/a, zwrócimy Ci pieniądze.
Twoje strony i sklepy przeniesiemy za darmo!

Hosting WordPressHosting Magento

Jeżeli masz jakiekolwiek pytania, skontaktuj się z nami! Kliknij tutaj.

Chcesz dowiedzieć się o nas trochę więcej? Przejdź na stronę JCHost.pl.

Daj znać znajomym!