Robot indeksujący LSCache już dostępny – co i jak?

Robot indeksujący LSCache

Indeksowanie stron (z ang. crawling) jest procesem analizy zawartości witryn internetowych poprzez pobieranie i zapisywanie informacji na ich temat w bazie danych. Stworzenie takiej bazy umożliwia wydajniejsze wyszukiwanie oraz szybsze kontrolowanie zawartości w przyszłości. Najlepszym przykładem narzędzia wykorzystującego indeksowanie jest wyszukiwarka Google.

Dzięki zastosowaniu indeksowania, wyszukiwarka jest w stanie wyświetlić wynik przeskanowania miliardów witryn w ułamku sekundy. Gdyby ten proces nie miał miejsca, wyświetlenie wyniku trwałoby o wiele, wiele dłużej.

Google to tylko jeden z wielu przykładów. Kolejnym podmiotem, który wykorzystuje crawling w celu poprawy wydajności swoich webaplikacji jest LiteSpeed – najbardziej wydajne oprogramowanie serwerów, na którym opiera się infrastruktura JCHost.pl.

Nie wspominamy o nim bez powodu! Chwilę przed opublikowaniem tego artykułu, LiteSpeed wprowadził ważne zmiany i usprawnienia swojego robota indeksującego wykorzystywanego do przeszukiwania pamięci podręcznej stron.

W tym artykule porozmawiamy na temat wspomnianego robota. Odpowiemy, czym jest i dlaczego jest potrzebny. Następnie przyjrzymy się konkretnym ustawieniom oraz jego parametrom w witrynie opartej na CMS, przy użyciu pluginu LiteSpeed WordPress (LSCache).

Ważne: Przed rozpoczęciem czytania, zachęcamy do zapoznania się z artykułem wyjaśniającym, czym jest buforowanie stron internetowych.

Co to jest robot indeksujący LSCache?

Robot indeksujący LSCache (z ang. LSCache’s crawler) jest programem zbierającym informacje o zawartości witryny internetowej opartej na serwerze LiteSpeed. Porusza się on po zapleczu witryny, skanując podstrony i odświeżając te, które wygasły lub zostały zmienione.

Celem tego robota jest jak najszybsze znalezienie nieaktualnych wersji podstron i wysłanie żądania do serwera z prośbą o odświeżenie pamięci podręcznej witryny – innymi słowy: zbuforowanych podstron.

Dzięki niemu, zawartość naszej witryny będzie zawsze aktualna, przez co zwiększy się zadowolenie użytkownika. Zminimalizujemy bowiem ryzyko wyświetlenia starej zawartości zapisanej w pamięci podręcznej cache.

Warto wiedzieć: Ze względu na zwiększone obciążenie serwera, większość dostawców hostingu dezaktywuje robota indeksującego LSCache. JCHost.pl jest jedną z niewielu firm hostingowych, która gwarantuje nieprzerwane działanie robota na stronach Klientów.

Sprawdź najszybszy na rynku hosting WordPress oraz hosting Ecommerce.

Jak działa taki robot?

Aby zrozumieć, dlaczego jak działa robot indeksujący i dlaczego jest potrzebny na stronach opartych o LiteSpeed, musimy zrozumieć jak działa buforowanie stron bez niego.

Porównajmy więc 2 scenariusze:

Buforowanie bez robota

Jeżeli funkcja robota jest wyłączona, cały proces buforowania witryny jest inicjowany przez użytkownika. Pamięć podręczna witryny pozostaje pusta, dopóki użytkownik nie odwiedzi jej pierwszy raz (lub inaczej – nie wyśle żądania).

Co dzieje się przy pierwszej wizycie użytkownika? Wspomniane buforowanie! Przy pierwszej wizycie użytkownika, serwer odbiera żądanie i wywołuje kod PHP w celu wygenerowania statycznej strony. Następnie strona ta jest wyświetlana użytkownikowi i zapisywana w pamięci podręcznej do następnego razu.

Warto wiedzieć: Dzięki zastosowaniu buforowania, zasoby serwera zostają zaoszczędzone, ponieważ przy kolejnych wizytach, serwer wyświetla zapisaną wcześniej stronę bez konieczności ponownego wywołania kodu PHP.

Co to oznacza w praktyce? Przy pierwszej wizycie użytkownika, czas ładowania się strony będzie wydłużony. Dopiero po zapisaniu strony w pamięci podręcznej, czas ten zostanie drastycznie skrócony. To oznacza, że po odświeżeniu pamięci podręcznej, np. po wprowadzeniu zmian w treści, cały proces rozpocznie się od nowa i pierwsze ładowanie się strony będzie opóźnione.

Buforowanie z robotem

Teraz spójrzmy na to, co dzieje się, gdy strona jest skanowana, a pamięć podręczna – odświeżana, przez robota indeksującego LSCache.

Co dzieje się, gdy crawler odwiedzi konkretną podstronę? Gdy crawler odwiedzi daną podstronę, wywoływany jest kod PHP w celu wygenerowania statycznej strony. Ze względu jednak na specjalny nagłówek HTTP, który informuje serwer, że odwiedzający jest robotem, wygenerowana strona nie zostaje „doręczona”. Jest po prostu z góry zapisywana w pamięci podręcznej.

Warto wiedzieć: Dzięki zastosowaniu buforowania z robotem, prawdopodobieństwo, że użytkownik napotka nieodświeżoną stronę jest znacznie mniejsze. Co więcej, samo generowanie strony bez doręczenia znacznie oszczędza przepustowość serwera.

Co to oznacza w praktyce? Robot porusza się po naszej witrynie w celu znalezienia wprowadzonych zmian w jej zawartości. Gdy owe znajdzie, samodzielnie odświeży zapisaną w pamięci podręcznej kopię strony, wyręczając tym samym użytkownika. Dzięki temu czas ładowania strony przy kolejnej wizycie użytkownika nie wydłuży się.

Jakie ustawienia robota są dostępne?

Tak, jak wspomnieliśmy wyżej, robot indeksujący jest jednym z czynników zwiększających zużycie zasobów po stronie serwera. Jako rozsądni administratorzy i webmasterzy, chcemy, aby robot był skuteczny w tym, co robi, ale nie kosztem wydajności i przepustowości hostingu. Musimy więc zrozumieć, co oznaczają niektóre ustawienia, by móc kontrolować, ile zasobów chcemy wykorzystać.

Za przykład weźmiemy rozszerzenie LiteSpeed Cache WordPress. Wtyczka ta posiada bowiem najwięcej ustawień, z których część jest dostępna w innych systemach, takich jak Joomla czy Magento 2.

Aby rozpocząć konfigurację, przejdźmy do panelu admina, kliknijmy „LiteSpeed Cache” i wybierzmy „Ustawienia główne”. Następnie otwórzmy zakładkę „Robot indeksujący”.

Oto najważniejsze ustawienia robota indeksującego:

Opóźnienie (Delay)

Robot indeksujący, podczas przeglądania naszej witryny, wysyła żądania w tle – jedna podstrona po drugiej. Może to powodować spore obciążenie dla serwera, jeśli przerwa pomiędzy tymi żądaniami będzie zbyt krótka.

Ustawienie opóźnienia sprawi, że robot LSCache będzie wiedział, jak często może wysyłać żądania. Wartość domyślna w tym przypadku to 10,000 mikrosekundy (tj. 0,01 sekundy). Możemy ją zwiększyć wedle uznania, aby zmniejszyć obciążenie, jednakże wtedy automatycznie wydłużymy czas indeksowania.

Czas uruchomienia (Run duration)

Aby zapobiec zawieszeniu się serwera podczas skanowania witryny, możemy ograniczyć czas trwania indeksowania. Na przykład, jeżeli ustawimy czas uruchomienia na 60 sekund, wówczas robot będzie przeszukiwał witrynę przez 1 minutę przed „wzięciem przerwy”.

Po zakończeniu przerwy, która jest definiowana przez kolejne ustawienie (tj. Interwał między przebiegami), robot uruchomi się ponownie dokładnie w tym miejscu, gdzie zakończył skanowanie przed przerwą. Takie interwały będą trwały do momentu przeskanowania całej witryny.

Interwał między uruchomieniami (Interval between runs)

Interwał definiowany w tym polu określa długość przerwy, o której wspomnieliśmy wyżej. Jeżeli ustawimy wartość 120 sekund, wtedy indeksowanie witryny przez robota zostanie zatrzymane na 2 minuty po każdym 1-minutowym interwale.

Interwał robota indeksującego (Crawl interval)

Po przeskanowaniu wszystkich podstron w całym obrębie witryny, robot indeksujący zostaje zatrzymany. Interwał robota indeksującego definiuje, po jakim czasie robot ma rozpocząć ponowne skanowanie.

Warto wiedzieć: Najlepszym sposobem na znalezienie idealnego okna czasowego jest kilkukrotne uruchomienie robota i śledzenie upływającego czasu. Jeśli na przykład skanowanie trwa średnio 2 godziny, ustawmy czas indeksowania na 3 godziny.

Wątki (Threads)

Liczba wątków określa ile osobnych procesów indeksowania ma miejsce jednocześnie. Gdy wybierzemy wartość 4 wątków, robot będzie działał z „4-krotną siłą.” Im więcej wątków, tym szybciej nasza witryna jest indeksowana. Minusem jest zwiększone obciążenie serwera.

Limit obciążenia serwera (Server load limit)

Ustawienie limitu obciążenia serwera jest zabezpieczeniem przed ewentualną awarią lub zawieszeniem serwera. Dzięki niemu mamy pewność, iż robot nie wykorzysta wszystkich zasobów systemowych.

Po osiągnięciu limitu obciążenia, czyli maksymalnej liczbie procesów, proces indeksowania zostanie zatrzymany. Ustawienie to jest oparte na linux server load. Bezczynny serwer ma wartość obciążenia równą „0”, kiedy każdy kolejny uruchomiony proces wykorzystujący zasoby procesora dodaje „1”.

Warto wiedzieć: Liczba wątków i limit obciążenia to ustawienia, które ze sobą współpracują. Wartość limitu powinna być wyższa, niż liczba wątków, aby zapobiec zawieszeniu się systemu.

Odbieramy telefony, odpisujemy na maile, nie ukrywamy kosztów, a dodatkowo oferujemy najszybsze pakiety hostingowe na rynku. Uważasz, że to zwroty marketingowe? Sprawdź sam/a!

Jeśli nie będziesz zadowolony/a, zwrócimy Ci pieniądze.
Twoje strony i sklepy przeniesiemy za darmo!

Hosting WordPress – Hosting Magento

Jeżeli masz jakiekolwiek pytania, skontaktuj się z nami! Kliknij tutaj.

Chcesz dowiedzieć się o nas trochę więcej? Przejdź na stronę JCHost.pl.

Daj znać znajomym!