Agencja marketingowa » Słownik Marketingowy » Co to jest crawler?
Co to jest crawler?
Crawler - to jest rodzaj internetowego robota, którego głównym celem jest indeksowanie lub pozyskiwanie informacji z witryn internetowych. Bezsprzecznie, największą popularnością cieszy się Googlebot - wyszukiwarkowy robot internetowy stworzony przez Google. Dzięki niemu mamy możliwość wygodnego przeszukiwania Internetu w poszukiwaniu potrzebnych informacji. Crawler, nazywany często pająkiem (ang. spider), wykorzystuje sprawne poruszanie się po sieci w celu indeksowania stron internetowych.
Jak działa crawler?
W praktyce crawler to aplikacja komputerowa, której głównym zadaniem jest automatyczne odwiedzanie stron internetowych i pobieranie istotnych informacji z punktu widzenia programu. Crawler ma również za zadanie przeszukiwanie linków na stronie w celu powtarzalnego podejmowania tych samych lub podobnych działań. Dzięki pracy internetowych pająków, znanych również jako crawlery, jesteśmy w stanie skutecznie wyszukiwać informacje, które nas interesują.
W dzisiejszych czasach proces crawlowania nie jest już tak prosty, jak jeszcze kilkanaście lat temu. Jest to spowodowane tym, że wzrasta ilość stron, która korzysta z JavaScriptu i jego frameworków. Crawlowanie stron jest możliwe, ponieważ nowoczesne spidery korzystają z przeglądarek w trybie headless do renderowania treści.
Googlebot
Firma Google posiada roboty, które służą do skanowania internetu, celem takiego działania jest aktualizacja swojego indeksu. Googlebot wykorzystuje mapy stron internetowych oraz bazy danych, które zostały utworzone podczas poprzedniego indeksowania, aby precyzyjnie określić kolejne kroki do podjęcia. W przypadku, gdy robot indeksujący natrafi na nowe linki na stronie internetowej, zostaną one dodane do listy stron, które będą odwiedzone w kolejnym etapie. Googlebot monitoruje wszelkie zmiany w linkach, aby umożliwić aktualizację indeksu.
Wykorzystanie crawlerów w SEO
Crawlery są powszechnie stosowane w procesie optymalizacji stron internetowych pod silniki wyszukiwarek. Jednym z takich oprogramowań jest Screaming Frog, który posiada interfejs zdolny do dokładnego określenia, jakiego rodzaju dane mają zostać pozyskiwane w trakcie crawlowania. W raporcie analizy otrzymujemy takie informacje jak:
- strony ubogie w treść tzn. thin content,
- brakujące teksty alternatywne dla grafik,
- zduplikowane nagłówki H1 oraz tytuły stron,
- kody odpowiedzi serwera dla adresów URL, a co za tym idzie odnajdowanie uszkodzonych linków,
- strukturę serwisu.
Na rynku dostępne są zarówno komercyjne, jak i otwartoźródłowe rozwiązania oprogramowania.
- Screaming Frog,
- SEMrush,
- Ahrefs,
- Sitebulb,
- OpenSearchServer,
- Apache Nutch™,
- Scrapy.
W wielu sytuacjach pojawia się potrzeba stworzenia niestandardowego crawlera, który będzie spełniał określone wymagania. W rozwiązaniu tego problemu mogą pomóc rozbudowane biblioteki dedykowane różnym językom programowania. Wśród popularnych narzędzi z otwartym kodem źródłowym znajdują się Puppeteer (dla języka JavaScript) oraz BeautifulSoup i Scrapy (dla języka Python).