Wat zijn webcrawlers en hoe werken ze? De complete gids voor de robots die het web indexeren

Kunt u zich voorstellen dat u in een bibliotheek ter grootte van de Library of Congress moet zoeken en in een fractie van een seconde perfecte resultaten krijgt? Dankzij de eenvoudige webcrawler kunnen we dit in principe elke dag op internet doen.

Webcrawlers zijn de grotendeels onzichtbare programma's die voortdurend de eindeloze diepten van het World Wide Web doorkruisen. Zonder deze robotbibliothecarissen die webpagina's methodisch catalogiseren, zouden zoekmachines zoals Google nooit in staat zijn om razendsnel de juiste informatie te leveren.

In deze uitgebreide gids ontdek je alles wat je moet weten over deze onbezongen helden van het digitale tijdperk. Wat zijn webcrawlers? Hoe werken ze hun magie? En kun je er zelfs zelf een bouwen? Dat zoeken we uit.

Een (zeer) korte geschiedenis van webcrawlers

Het web kroop voordat het liep. Geautomatiseerde webspiders begonnen begin jaren negentig op primitieve websites rond te struinen, toen het web nog in de kinderschoenen stond.

Toen de hoeveelheid informatie die online werd gepubliceerd explodeerde, werd het al snel duidelijk dat er een soort indexeringssysteem nodig zou zijn om gelijke tred te houden.

Zoekmachines als Altavista, Ask Jeeves en Northern Light begonnen primitieve crawlers in te zetten om de webpagina's te catalogiseren. Google kwam in 1998 met een bijzonder ambitieuze visie voor het organiseren van de informatie over de hele wereld.

Tegenwoordig verkent het leger van zeer geavanceerde crawlers van Google meer dan 20 miljard webpagina's per dag, waarmee ze de steeds groter wordende zoekindex van Google voeden.

De omvang van de hedendaagse webcrawl-inspanningen verbijstert de geest:

De index van Google bevat honderden miljarden webpagina's
Bing crawlt ongeveer 15 miljard pagina's per dag
Google is verantwoordelijk voor ruim 90% van al het internetverkeer

Het is duidelijk dat webcrawlen in slechts 30 jaar een hele lange weg heeft afgelegd! De technologie blijft zich snel ontwikkelen, waardoor zoekmachines ongelooflijk relevante inhoud met razendsnelle snelheden kunnen leveren.

Wat is een webcrawler precies?

Nu we een glimp hebben opgevangen van de omvang van de huidige inspanningen op het gebied van webindexering, hoe werken webcrawlers eigenlijk? Welke magie gebeurt er onder de motorkap?

Simpel gezegd is een webcrawler een geautomatiseerd script dat op methodische, geautomatiseerde wijze over het internet surft. Beginnend met een lijst met "seed"-URL's, bezoeken de scripts recursief de links op elke pagina om de hele website te doorzoeken.

Terwijl ze verkennen, verzamelen crawlers pagina-inhoud en verzenden ze gegevens terug naar een centrale opslagplaats. Hierdoor kunnen de pagina's worden geïndexeerd, zodat ze later snel kunnen worden opgehaald.

Het is het gemakkelijkst om webcrawlers te beschouwen als de bibliothecarissen van het internet. Net zoals bibliothecarissen elk boek in hun bibliotheek catalogiseren, catalogiseren webcrawlers elke pagina op de websites die ze bezoeken. Dit maakt het vinden van informatie op het grenzeloze web mogelijk.

In grote lijnen vervullen webcrawlers twee hoofdfuncties:

Webindexering

Webcrawlers die het hele internet indexeren voor zoekmachines zijn meer gericht op de breedte dan op de diepte. Hun doel is om een zo groot mogelijk deel van het openbaar beschikbare internet te doorzoeken en gaandeweg de pagina-inhoud te indexeren.

Deze crawlers worden ook wel webspiders of spiderbots genoemd en zorgen ervoor dat services als Google en Bing direct relevante zoekresultaten kunnen leveren.

Web schrapen

Naast zoeken worden webcrawlers ook gebruikt voor meer niche-webscraping of gegevensextractietaken. Deze scrapers richten zich op specifieke sites of onderwerpen en extraheren specifieke gegevens zoals productvermeldingen of nieuwsartikelen.

Hoewel hun einddoelen verschillen, gebruiken scrapers dezelfde crawltechnieken onder de motorkap om systematisch websites te doorkruisen.

Er zijn oneindig veel varianten van sterk aangepaste webcrawlers die geschikt zijn voor specifieke gebruiksscenario's. Maar in de kern werken ze allemaal op dezelfde basismanier.

Hoe werken webcrawlers met hun magie?

Het webcrawlproces komt neer op een eenvoudige repetitieve lus:

Haal een pagina op
Extraheer links en inhoud
Voeg links toe aan de crawlwachtrij
herhaling

Hierdoor kunnen crawlers stapsgewijs websites verkennen en een index opbouwen. Laten we de stappen in meer detail bekijken:

met respect voor robots.txt

Voordat ze een site bezoeken, controleren crawlers of er een robots.txt-bestand is dat regels bevat over wat toegankelijk is. Dit bestand kan er als volgt uitzien:

User-agent: *
Disallow: /private-pages/ 
Crawl-delay: 10

Dit vertelt alle crawlers dat ze geen toegang hebben tot /private-pages/ en dat ze 10 seconden moeten wachten tussen verzoeken.

Seeding

Crawlers beginnen met een lijst met 'seed'-invoer-URL's die u als eerste moet bezoeken. Deze eerste pagina's dienen als startpunt voor een website.

Linkextractie

Terwijl de bot elke pagina bezoekt, extraheert hij alle hyperlinks met behulp van markup-parsers. Deze nieuw ontdekte URL's worden toegevoegd aan de aanvraagwachtrij.

Pagina-analyse

Naast links extraheert de crawler ook andere pagina-inhoud, zoals tekst, afbeeldingen, scripts, enz. Deze gegevens worden verwerkt en opgeslagen voor later gebruik.

Wachtrijbeheer

De crawler houdt een wachtrij bij met URL's die hij vervolgens moet crawlen. Het geeft prioriteit aan welke pagina's moeten worden bezocht en vermijdt duplicaten.

Door deze lus voor onbepaalde tijd te herhalen, kunnen webcrawlers grote delen van het internet verkennen. Uiteraard nemen de schaal en complexiteit bij grote sites snel toe. Vervolgens kijken we naar de epische webcrawloperatie van Google.

Hoe Google het hele internet doorzoekt

Google beheert verreweg de grootste webcrawlervloot die ooit is gemaakt. De Googlebot crawlt elke dag meer dan 20 miljard pagina's over het internet!

Terwijl Googlebot elke pagina bezoekt, analyseert hij de inhoud, extraheert links en stuurt gegevens terug naar het indexeringssysteem van Google. Dit maakt de legendarische zoekmogelijkheden van Google mogelijk.

Laten we enkele verbijsterende feiten over de webcrawlinfrastructuur van Google onderzoeken:

De index van Google bevat meer dan 200 miljard webpagina's
Er zijn waarschijnlijk meer dan honderd datacentra van Google over de hele wereld
Googlebot verzendt meer dan 1 biljoen URL-verzoeken per dag
Google is verantwoordelijk voor ruim 90% van het wereldwijde internetverkeer

Wanneer u op Google zoekt, controleert het de uitgebreide index op pagina's die overeenkomen met uw zoekopdracht op basis van:

Gebruik van trefwoorden op pagina
Paginaonderwerp en focus
Kwaliteit en uniekheid van de inhoud
Versheid van inhoud
Verbind autoriteit en relevantie
Honderden andere rangschikkingssignalen

Door het internet voortdurend opnieuw te crawlen, kan Google in een mum van tijd de nuttigste, meest actuele resultaten opleveren. Hun webcrawlervloot werkt onvermoeibaar achter de schermen om dit mogelijk te maken.

De relatie tussen crawlen en SEO

SEO staat voor Search Engine Optimization – het verbeteren van uw webpagina’s om beter te scoren in zoekmachines.

Een van de belangrijkste doelen van SEO is om ervoor te zorgen dat uw website gemakkelijk te verteren is voor zoekmachines. Hoe beter een pagina is geoptimaliseerd voor crawlen, hoe groter de kans dat deze wordt gerangschikt.

Hier zijn 5 essentiële SEO-tips gericht op webcrawleroptimalisatie:

Verbroken links repareren

Crawlers hebben te kampen met dode links, waardoor ze uw ranking direct schaden. Verwijs of verwijder verbroken links.

Maak de architectuur van de site crawlvriendelijk

Structureer uw site zodat crawlers gemakkelijk tussen pagina's kunnen navigeren. Dit verbetert de indexatie.

Optimaliseer de paginasnelheid

Crawlers bezoeken miljoenen pagina's per dag. Sneller ladende sites worden doorgaans vaker gecrawld.

Creëer unieke, nuttige inhoud

Vermijd dunne of dubbele inhoud. Bied iets nieuws en waardevols aan voor de lezers.

Verbeter SEO op de pagina

Gebruik doelzoekwoorden op de juiste manier in uw inhoud, zodat crawlers de relevantie begrijpen.

Er zijn veel factoren die de zoekresultaten bepalen. Maar optimaliseren voor de machines die het internet indexeren is een belangrijk stukje van de puzzel.

Hoe webcrawlers verschillen van webschrapers

Hoewel ze vaak door elkaar worden gebruikt, verwijzen webcrawlers en scrapers naar verwante maar verschillende technologieën.

Webcrawlers focus op het uitgebreid indexeren van het hele open web. Ze verzamelen grote hoeveelheden gegevens.
Webschrapers specifieke gegevens uit gerichte sites extraheren. Ze zijn meer gespecialiseerd en gefocust.

Een schraper voor het monitoren van e-commerceprijzen zou bijvoorbeeld productvermeldingen doorzoeken, prijzen, afbeeldingen, specificaties en meer extraheren. Deze gegevens kunnen worden gebruikt om prijsveranderingen te volgen.

Hoewel scrapers vergelijkbare crawltechnieken gebruiken als indexers, verschilt hun einddoel. Webschrapers verzamelen gestructureerde gegevens; webcrawlers creëren doorzoekbare webindexen.

Bouw uw eigen eenvoudige webcrawler

Om een webcrawler te bouwen, heb je kennis nodig van een programmeertaal zoals Python of JavaScript. Open source scraper-bibliotheken maken de ontwikkeling eenvoudiger.

Hier is een eenvoudige crawlerarchitectuur:

Seed-URL's – De start-URL's kruipen vanaf.
Grens – Beheert de aanvraagwachtrij.
Pagina ophalen – Download pagina-inhoud.
Pagina-parser – Extraheert gegevens van pagina's.
Data Store – Slaat geëxtraheerde informatie op.
URL-filters – Verwijdert bepaalde URL's.
URL gezien – Controleert op dubbele URL's.

En hier is een gedeeltelijk Python-crawlerscript:

import scrapy

class MySpider(scrapy.Spider):

  name = ‘basic-spider‘
  allowed_urls = [‘example.com‘]
  start_urls = [‘https://www.example.com/‘]

  def parse(self, response):
    for link in response.css(‘a::attr(href)‘):
        yield scrapy.Request(link.extract())

    text = response.css(‘p::text‘).extract() 
    yield {‘text‘: text}

Hierbij wordt Scrapy gebruikt om de crawler te initialiseren, te beginnen met crawlen vanaf een enkele URL, links te extraheren om vervolgens te crawlen en alineatekst van elke pagina te halen.

Met de bovenstaande bouwstenen kunt u voor elke site een functionele crawler ontwikkelen. Door op te schalen met zaken als proxy's, beperking en AI/ML wordt het exponentieel complexer!

10 tips voor verantwoord webcrawlen

Hier volgen enkele tips waarmee u rekening moet houden bij het bouwen of implementeren van crawlers:

Gebruik proxy's – Roteer verschillende IP-adressen om het verkeer te verdelen en blokkades te voorkomen.
Varieer met user-agents – Boots de user-agents van verschillende browsers na om detectie te voorkomen.
Respecteer robots.txt – Vermijd het crawlen van pagina's die zijn geblokkeerd in het robots.txt-bestand.
Beperk de kruipsnelheid – Overmatig crawlen kan de doelsites overbelasten en tot een ban leiden.
Controleer op dubbele inhoud – Vermijd het opnieuw crawlen van pagina's die u al heeft geïndexeerd.
Pas op voor honingpotten – Sommige sites gebruiken neppagina's om scrapers te identificeren.
Gegevens op een ethische manier schrappen – Verzamel alleen gegevens van sites die dit toestaan.
Gebruik crawlvertraging – Voeg pauzes in tussen verzoeken om overstroming van servers te voorkomen.
Scheid crawlen van parseren – Eerst crawlen, pagina's later op gegevens parseren.
Raadpleeg sitemaps – Sitemaps helpen crawlers sites efficiënter te indexeren.

Gebruik uw webcrawlvaardigheden op een verantwoorde manier! Met grote macht komt grote verantwoordelijkheid.

Laten we samenvatten

Webcrawlers zijn de kritische maar ondergewaardeerde robots die de eindeloze diepten van het web indexeren. Door links recursief te crawlen, zorgen ze ervoor dat zoekmachines zoals Google binnen milliseconden ongelooflijk relevante resultaten kunnen leveren.

Of u nu wilt optimaliseren voor zoekopdrachten, webscraping wilt uitvoeren of aangepaste webcrawlers wilt maken, het is van onschatbare waarde om te begrijpen hoe deze bots hun magie gebruiken. Webcrawlers zijn een essentieel hulpmiddel om de kracht van de informatie in de wereld te ontketenen.

Dus de volgende keer dat u op magische wijze precies vindt wat u zoekt op Google, neem dan even de tijd om de webcrawlers te bedanken die dit mogelijk hebben gemaakt! Het ontelbare leger van digitale bibliothecarissen die het web achter de schermen catalogiseren, zijn echte onbezongen helden van het informatietijdperk.