zondag 20 juli 2014

Crawlen en indexeren




Het zoeken via Google, veel mensen maken er dagelijks gebruik van. Maar hoe gaat het in zijn werk? Bij een zoekopdracht begint het allemaal met crawlen en indexeren van miljarden documenten die op internet staan. Dit wordt gedaan voordat je een zoekterm in hebt getypt. De basis wordt gelegd en op deze manier worden de meest nuttige resultaten aan je getoond. De index van Google is meer dan 100.000.000 gigabyte groot en hierin is meer dan één miljoen uur aan berekeningen geïnvesteerd.


Crawlen

Bij Google worden softwareprogramma’s gebruikt en deze worden ‘webcrawlers’ genoemd. Hiermee kunnen openbaar beschikbare pagina’s worden ontdekt. Googlebot is de bekendste crawler. Deze crawlers bekijken de webpagina’s en volgen links op die pagina’s. Deze gaan van link naar link en brengen gegevens over die webpagina’s terug naar de servers van Google. Het proces van crawlen begint met een lijst van webadressen uit eerdere crawls en sitemaps die zijn geleverd door website-eigenaren. Als de crawlers van Google de websites bezoeken, zoeken ze naar links voor andere pagina’s die ze kunnen bezoeken. Dan kan er over de software worden gezegd dat deze extra aandacht besteedt aan nieuwe sites, wijzigingen in bestaande sites en dode links. Dan bepalen de computerprogramma’s welke sites worden gecrawld, hoe vaak en hoeveel pagina’s van elke site worden opgehaald. Er worden door Google geen betalingen geaccepteerd om een site vaker te crawlen voor de internetzoekresultaten. Het is bij Google van belang dat de best mogelijke resultaten worden geleverd. Dit is op de lange termijn het beste voor gebruikers en ook voor Google als bedrijf.


Website eigenaren maken keuzes

De meeste websites hoeven geen beperkingen voor crawlen, indexeren of weergeven in te stellen, waardoor hun pagina’s in aanmerking komen voor weergave in zoekresultaten zonder dat er extra handelingen moeten worden uitgevoerd. Alle site-eigenaren hebben gedetailleerde opties en zij kunnen per pagina kiezen hoe inhoud wordt geïndexeerd. Er kan bijvoorbeeld worden gekozen om de pagina’s weer te geven zonder fragment (het overzicht van de pagina dat onder de titel wordt weergegeven in zoekresultaten). Maar er kan ook gekozen worden voor een gecachte versie (een alternatieve versie die is opgeslagen op de servers van Google voor het geval de live pagina niet beschikbaar is). Er kan echter ook een zoekfunctie worden geïntegreerd in de eigen pagina’s door de webmasters met aangepast zoeken.


Indexeren

Tijdens het crawlproces worden alle pagina’s door Google verzameld en dan maken zij een index, zodat ze precies weten hoe ze dingen moeten opzoeken. De algoritmen zoeken de zoektermen op in de index om de bijbehorende pagina’s te vinden. Dan wordt het zoekproces steeds complexer. Als je gaat zoeken op een bepaald worden dan kunnen er honderden pagina’s worden weergegeven. Als je zoekt op meerdere woorden, dan wordt er een selectie gemaakt en wordt er gekeken wat er het beste past binnen jouw zoekopdracht. Hierdoor krijg je de meest relevante pagina’s te zien voor jouw zoekopdracht. Google is continu bezig met het verbeteren van dit zoekproces.




Crawlen en indexeren

Geen opmerkingen:

Een reactie posten