Elf miljard pagina's doorzoeken op tekst

Blue-Sky · 06 aug 2004, 04:07

<img src="http://upload.userbase.be/upload/archie ... ief_kl.jpg" align="left" width="120" height="100"> Internetarchief ontwikkelt alternatieve zoekfunctie. Maar liefst elf miljard geïndexeerde pagina's uit het Web Archive kunnen binnenkort woordelijk doorzocht worden. Het Recall-project maakt het mogelijk om de vanaf 1996 geïndexeerde pagina's op tekst te doorzoeken. Voorheen kon alleen op basis van de domeinnaam in het archief worden geneusd. Recall is voorlopig nog in bètafase, wat te merken is aan de responstijden van de zoekdienst.

Ook heeft de Internet Archive om serverbelasting te verminderen de bandbreedte van zoekopdrachten beperkt tot 1999-2002.

De zoekresultaten van Recall zijn weinig hoopgevend. De 'Server Busy'-meldingen zijn legio en de interface is zo kaal dat onduidelijk is waarom geen van onze zoekopdrachten resultaten opleveren.

Een mogelijkheid om de sinds 1996 geïndexeerde pagina's op basis van trefwoorden te doorzoeken, zou de Internet Archive een stuk krachtiger maken. Voorlopig is de dienst niet echt bruikbaar en kan de internetarcheoloog beter in combinatie met Google en de al bekende Wayback Machine zoeken.

Op dit moment bevat de Internet Archive ongeveer 100 TB aan data, op een totaal van elf miljard geïndexeerde pagina's. De populaire zoekmachine Google bevat momenteel referenties naar vier miljard webpagina's. Google laat weinig los over de exacte grootte van hun zoekindexen, maar er wordt aangenomen dat deze meerdere terabytes beslaan.

Bron: ZDNet.be van 5 Augustus 2004

Elf miljard pagina's doorzoeken op tekst

Userbase AI hulp

Antwoord