Userbase

Bij het nakijken van de IIS Logs is er toch een fenomeen waar ik een vraagje over heb.

Ik zie af en toe GET requests staan met een externe site (www.yahoo.com, www.intel.com, het publiek IP van de server zelf, ...) als hostheader. Dikwijls is de useragent gewoon IE6 of 7.
Ik vroeg me nu gewoon af wat de reden hiervoor kan zijn.

Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?

r2504 schreef:Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?

Ik had al zitten denken dat het misschien iets te maken had met een eventuele proxy...

Uiteindelijk is dat een volledig client-side gebeuren. Dus als ik wil, dan bezoek ik uw site met de http-headers die ik wil.

Andere piste: zou het om de referrer kunnen gaan?

cloink schreef:Andere piste: zou het om de referrer kunnen gaan?

Neen, die staat in een ander veldje

Op die server staan verschillende website gehost (adhv host headers). Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...

khsw schreef:Op die server staan verschillende website gehost (adhv host headers).

Oh zo... ik had eerst begrepen dat je remote IP-adres resolve'de naar Yahoo of Intel.

khsw schreef:Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...

Heeft absoluut geen nut lijkt me... komt men gewoon op de default virtual host terecht, maar datzelfde effect heb je bij het gebruik van het IP-adres.

Kan je een stukje van die log laten zien?

BasMSI schreef:Kan je een stukje van die log laten zien?

Ik zal deze avond enkele regels posten...

Bij deze enkele voorbeelden uit de logs:

Code: Selecteer alles

#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
2008-04-12 11:40:47 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 69.64.37.X HTTP/1.1 - - - www.yahoo.com 301 0 0 350 59 218
2008-04-14 22:25:21 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 121.204.3.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.yahoo.com 301 0 0 350 148 687
2008-04-27 02:15:58 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 222.141.50.X HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT) - - www.baidu.com 301 0 64 0 151 453
2008-05-03 18:00:53 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 217.159.171.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.icq.com 301 0 64 0 144 62
2008-05-08 14:19:20 W3SVC519839150 XXXXXXX 212.X.Y.Z GET /add.php auth=45V456b09m&strIp=212.X.Y.Z&nPort=80 80 - 193.200.51.X HTTP/1.1 Mozilla/5.0+(Windows;+U;+Windows+NT+5.0;+en-US;+rv:1.8.1.12)+Gecko/20080201+Firefox/2.0.0.12 - - proxy.chameleon.adsoft-development.com 301 0 0 369 311 140

Het is jammer dat je server een nslookup doet en niet het exacte IP laat staan of erbij zet, anders kan je het bv hier opzoeken wie het is:

http://ws.arin.net/whois/

Die 69.64.37.X kan nl heel goed Inktomi zijn, de zoekrobot van Yahoo.

http://en.wikipedia.org/wiki/Inktomi

En van Inktomi kan je dus compleet gek worden, die durven rustig met 50~100 robots tegelijk binnen te komen.
Inktomi staat dan ook bekent bij webmasters als een verschrikkelijke zoek-robot, maar je kan die wel intomen.

Ik vermoed dan ook dat je vraag met veel trafiek te maken heeft? Meer dan je had verwacht?
Anders zie ik niet veel reden om de log door te gaan

De reden dat ik dus door de logfiles gegaan ben is omdat ik een batch aan het schrijven ben die de data van de logfiles in SQL Server pompt en daar voor elke gehoste website het maandelijks volume gaat berekenen, en ik steekproefsgewijs de data wou controleren.

Ik heb het volledige IP-adres hoor, maar 'k had het gewoon gemaskeerd. Mijn batch gaat het automatisch resolven, het adres waarover je het hebt is voluit 69.64.37.138 (air563.startdedicated.com).

Niet helemaal:

OrgName: Server4You Inc.
OrgID: SERVE-6
Address: 710 North Tucker Blvd
Address: Suite 610
City: St. Louis
StateProv: MO
PostalCode: 63101
Country: US

NetRange: 69.64.32.0 - 69.64.63.255
CIDR: 69.64.32.0/19
NetName: S4Y1-NET
NetHandle: NET-69-64-32-0-1
Parent: NET-69-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.NAMESERVERSERVICE.COM
NameServer: NS2.NAMESERVERSERVICE.COM
Comment: http://www.server4you.com
RegDate: 2003-07-30
Updated: 2004-04-29

Het zou me niet verbazen als het een deel van Inktomi is...
Google eens op Inktomi als je het niet kent.
In elk geval, ik host ook, en ik restrict Inktomi om te doorzoeken om mijn klanten te beschermen tegen ongewenste trafiek van Inktomi.
Inktomi kan servers platleggen en websites overloaden, een simpele DDos is er niets bij.
Spijtig is dat niemand verbied dat ze het doen, wel reageren ze op robots.txt als je dat goed kan noemen

Dan toch eens werk maken van een robots.txt bestand. Bedankt voor de tip rond Inktomi!

Ik zal je een voorbeeld geven van een Robots.txt:

User-agent: *
Disallow: /
Crawl-delay: 120

Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.

BasMSI schreef:Ik zal je een voorbeeld geven van een Robots.txt:

User-agent: *
Disallow: /
Crawl-delay: 120

Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.

Daar hebben ze scripts voor uitgevonden

Bedankt!

Mis ik iets?

Het zijn allemaal zoekmachines en de statuscode is 301 (redirect) dus imho is er niets mis mee.
Gewoon mensen die iets opzoeken en in het zoekresultaat jouw website selecteren.

Jezelf tegen al te heftige zoekrobots beschermen kan geen kwaad hoor.
Vooral Inktomi (Yahoo) staat erom bekend hele webservers plat te gooien met zijn fijne botjes.
Die komt rustig met z'n 100 tegelijk even je site doorspitten, geen prettig gezicht als het jou ook overkomt.
En normaal ben je er niet veel mee want Yahoo is vrijwel volledig op de USA gericht, tenzij je natuurlijk interessante content hebt voor de Amerikanen maar dan nog, snelheid beperking is altijd goed.
Hij gaat dan evengoed nog door je site heen, enkel langzamer

Met Robots.txt kan je een boel doen, maar maak er geen fouten in, want dat kan je het omgekeerde effect krijgen, dat ze bv juist in directories gaan waar je ze niet wilt hebben.
Hier heb je meer info:

http://www.robotstxt.org/robotstxt.html

BTW, mijn voorbeeld sluit alle content voor zoekmachines af

en tot slot, meer info specefiek to Yahoo maar veel bots gebruiken dezelfde tags:

http://help.yahoo.com/l/us/yahoo/search ... rp-03.html

Userbase

Externe site als host header

Externe site als host header