Bij het nakijken van de IIS Logs is er toch een fenomeen waar ik een vraagje over heb.
Ik zie af en toe GET requests staan met een externe site (www.yahoo.com, www.intel.com, het publiek IP van de server zelf, ...) als hostheader. Dikwijls is de useragent gewoon IE6 of 7.
Ik vroeg me nu gewoon af wat de reden hiervoor kan zijn.
Externe site als host header
-
- Deel van't meubilair
- Berichten: 29849
- Lid geworden op: 28 okt 2003, 09:17
- Uitgedeelde bedankjes: 446 keer
- Bedankt: 1985 keer
Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?
- cloink
- Elite Poster
- Berichten: 3515
- Lid geworden op: 29 okt 2007, 10:29
- Twitter: cloink
- Uitgedeelde bedankjes: 93 keer
- Bedankt: 137 keer
- Contacteer:
Uiteindelijk is dat een volledig client-side gebeuren. Dus als ik wil, dan bezoek ik uw site met de http-headers die ik wil.
Andere piste: zou het om de referrer kunnen gaan?
Andere piste: zou het om de referrer kunnen gaan?
ooh. shiny.
-
- Elite Poster
- Berichten: 1158
- Lid geworden op: 03 maa 2004, 09:04
- Uitgedeelde bedankjes: 18 keer
- Bedankt: 16 keer
Neen, die staat in een ander veldjecloink schreef:Andere piste: zou het om de referrer kunnen gaan?
Op die server staan verschillende website gehost (adhv host headers). Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...
-
- Deel van't meubilair
- Berichten: 29849
- Lid geworden op: 28 okt 2003, 09:17
- Uitgedeelde bedankjes: 446 keer
- Bedankt: 1985 keer
Oh zo... ik had eerst begrepen dat je remote IP-adres resolve'de naar Yahoo of Intel.khsw schreef:Op die server staan verschillende website gehost (adhv host headers).
Heeft absoluut geen nut lijkt me... komt men gewoon op de default virtual host terecht, maar datzelfde effect heb je bij het gebruik van het IP-adres.khsw schreef:Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...
-
- Elite Poster
- Berichten: 1158
- Lid geworden op: 03 maa 2004, 09:04
- Uitgedeelde bedankjes: 18 keer
- Bedankt: 16 keer
Bij deze enkele voorbeelden uit de logs:
Code: Selecteer alles
#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
2008-04-12 11:40:47 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 69.64.37.X HTTP/1.1 - - - www.yahoo.com 301 0 0 350 59 218
2008-04-14 22:25:21 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 121.204.3.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.yahoo.com 301 0 0 350 148 687
2008-04-27 02:15:58 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 222.141.50.X HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT) - - www.baidu.com 301 0 64 0 151 453
2008-05-03 18:00:53 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 217.159.171.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.icq.com 301 0 64 0 144 62
2008-05-08 14:19:20 W3SVC519839150 XXXXXXX 212.X.Y.Z GET /add.php auth=45V456b09m&strIp=212.X.Y.Z&nPort=80 80 - 193.200.51.X HTTP/1.1 Mozilla/5.0+(Windows;+U;+Windows+NT+5.0;+en-US;+rv:1.8.1.12)+Gecko/20080201+Firefox/2.0.0.12 - - proxy.chameleon.adsoft-development.com 301 0 0 369 311 140
Het is jammer dat je server een nslookup doet en niet het exacte IP laat staan of erbij zet, anders kan je het bv hier opzoeken wie het is:
http://ws.arin.net/whois/
Die 69.64.37.X kan nl heel goed Inktomi zijn, de zoekrobot van Yahoo.
http://en.wikipedia.org/wiki/Inktomi
En van Inktomi kan je dus compleet gek worden, die durven rustig met 50~100 robots tegelijk binnen te komen.
Inktomi staat dan ook bekent bij webmasters als een verschrikkelijke zoek-robot, maar je kan die wel intomen.
Ik vermoed dan ook dat je vraag met veel trafiek te maken heeft? Meer dan je had verwacht?
Anders zie ik niet veel reden om de log door te gaan
http://ws.arin.net/whois/
Die 69.64.37.X kan nl heel goed Inktomi zijn, de zoekrobot van Yahoo.
http://en.wikipedia.org/wiki/Inktomi
En van Inktomi kan je dus compleet gek worden, die durven rustig met 50~100 robots tegelijk binnen te komen.
Inktomi staat dan ook bekent bij webmasters als een verschrikkelijke zoek-robot, maar je kan die wel intomen.
Ik vermoed dan ook dat je vraag met veel trafiek te maken heeft? Meer dan je had verwacht?
Anders zie ik niet veel reden om de log door te gaan
-
- Elite Poster
- Berichten: 1158
- Lid geworden op: 03 maa 2004, 09:04
- Uitgedeelde bedankjes: 18 keer
- Bedankt: 16 keer
De reden dat ik dus door de logfiles gegaan ben is omdat ik een batch aan het schrijven ben die de data van de logfiles in SQL Server pompt en daar voor elke gehoste website het maandelijks volume gaat berekenen, en ik steekproefsgewijs de data wou controleren.
Ik heb het volledige IP-adres hoor, maar 'k had het gewoon gemaskeerd. Mijn batch gaat het automatisch resolven, het adres waarover je het hebt is voluit 69.64.37.138 (air563.startdedicated.com).
Ik heb het volledige IP-adres hoor, maar 'k had het gewoon gemaskeerd. Mijn batch gaat het automatisch resolven, het adres waarover je het hebt is voluit 69.64.37.138 (air563.startdedicated.com).
Niet helemaal:
Google eens op Inktomi als je het niet kent.
In elk geval, ik host ook, en ik restrict Inktomi om te doorzoeken om mijn klanten te beschermen tegen ongewenste trafiek van Inktomi.
Inktomi kan servers platleggen en websites overloaden, een simpele DDos is er niets bij.
Spijtig is dat niemand verbied dat ze het doen, wel reageren ze op robots.txt als je dat goed kan noemen
Het zou me niet verbazen als het een deel van Inktomi is...OrgName: Server4You Inc.
OrgID: SERVE-6
Address: 710 North Tucker Blvd
Address: Suite 610
City: St. Louis
StateProv: MO
PostalCode: 63101
Country: US
NetRange: 69.64.32.0 - 69.64.63.255
CIDR: 69.64.32.0/19
NetName: S4Y1-NET
NetHandle: NET-69-64-32-0-1
Parent: NET-69-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.NAMESERVERSERVICE.COM
NameServer: NS2.NAMESERVERSERVICE.COM
Comment: http://www.server4you.com
RegDate: 2003-07-30
Updated: 2004-04-29
Google eens op Inktomi als je het niet kent.
In elk geval, ik host ook, en ik restrict Inktomi om te doorzoeken om mijn klanten te beschermen tegen ongewenste trafiek van Inktomi.
Inktomi kan servers platleggen en websites overloaden, een simpele DDos is er niets bij.
Spijtig is dat niemand verbied dat ze het doen, wel reageren ze op robots.txt als je dat goed kan noemen
Ik zal je een voorbeeld geven van een Robots.txt:
User-agent: *
Disallow: /
Crawl-delay: 120
Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
User-agent: *
Disallow: /
Crawl-delay: 120
Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
-
- Elite Poster
- Berichten: 1158
- Lid geworden op: 03 maa 2004, 09:04
- Uitgedeelde bedankjes: 18 keer
- Bedankt: 16 keer
Daar hebben ze scripts voor uitgevondenBasMSI schreef:Ik zal je een voorbeeld geven van een Robots.txt:
User-agent: *
Disallow: /
Crawl-delay: 120
Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
Bedankt!
-
- Elite Poster
- Berichten: 3310
- Lid geworden op: 26 jul 2005, 12:17
- Locatie: Lochristi
- Uitgedeelde bedankjes: 196 keer
- Bedankt: 125 keer
Mis ik iets?
Het zijn allemaal zoekmachines en de statuscode is 301 (redirect) dus imho is er niets mis mee.
Gewoon mensen die iets opzoeken en in het zoekresultaat jouw website selecteren.
Het zijn allemaal zoekmachines en de statuscode is 301 (redirect) dus imho is er niets mis mee.
Gewoon mensen die iets opzoeken en in het zoekresultaat jouw website selecteren.
Jezelf tegen al te heftige zoekrobots beschermen kan geen kwaad hoor.
Vooral Inktomi (Yahoo) staat erom bekend hele webservers plat te gooien met zijn fijne botjes.
Die komt rustig met z'n 100 tegelijk even je site doorspitten, geen prettig gezicht als het jou ook overkomt.
En normaal ben je er niet veel mee want Yahoo is vrijwel volledig op de USA gericht, tenzij je natuurlijk interessante content hebt voor de Amerikanen maar dan nog, snelheid beperking is altijd goed.
Hij gaat dan evengoed nog door je site heen, enkel langzamer
Met Robots.txt kan je een boel doen, maar maak er geen fouten in, want dat kan je het omgekeerde effect krijgen, dat ze bv juist in directories gaan waar je ze niet wilt hebben.
Hier heb je meer info:
http://www.robotstxt.org/robotstxt.html
BTW, mijn voorbeeld sluit alle content voor zoekmachines af
en tot slot, meer info specefiek to Yahoo maar veel bots gebruiken dezelfde tags:
http://help.yahoo.com/l/us/yahoo/search ... rp-03.html
Vooral Inktomi (Yahoo) staat erom bekend hele webservers plat te gooien met zijn fijne botjes.
Die komt rustig met z'n 100 tegelijk even je site doorspitten, geen prettig gezicht als het jou ook overkomt.
En normaal ben je er niet veel mee want Yahoo is vrijwel volledig op de USA gericht, tenzij je natuurlijk interessante content hebt voor de Amerikanen maar dan nog, snelheid beperking is altijd goed.
Hij gaat dan evengoed nog door je site heen, enkel langzamer
Met Robots.txt kan je een boel doen, maar maak er geen fouten in, want dat kan je het omgekeerde effect krijgen, dat ze bv juist in directories gaan waar je ze niet wilt hebben.
Hier heb je meer info:
http://www.robotstxt.org/robotstxt.html
BTW, mijn voorbeeld sluit alle content voor zoekmachines af
en tot slot, meer info specefiek to Yahoo maar veel bots gebruiken dezelfde tags:
http://help.yahoo.com/l/us/yahoo/search ... rp-03.html