Externe site als host header

Plaats reactie
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

Bij het nakijken van de IIS Logs is er toch een fenomeen waar ik een vraagje over heb.

Ik zie af en toe GET requests staan met een externe site (www.yahoo.com, www.intel.com, het publiek IP van de server zelf, ...) als hostheader. Dikwijls is de useragent gewoon IE6 of 7.
Ik vroeg me nu gewoon af wat de reden hiervoor kan zijn.
ubremoved_539
Deel van't meubilair
Deel van't meubilair
Berichten: 29849
Lid geworden op: 28 okt 2003, 09:17
Uitgedeelde bedankjes: 446 keer
Bedankt: 1985 keer

Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

r2504 schreef:Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?
Ik had al zitten denken dat het misschien iets te maken had met een eventuele proxy...
Gebruikersavatar
cloink
Elite Poster
Elite Poster
Berichten: 3515
Lid geworden op: 29 okt 2007, 10:29
Twitter: cloink
Uitgedeelde bedankjes: 93 keer
Bedankt: 137 keer
Contacteer:

Uiteindelijk is dat een volledig client-side gebeuren. Dus als ik wil, dan bezoek ik uw site met de http-headers die ik wil.

Andere piste: zou het om de referrer kunnen gaan?
ooh. shiny.
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

cloink schreef:Andere piste: zou het om de referrer kunnen gaan?
Neen, die staat in een ander veldje :wink:
Op die server staan verschillende website gehost (adhv host headers). Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...
ubremoved_539
Deel van't meubilair
Deel van't meubilair
Berichten: 29849
Lid geworden op: 28 okt 2003, 09:17
Uitgedeelde bedankjes: 446 keer
Bedankt: 1985 keer

khsw schreef:Op die server staan verschillende website gehost (adhv host headers).
Oh zo... ik had eerst begrepen dat je remote IP-adres resolve'de naar Yahoo of Intel.
khsw schreef:Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...
Heeft absoluut geen nut lijkt me... komt men gewoon op de default virtual host terecht, maar datzelfde effect heb je bij het gebruik van het IP-adres.
BasMSI
Elite Poster
Elite Poster
Berichten: 1007
Lid geworden op: 17 mei 2008, 16:59

Kan je een stukje van die log laten zien?
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

BasMSI schreef:Kan je een stukje van die log laten zien?
Ik zal deze avond enkele regels posten...
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

Bij deze enkele voorbeelden uit de logs:

Code: Selecteer alles

#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
2008-04-12 11:40:47 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 69.64.37.X HTTP/1.1 - - - www.yahoo.com 301 0 0 350 59 218
2008-04-14 22:25:21 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 121.204.3.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.yahoo.com 301 0 0 350 148 687
2008-04-27 02:15:58 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 222.141.50.X HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT) - - www.baidu.com 301 0 64 0 151 453
2008-05-03 18:00:53 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 217.159.171.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.icq.com 301 0 64 0 144 62
2008-05-08 14:19:20 W3SVC519839150 XXXXXXX 212.X.Y.Z GET /add.php auth=45V456b09m&strIp=212.X.Y.Z&nPort=80 80 - 193.200.51.X HTTP/1.1 Mozilla/5.0+(Windows;+U;+Windows+NT+5.0;+en-US;+rv:1.8.1.12)+Gecko/20080201+Firefox/2.0.0.12 - - proxy.chameleon.adsoft-development.com 301 0 0 369 311 140
BasMSI
Elite Poster
Elite Poster
Berichten: 1007
Lid geworden op: 17 mei 2008, 16:59

Het is jammer dat je server een nslookup doet en niet het exacte IP laat staan of erbij zet, anders kan je het bv hier opzoeken wie het is:

http://ws.arin.net/whois/

Die 69.64.37.X kan nl heel goed Inktomi zijn, de zoekrobot van Yahoo.

http://en.wikipedia.org/wiki/Inktomi

En van Inktomi kan je dus compleet gek worden, die durven rustig met 50~100 robots tegelijk binnen te komen.
Inktomi staat dan ook bekent bij webmasters als een verschrikkelijke zoek-robot, maar je kan die wel intomen.

Ik vermoed dan ook dat je vraag met veel trafiek te maken heeft? Meer dan je had verwacht?
Anders zie ik niet veel reden om de log door te gaan :lol:
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

De reden dat ik dus door de logfiles gegaan ben is omdat ik een batch aan het schrijven ben die de data van de logfiles in SQL Server pompt en daar voor elke gehoste website het maandelijks volume gaat berekenen, en ik steekproefsgewijs de data wou controleren.

Ik heb het volledige IP-adres hoor, maar 'k had het gewoon gemaskeerd. Mijn batch gaat het automatisch resolven, het adres waarover je het hebt is voluit 69.64.37.138 (air563.startdedicated.com).
BasMSI
Elite Poster
Elite Poster
Berichten: 1007
Lid geworden op: 17 mei 2008, 16:59

Niet helemaal:
OrgName: Server4You Inc.
OrgID: SERVE-6
Address: 710 North Tucker Blvd
Address: Suite 610
City: St. Louis
StateProv: MO
PostalCode: 63101
Country: US

NetRange: 69.64.32.0 - 69.64.63.255
CIDR: 69.64.32.0/19
NetName: S4Y1-NET
NetHandle: NET-69-64-32-0-1
Parent: NET-69-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.NAMESERVERSERVICE.COM
NameServer: NS2.NAMESERVERSERVICE.COM
Comment: http://www.server4you.com
RegDate: 2003-07-30
Updated: 2004-04-29
Het zou me niet verbazen als het een deel van Inktomi is...
Google eens op Inktomi als je het niet kent.
In elk geval, ik host ook, en ik restrict Inktomi om te doorzoeken om mijn klanten te beschermen tegen ongewenste trafiek van Inktomi.
Inktomi kan servers platleggen en websites overloaden, een simpele DDos is er niets bij.
Spijtig is dat niemand verbied dat ze het doen, wel reageren ze op robots.txt als je dat goed kan noemen :lol:
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

Dan toch eens werk maken van een robots.txt bestand. Bedankt voor de tip rond Inktomi!
BasMSI
Elite Poster
Elite Poster
Berichten: 1007
Lid geworden op: 17 mei 2008, 16:59

Ik zal je een voorbeeld geven van een Robots.txt:

User-agent: *
Disallow: /
Crawl-delay: 120

Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
khsw
Elite Poster
Elite Poster
Berichten: 1158
Lid geworden op: 03 maa 2004, 09:04
Uitgedeelde bedankjes: 18 keer
Bedankt: 16 keer

BasMSI schreef:Ik zal je een voorbeeld geven van een Robots.txt:

User-agent: *
Disallow: /
Crawl-delay: 120

Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
Daar hebben ze scripts voor uitgevonden ;-)

Bedankt!
Astralon
Elite Poster
Elite Poster
Berichten: 3310
Lid geworden op: 26 jul 2005, 12:17
Locatie: Lochristi
Uitgedeelde bedankjes: 196 keer
Bedankt: 125 keer

Mis ik iets?

Het zijn allemaal zoekmachines en de statuscode is 301 (redirect) dus imho is er niets mis mee.
Gewoon mensen die iets opzoeken en in het zoekresultaat jouw website selecteren.
BasMSI
Elite Poster
Elite Poster
Berichten: 1007
Lid geworden op: 17 mei 2008, 16:59

Jezelf tegen al te heftige zoekrobots beschermen kan geen kwaad hoor.
Vooral Inktomi (Yahoo) staat erom bekend hele webservers plat te gooien met zijn fijne botjes.
Die komt rustig met z'n 100 tegelijk even je site doorspitten, geen prettig gezicht als het jou ook overkomt.
En normaal ben je er niet veel mee want Yahoo is vrijwel volledig op de USA gericht, tenzij je natuurlijk interessante content hebt voor de Amerikanen maar dan nog, snelheid beperking is altijd goed.
Hij gaat dan evengoed nog door je site heen, enkel langzamer :lol:
Met Robots.txt kan je een boel doen, maar maak er geen fouten in, want dat kan je het omgekeerde effect krijgen, dat ze bv juist in directories gaan waar je ze niet wilt hebben.
Hier heb je meer info:

http://www.robotstxt.org/robotstxt.html

BTW, mijn voorbeeld sluit alle content voor zoekmachines af :-D

en tot slot, meer info specefiek to Yahoo maar veel bots gebruiken dezelfde tags:

http://help.yahoo.com/l/us/yahoo/search ... rp-03.html
Plaats reactie

Terug naar “Development”