Pagina 1 van 1
Externe site als host header
Geplaatst: 19 mei 2008, 10:14
door khsw
Bij het nakijken van de IIS Logs is er toch een fenomeen waar ik een vraagje over heb.
Ik zie af en toe GET requests staan met een externe site (
www.yahoo.com,
www.intel.com, het publiek IP van de server zelf, ...) als hostheader. Dikwijls is de useragent gewoon IE6 of 7.
Ik vroeg me nu gewoon af wat de reden hiervoor kan zijn.
Geplaatst: 19 mei 2008, 11:36
door ubremoved_539
Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?
Geplaatst: 19 mei 2008, 12:14
door khsw
r2504 schreef:Iemand (werknemer) van Yahoo of Intel die jou site bezoekt ?
Ik had al zitten denken dat het misschien iets te maken had met een eventuele proxy...
Geplaatst: 19 mei 2008, 12:59
door cloink
Uiteindelijk is dat een volledig client-side gebeuren. Dus als ik wil, dan bezoek ik uw site met de http-headers die ik wil.
Andere piste: zou het om de referrer kunnen gaan?
Geplaatst: 19 mei 2008, 13:04
door khsw
cloink schreef:Andere piste: zou het om de referrer kunnen gaan?
Neen, die staat in een ander veldje
Op die server staan verschillende website gehost (adhv host headers). Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...
Geplaatst: 19 mei 2008, 13:17
door ubremoved_539
khsw schreef:Op die server staan verschillende website gehost (adhv host headers).
Oh zo... ik had eerst begrepen dat je remote IP-adres resolve'de naar Yahoo of Intel.
khsw schreef:Maar in de logs zag ik enkele 'rare' hostheaders staan, en ik vroeg me af welk nut (al dan niet goed bedoeld) iemand zou kunnen hebben bij het zetten van zo'n header op een waarde die niet relevant is voor de bezochte server...
Heeft absoluut geen nut lijkt me... komt men gewoon op de default virtual host terecht, maar datzelfde effect heb je bij het gebruik van het IP-adres.
Geplaatst: 19 mei 2008, 16:03
door BasMSI
Kan je een stukje van die log laten zien?
Geplaatst: 19 mei 2008, 16:34
door khsw
BasMSI schreef:Kan je een stukje van die log laten zien?
Ik zal deze avond enkele regels posten...
Geplaatst: 19 mei 2008, 19:07
door khsw
Bij deze enkele voorbeelden uit de logs:
Code: Selecteer alles
#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
2008-04-12 11:40:47 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 69.64.37.X HTTP/1.1 - - - www.yahoo.com 301 0 0 350 59 218
2008-04-14 22:25:21 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 121.204.3.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.yahoo.com 301 0 0 350 148 687
2008-04-27 02:15:58 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 222.141.50.X HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT) - - www.baidu.com 301 0 64 0 151 453
2008-05-03 18:00:53 W3SVC519839150 XXXXXXX 212.X.Y.Z GET / - 80 - 217.159.171.X HTTP/1.1 Mozilla/5.0+(compatible;+MSIE+5.01;+Win2000) - - www.icq.com 301 0 64 0 144 62
2008-05-08 14:19:20 W3SVC519839150 XXXXXXX 212.X.Y.Z GET /add.php auth=45V456b09m&strIp=212.X.Y.Z&nPort=80 80 - 193.200.51.X HTTP/1.1 Mozilla/5.0+(Windows;+U;+Windows+NT+5.0;+en-US;+rv:1.8.1.12)+Gecko/20080201+Firefox/2.0.0.12 - - proxy.chameleon.adsoft-development.com 301 0 0 369 311 140
Geplaatst: 19 mei 2008, 19:16
door BasMSI
Het is jammer dat je server een nslookup doet en niet het exacte IP laat staan of erbij zet, anders kan je het bv hier opzoeken wie het is:
http://ws.arin.net/whois/
Die 69.64.37.X kan nl heel goed Inktomi zijn, de zoekrobot van Yahoo.
http://en.wikipedia.org/wiki/Inktomi
En van Inktomi kan je dus compleet gek worden, die durven rustig met 50~100 robots tegelijk binnen te komen.
Inktomi staat dan ook bekent bij webmasters als een verschrikkelijke zoek-robot, maar je kan die wel intomen.
Ik vermoed dan ook dat je vraag met veel trafiek te maken heeft? Meer dan je had verwacht?
Anders zie ik niet veel reden om de log door te gaan
Geplaatst: 19 mei 2008, 20:15
door khsw
De reden dat ik dus door de logfiles gegaan ben is omdat ik een batch aan het schrijven ben die de data van de logfiles in SQL Server pompt en daar voor elke gehoste website het maandelijks volume gaat berekenen, en ik steekproefsgewijs de data wou controleren.
Ik heb het volledige IP-adres hoor, maar 'k had het gewoon gemaskeerd. Mijn batch gaat het automatisch resolven, het adres waarover je het hebt is voluit 69.64.37.138 (air563.startdedicated.com).
Geplaatst: 19 mei 2008, 20:26
door BasMSI
Niet helemaal:
OrgName: Server4You Inc.
OrgID: SERVE-6
Address: 710 North Tucker Blvd
Address: Suite 610
City: St. Louis
StateProv: MO
PostalCode: 63101
Country: US
NetRange: 69.64.32.0 - 69.64.63.255
CIDR: 69.64.32.0/19
NetName: S4Y1-NET
NetHandle: NET-69-64-32-0-1
Parent: NET-69-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.NAMESERVERSERVICE.COM
NameServer: NS2.NAMESERVERSERVICE.COM
Comment:
http://www.server4you.com
RegDate: 2003-07-30
Updated: 2004-04-29
Het zou me niet verbazen als het een deel van Inktomi is...
Google eens op Inktomi als je het niet kent.
In elk geval, ik host ook, en ik restrict Inktomi om te doorzoeken om mijn klanten te beschermen tegen ongewenste trafiek van Inktomi.
Inktomi kan servers platleggen en websites overloaden, een simpele DDos is er niets bij.
Spijtig is dat niemand verbied dat ze het doen, wel reageren ze op robots.txt als je dat goed kan noemen
Geplaatst: 19 mei 2008, 20:50
door khsw
Dan toch eens werk maken van een robots.txt bestand. Bedankt voor de tip rond Inktomi!
Geplaatst: 19 mei 2008, 21:01
door BasMSI
Ik zal je een voorbeeld geven van een Robots.txt:
User-agent: *
Disallow: /
Crawl-delay: 120
Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
Geplaatst: 19 mei 2008, 21:48
door khsw
BasMSI schreef:Ik zal je een voorbeeld geven van een Robots.txt:
User-agent: *
Disallow: /
Crawl-delay: 120
Dat gaat je normaal helpen de doorlooptijd te beperken.
De hoeveelheid trafiek zal ook meteen een pak lager liggen.
Helaas moet je dit per domain doen, en da's wel kl*te.
Daar hebben ze scripts voor uitgevonden
Bedankt!
Geplaatst: 19 mei 2008, 22:21
door Astralon
Mis ik iets?
Het zijn allemaal zoekmachines en de statuscode is 301 (redirect) dus imho is er niets mis mee.
Gewoon mensen die iets opzoeken en in het zoekresultaat jouw website selecteren.
Geplaatst: 20 mei 2008, 11:18
door BasMSI
Jezelf tegen al te heftige zoekrobots beschermen kan geen kwaad hoor.
Vooral Inktomi (Yahoo) staat erom bekend hele webservers plat te gooien met zijn fijne botjes.
Die komt rustig met z'n 100 tegelijk even je site doorspitten, geen prettig gezicht als het jou ook overkomt.
En normaal ben je er niet veel mee want Yahoo is vrijwel volledig op de USA gericht, tenzij je natuurlijk interessante content hebt voor de Amerikanen maar dan nog, snelheid beperking is altijd goed.
Hij gaat dan evengoed nog door je site heen, enkel langzamer
Met Robots.txt kan je een boel doen, maar maak er geen fouten in, want dat kan je het omgekeerde effect krijgen, dat ze bv juist in directories gaan waar je ze niet wilt hebben.
Hier heb je meer info:
http://www.robotstxt.org/robotstxt.html
BTW, mijn voorbeeld sluit alle content voor zoekmachines af
en tot slot, meer info specefiek to Yahoo maar veel bots gebruiken dezelfde tags:
http://help.yahoo.com/l/us/yahoo/search ... rp-03.html