账号通
    

账号  

密码  

2348

查看

3

回复
主题:怎样辨别搜索引擎机器人身份 [收藏主题] 转到:  
laiang03 当前离线

300

主题

0

广播

0

粉丝
添加关注
级别:二年级

用户积分:682 分
登录次数:121 次
注册时间:2010/12/17
最后登录:2012/1/19
laiang03 发表于:2010/12/19 15:25:40   | 只看该作者 查看该作者主题 楼主 
科汛在线网校系统
搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。

在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。

主流搜索引擎的主机名称通常情况下应是这样的:

Google : 主机名称应包含于googlebot.com 域名中, 如:crawl-66-249-66-1.googlebot.com;

MSN : 主机名称应包含于search.live.com 域名中, 如:livebot-207-46-98-149.search.live.com;

Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。
 
  支持(21) | 反对(21) 回到顶部顶端 回到底部底部
laiang03 当前离线

300

主题

0

广播

0

粉丝
添加关注
级别:二年级

用户积分:682 分
登录次数:121 次
注册时间:2010/12/17
最后登录:2012/1/19
laiang03 发表于:2010/12/19 15:26:24   | 只看该作者 查看该作者主题 沙发 
做在线知识付费 选科汛云开店
自己先顶一下!!沙发
 
  支持(21) | 反对(19) 回到顶部顶端 回到底部底部
ht2010 当前离线

237

主题

0

广播

0

粉丝
添加关注
级别:二年级

用户积分:238 分
登录次数:32 次
注册时间:2010/11/2
最后登录:2010/12/23
ht2010 发表于:2010/12/20 11:52:03   | 只看该作者 查看该作者主题 藤椅 
 
  支持(13) | 反对(11) 回到顶部顶端 回到底部底部
feitian123 当前离线

255

主题

0

广播

0

粉丝
添加关注
级别:一年级

用户积分:236 分
登录次数:9 次
注册时间:2010/11/30
最后登录:2010/12/21
feitian123 发表于:2010/12/21 10:22:08   | 只看该作者 查看该作者主题 板凳 
 
  支持(10) | 反对(8) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.29688秒 powered by KesionCMS 9.0