账号通
    

账号  

密码  

2599

查看

0

回复
主题:随意修改robots.txt 不利于搜索引擎收录你的站 [收藏主题]  
wsk0111 当前离线

104

主题

10

广播

0

粉丝
添加关注
级别:学前班

用户积分:356 分
登录次数:83 次
注册时间:2010/8/24
最后登录:2016/10/22
wsk0111 发表于:2010/8/31 15:58:00   | 只看该作者 查看该作者主题 楼主 
科汛智能建站系统
Robots.txt是用来告诉bot的访问权限,因Robots.txt协议并不是一个规范,而只是约定俗成的,通常大多数搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面,使用方法是将robots.txt文件放在网站根目录下。举例来说,当搜索引擎访问一个网站(比如http://www.yuyuez.cn)时,通常首先会检查该网站中是否存在robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。闲话不扯了,进入正题:

经本人的试验,对于一个遵守Robots.txt协议的蜘蛛,如果你修改Robots.txt过于频繁,可直接导致将你的站“冷”处理!本人的站就已进入该黑洞了,之前百由于不想让百度蜘蛛收录商品列表的老页面,就直接B了百度蜘蛛访问此页,过了约3天,效果果真明显,小CO还暗喜这蜘蛛真听话,于是乎又想到网站内之前使用的几个页面。现在也用不上了,而此前已被搜索引擎收录了N多页,现在一起B了,于是修改了Robots.txt,这一改不要紧,两于过去了,小CO再也高兴不起来了,可爱的百度蜘蛛再也不哪么勤快了(之前每天在站内爬2万以上),现在几天也不到2万,晕死。。。上了当就得找原因:上边说过了,一旦B了某个页面,蜘蛛就不索引这个页面,以及这个页面的链出页面,偶的就中了这个奖了!很多人放出了他们自己修改的robots.txt文件,但都忽略了百度蜘蛛的爬行规律:并不是进入一个版块后,就按照人类思维,按文章列表顺序爬行的,我从自己的站点,已经证实这个问题:

比如文章列表第一篇爬完后,并不是接着爬第二篇,而是从第一个篇内容页中的“热点文章”等继续爬(这就要求站内的贯通性较好!)。从DZ官站的收录页URL就可以看出这个点,如果随意屏蔽/forum.php?mod=redirect* 或者/forum-redirect*这样的路径,可能会导致大部分网页不被收录。

不要用人的思维习惯来判断蜘蛛程序的规律。很多站长放了robots.txt后,就发现百度很少收录自己的内页,很可能就是这个原因。所以用robots.txt文件来解决重复收录问题,是很危险的,从程序上做根本解决才是上策!小CO是上当了。希望有?欢迎转载·但是请注明文章出处!文章来源作者:高清e族,文章来源:http://www.gqezu.com

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.09375秒 powered by KesionCMS 9.0