之前做博客的时候也考虑了网站优化,然后也去网上看了参考了几个wordpress的博客的robots.txt的写法,然后自己自认为写了个很合理的robots的文件。当时我的写法具体是这样的:
- User-agent: *
- Disallow: /?Disallow: /wp-*
- Disallow: /feed
- Disallow: /*/*/feed
- Disallow: /trackback
- Disallow: /*/*/trackback
- Disallow: /*.js$
- Disallow: /*.css$
- sitemap:http://www.nbyy120.com/sitemap.xml
- sitemap:http://www.nbyy120.com/sitemap.html
- sitemap:http://www.nbyy120.com/sitemap_baidu.xml
当时我想我的博客的链接都设置了静态后缀html的了,所以对于那些动态以?的形式的链接都给屏蔽了,然后就有了个Disallow: /?这样的写法了。其实也让几个朋友也看了那个robots.txt的写法,当时都觉得写的没错的。然后博客做好之后百度也开始收录,之前也一直只是收录了个首页,然后一直有两个月了还是那样的,但是百度给我的博客权重排名还是不错的,谷歌收录也正常所以也没有想到是robots写法错误的问题了。只是觉得百度不正常,对于我博客收录不正常。
直到上次在群里讨论说我博客这个问题,百度收录很少但是排名却很好的原因。有的人说是ZB被百度惩罚了,但是我想我也没有通过什么ZB手段啊,后来还是毛哥说出来了问题的所在,他说我的robots的写法有问题,就是那个Disallow: /?的问题。由于wordpress的程序链接设置是设置伪静态的,也就是html文件并没有生成,伪静态的html文件也是以动态带?的文件形成的,所以如果屏蔽了带有?的文件百度也就抓不到html的文件了。但是后来我看到谷歌的收录却很正常的时候,这只能说明百度的蜘蛛还是没有那么智能,不能抓取伪静态未生成的文件。
然后前天我就改了一下我博客的robots的文件,把那个Disallow: /?的给去掉了,没有想到刚去掉没有多久百度就放出了我博客的一些内页了,虽然只收录了最新一篇文章,但是一篇文章把所有评论的重复动态页面也都给收录了一遍,从这也可以看出的确是robots文件的问题了。
由宁波******转自网络.【宁波****** http://www.nbyy120.com/ 】