|
主题:熟知搜索引擎抓取策略,提高网站优化效率 [收藏主题] |
搜索引擎抓取策略
抓取时间控制: 为了减少服务器负担搜索引擎蜘蛛有时间控制,白天因为访问量大搜索引擎一般白天抓取的页面比较少到了晚上蜘蛛们就开始活跃起来了,所以晚上更新文章搜索引擎很快就收录了。 遵循Robots协议: robots.txt文件放到网站根目录爬虫系统爬取你网站的时候首先要看的就是robots.txt文本里面的,看看那里叫爬取那里不叫。如果没有robots.txt文件那就是全部开放。 网页重访策略: 搜索引擎数据库已经有非常多的网页信息了,但是互联网的信息是不断变化的,而以前已经收录的网页有可能已经发生变化,所以爬虫系统还有一个重访策略来爬行以前收录过的页面。这时候,如果页面已经过期或者主体内容发生改变了,爬虫就可以得知进而取消原有的索引。 抓取优先策略: 网页抓取的优先策略也可以理解为爬虫系统应该选择哪些页面先抓取,这一般通过三个方面来确定,包括:链接流行度、链接权威度和链接深度。 链接流行度是指这个页是否有大量且高质量的传奇[/反向链接;链接权威度是指这个页面的反向链接所在页面是否是搜索引擎认为重要性高的; 链接深度是指在所有反向链接网站中是到达该页面的链接距离,也就是在别的网站要点击几次才能进入这个页面,这也是为什么首页链接的重要性高的一个原因。所以我们权重比较高的网站抓取非常频繁,而且收录也很快。 深度优先策略: 互联网的世界是一个没有劲头的世界,如果蜘蛛们按照深度优先的策略相信蜘蛛累死也爬取不玩,所以深度优先也是有限时的蜘蛛爬取一定深度了就自动停止了。所以我们建议网站中所有页面距离首页(也可以是其他首陆页)的点击次数不超过三次或四次。 宽度优先策略: 宽度优先策略也可称为广度优先,类似于长幼有序,比如首页上有10个链接,那么是先将这10个链接爬取完,再进入每一个链接爬取其下面的链接。爬虫程序首先使用宽度优先策略,因为离种子页面(首页)最近的通常是最重要的,这符合人的思维,否则如果延着一个链接不断的爬行下去,这个页面的其他链接就可能会抓取不到了。 文章整理:www.enjoyfire.cn |
|
www.njbywl.com,www.jstqkeji.com,www.peng-tuo.com,www.daolvyou.com | |
支持(0) | 反对(0) 顶端 底部 |
<上一主题 | 下一主题 > |