账号通
    

账号  

密码  

3734

查看

5

回复
主题:SEO知识:robots与SEO的关系 [收藏主题] 转到:  
duck001 当前离线

449

主题

0

广播

1

粉丝
添加关注
级别:四年级

用户积分:822 分
登录次数:385 次
注册时间:2010/11/11
最后登录:2013/4/26
duck001 发表于:2010/11/17 10:57:00   | 显示全部帖子 查看该作者主题 楼主 
做在线知识付费 选科汛云开店

robots与SEO之间有什么样的联系呢,robots是搜索引擎中的一种协议,就相当于计算机与计算机之间通信的一种访问协议。我们可以巧妙的利用robots访问协议,进行搜索引擎访问限制,从而保护我们网站中部分隐私不被搜索引擎所抓取到。

一、为什么要设置robots

    部分原因佛山SEO已经提到过了,防止恶意搜索爬取我们网站上的部分隐私或者是不想给用户所看到的内容,我们都可以通过robots进行设置。

1、网站后台管理:网站后台管理文件,是不需要被访问的,如果被搜索到我们的网站就会有安全风险!

2、JS、CSS代码:js\css代码也是要进行禁止抓取的。

3、数据库:网站数据库是网站的核心文件。

4、错误页面:一些无效页面除了要做404页以外,我们还要进行屏蔽处理。

    以上几点,是比较常见的利用robots访问协议进行屏蔽,有益的保护我们网站部分隐私!同时,也有很多SEOER,比较喜欢屏蔽网站中一些不重要的页面。如:关于我们、联系我们、营销网络等,这些页面从而提升网站首页的权重。

二、如何设置robots

1、首先我们建立一个robots文件,新建一个文件命名为robots.txt。

2、robots的写法:

User-agent: 该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow:该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow: 该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

      使用"*"和"$":

robots支持使用通配符"*"和"$"来模糊匹配url:

"$" 匹配行结束符。

"*" 匹配0或多个任意字符。

三、robots案例分析

大家也可以看佛山SEO网站的案例地址:http://www.qqmaxdos.com/robots.txt 需要注意的事.

User-agent: *

Disallow:

Disallow: 后面并没有加任何参数,这说明什么呢,就是所有的搜索引擎都可以访问。并不是禁止哦。如果在Disallow: /  有空格加反斜杆就是禁止所有搜索引擎爬取了。Sitemap: http://www.qqmaxdos.com/sitemap.xml.gz  这行代码的意思是提交我网站的地图给搜索引擎,更好的收录网站。



1. 禁止所有搜索引擎收录网站的某些目录:

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /目录名3/

2.禁止所有搜索引擎收录网站的某些文件:

User-agent: *

Disallow: /help/tel.htm  禁止某目下网页

Disallow: /tt.asp            禁止网站根目录网页

3. 禁止某个搜索引擎收录网站,例如禁止百度:

User-agent: Baiduspider

Disallow: /

4.一些搜索引擎的名字介绍:

google蜘蛛: googlebot  百度蜘蛛:baiduspider  yahoo蜘蛛:slurp  

alexa蜘蛛:ia_archiver  msn蜘蛛:msnbot  altavista蜘蛛:scooter

lycos蜘蛛: lycos_spider_(t-rex)  alltheweb蜘蛛: fast-webcrawler/

inktomi蜘蛛: slurp

原文章学术论文网     医学论文转载请注明出处!



 
  支持(55) | 反对(55) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.07813秒 powered by KesionCMS 9.0