|
主题:百度是怎么识别文章原创性的 [收藏主题] | 转到: |
danlianhui 发表于:2011/12/10 11:25:26 | 只看该作者 查看该作者主题
楼主
众所周知的是百度越来越关注原创性的文章,为了达到排名及流量目的,采用各种手法才对复制性的文章进行修改,然而多数的伪原创其实只是一种的方法,百度远远没有我们想象的简单。百度如何识别原创和伪原创文章?
1.文章锚文本连接:大家可以参考一下加气砖生产线的文章www.sdygzt.com,相同的一篇文章,被各个网站相互转载,如果有文章内部的锚文本连接都指向同一个网站的话,这无疑会增加被百度认可是原创的筹码。 2.关键词词频:这里大家需要了解一个名词:“信息指纹”,信息指纹类似人类的指纹,站长。百度截取一定目标文字,然后根据一定的算法,将文字及其权重为一定的编码,这些文字可能是几个字符,可能是一句话或者几句话,通常一篇文章对应多个信息指纹,如果你的文章是原创性的文章的话,百度会根据信息指纹判断。 3.文章发布时间:相同的一篇文章,发布并且被百度收录的时间越早,越容易被百度认为是原创文章。 4.文字顺序:如果两个文本的信息指纹完全相同的话,理论上可以认为两个文本完全一样,但是实际上却不是这样,既然百度会截取一定的字符作为信息指纹的基础,那么通过打乱这些字符的顺序也可以得到不同的信息指纹。 通过以上几点我们不难发现,原来一些SEO所谓的伪原创创作手法在百度看来是如此的“小儿科”,下面的几种伪原创手法都是不可取的: 1.调整段落顺序:这个就不多说了,简单调整顺序是不能起到任何的伪原创作用。 2.图片替换法:我记得曾经见到过有网站利用图片替代停止词及标点符号,这么如果是纯粹为了让百度认为是伪原创的话我认为就太可笑了,但是这种方法不失为一种防治信息拷贝的好方法,一句话,对百度没用,对用户有用。 3.关键词替换:SEO市场上流行着各种伪原创工具,基本上都是依靠关键词替换而来,通过建立一定量的同义词词库,使文章内同义词相互替换而达到伪原创的效果,我们曾手动整理了两万多同义词进行试验,基本作用不大,因为关键词可替换的词相对来说太少,一篇文章整体替换后也就缺乏可阅读性了。 4.修改首段及末端:这是绝大多数SEO采用的手法,同时也被广大编辑所认可,简单修改首段及末端就可以让百度认为伪原创么?本人认为不一定,当修改幅度不足以影响主关键词词频的时候是不能起到任何作用的,百度看它和复制的文章没有两样。 当然还有一些其他方法,比如几篇文章整合为一片文章、调用上一篇或者下一篇文章描述等等,在百度看来,这些手法不是一种常有效的手法。 |
|
支持(19) | 反对(19) 顶端 底部 |
支持(17) | 反对(19) 顶端 底部 |
[url]www.yn533.com[/url] [url]www.yngbzx.com[/url] | |
支持(7) | 反对(6) 顶端 底部 |
1787474468 发表于:2011/12/10 14:56:57 | 只看该作者 查看该作者主题
板凳
|
|
支持(5) | 反对(5) 顶端 底部 |
支持(1) | 反对(1) 顶端 底部 |
<上一主题 | 下一主题 > |