在前面一篇文章里(搜索引擎工作原理折射SEO知识上)有说到搜索引擎的工作原理的前部分也就是如何通过蛛蛛来抓取网络信息的问题。从中我们也了解到,蛛蛛的一些习性与SEO的一些操作小技巧。在今天的文章中我们会看到更多的有关于搜索引擎的内容,好了废话就不多说了。
我们都知道蛛蛛它毕竟还只是个程序而已,他做的工作不会通过网站的前台来分析一个网站内容,而是通过网站的代码来进行抓取信息的。而在网站的源代码里我们会看到好多html、js等一些程序的语句。而蛛蛛他只会对里面的文章感兴趣,也就是说他只提取网页上海九龙男子医里的一些文字。有些朋友可能就会说到了,那我们还写什么代码?代码不是起不到作用了吗其实不是这样的,在网站的标签优化中我们都知道比如H标签、nofollow标签、alt标签等。这些标签还是能在蛛蛛抓取我们网站信息的时候起到强调与修饰作用。比如遇到图片的时候,但蛛蛛并不能识别图片里的信息,那么我们就会考虑去设置一下 alt标签来帮助搜索引擎来识别图片里的信息;为了让网站的一些权重不分散,我们在必要地方给链接加上了nofollow。
既然搜索引擎蛛蛛是对网站文字特别感兴趣,那对于中文SEO优化来说。是不是会有个概念性的东西在这里面,那就是“分词”
最简单的一个例子,比如我们中文里面的“网站优化”这四个词,在百度搜索引擎数据词库里,其实是把网站与优化两个不同的词分开来存放的。当用户上海男性专科***来搜索网站优化这个词的时候,搜索引擎的步骤也就是把网站这个词库里的网页信息与优化词库里的信息做一个交集来检索与排名。这点后面还会有说到。
我们是不是很容易的看到在快照里的显示结果百度把这个词分成了三块不同背景色的词组。这个只是其一,我们也可以在百度的搜索结果里看到只要是我们搜索的词,都会有标红的情况。这个也是分词的另一种表现形式。
有些朋友可能会说了,你说的那些是个别情况,我们在现实过程去搜索的词远远比这个复杂,而且可能还会有一些语气助词等。做为越来越完善的搜索引擎而言。他们其实也早就考虑到了这个问题,首先是因为这些个语气词在搜索过程中实际上是起不到任何作用的。在搜索引擎进行预处理的时候,他们也会把这些词给过滤。一方面是减少检索负担,另一方面也是为了增加内容的准确度。
在搜索引擎把蛛蛛抓取来的信息进行归档之前,还有个程度是必不可少的,他必须得做内容的重复审核。一重意思:搜索引擎必须把同一个网站里的数据进行删选。有一种情况:比如有人在搜索我的网站宁波SEO的时候,在排名结果中第一页会出现我们九龙***的首页与内容页的可能性。其实做为一个成熟的搜索引擎来说,这种情况是要避免的。因为这样的内容对用户的用处不大,就相当于同一个内容给排了两次。第二重:对于不同的网站而言,因为网络上的内容那是成千上万的。这里面就会出现两个不同的网站,但内容相同的情况。就是我们常说的网站内容转载的问题,搜索引擎也会考虑到重复的信息进行删选。