|
主题:[转帖][讨论]防采集 [收藏主题] | 转到: |
这几天上网,竟然也现我的整站被人家全部采集去了。晕倒,几年的资料就这样便宜人家。 还好,人家是个懒虫,栏目都不分,鬼才会去看。 这样才想起怎样防止采集的方法。 注意,只是讨论可行性,还没有提供解决方案。 采集与搜索引擎的机器人不同。采集需要对网页进行分析,以找到规则,分别对标题和内容进行读取并记录到数据库中。 如果我们能够把网页做成没有规则,采集也就无从入手了。 说到规则,我就想趣了空格。 空格这东西,在HTM的<>中,并不产生作用,也就是说,一个空格的位置,你多加几个也是没关系的。象<table>你可以写成< table>,<table >,< table >。都可以,所以,如果在网页里面,特别是采集程序重点分析的位置,我们利用程序,在这些位置加些空格,采集也就难以下手了,就算采到了,也就几篇而已,影响不大。 我准备这样做,象原来在模板中的<table>,我会改成<{$space1$}table{$space2$}>,在这里,{$space1$}和{$space2$}是自定义标签(也可以融合到程序中),然后在程序中使用随机数来决定这两个标签用多少个空格来代替。 呵呵,人家现在想用<table>来做为特征采集是完全做不到的了。但对于我的网页,显示上一点影响也没有,对于搜索引擎的机器人也一点影响没有。 我想这应该是最合适的方法。 希望做过采集或改过采集的讨论一下。 程序会在近段时间写出来,应用于自己网站。 |
|
支持(0) | 反对(0) 顶端 底部 |
支持(0) | 反对(0) 顶端 底部 |
支持(0) | 反对(0) 顶端 底部 |
支持(0) | 反对(0) 顶端 底部 |
支持(0) | 反对(0) 顶端 底部 |
<上一主题 | 下一主题 > |