账号通
    

账号  

密码  

3291

查看

4

回复
主题:[转帖][讨论]防采集 [收藏主题] 转到:  
乖宝宝 当前离线

2059

主题

0

广播

1

粉丝
添加关注
级别:高二年

用户积分:3528 分
登录次数:567 次
注册时间:2006/11/3
最后登录:2017/3/2
乖宝宝 发表于:2006/11/24 9:12:00   | 只看该作者 查看该作者主题 楼主 
科汛在线商城系统(NET)

这几天上网,竟然也现我的整站被人家全部采集去了。晕倒,几年的资料就这样便宜人家。

还好,人家是个懒虫,栏目都不分,鬼才会去看。

这样才想起怎样防止采集的方法。

注意,只是讨论可行性,还没有提供解决方案。

采集与搜索引擎的机器人不同。采集需要对网页进行分析,以找到规则,分别对标题和内容进行读取并记录到数据库中。

如果我们能够把网页做成没有规则,采集也就无从入手了。

说到规则,我就想趣了空格。

空格这东西,在HTM的<>中,并不产生作用,也就是说,一个空格的位置,你多加几个也是没关系的。象<table>你可以写成< table>,<table >,<  table     >。都可以,所以,如果在网页里面,特别是采集程序重点分析的位置,我们利用程序,在这些位置加些空格,采集也就难以下手了,就算采到了,也就几篇而已,影响不大。

我准备这样做,象原来在模板中的<table>,我会改成<{$space1$}table{$space2$}>,在这里,{$space1$}和{$space2$}是自定义标签(也可以融合到程序中),然后在程序中使用随机数来决定这两个标签用多少个空格来代替。

呵呵,人家现在想用<table>来做为特征采集是完全做不到的了。但对于我的网页,显示上一点影响也没有,对于搜索引擎的机器人也一点影响没有。

我想这应该是最合适的方法。

希望做过采集或改过采集的讨论一下。

程序会在近段时间写出来,应用于自己网站。

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
hhflxx 当前离线

861

主题

0

广播

1

粉丝
添加关注
级别:七年级

用户积分:4349 分
登录次数:365 次
注册时间:2006/7/20
最后登录:2012/3/10
hhflxx 发表于:2006/11/25 21:30:00   | 只看该作者 查看该作者主题 沙发 
科汛在线网校系统

应该能起一定的作用。

我每天必须要做的事情就是开采集,把我的网站和别人的网站同步,碰到采集出错的网站我就会放弃。

但是,有时候有些内容自己很想要的还是会用其它办法去得到的。

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
含笑半步癫 当前离线

55

主题

0

广播

0

粉丝
添加关注
级别:学前班

用户积分:513 分
登录次数:27 次
注册时间:2006/11/9
最后登录:2009/7/28
含笑半步癫 发表于:2006/11/25 21:00:00   | 只看该作者 查看该作者主题 藤椅 
科汛在线商城系统(NET)

支持楼主

BS有些人不劳而获!

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
灌水王 当前离线

1047

主题

0

广播

0

粉丝
添加关注
级别:八年级

用户积分:7282 分
登录次数:389 次
注册时间:2006/6/3
最后登录:2010/11/22
灌水王 发表于:2006/11/25 19:33:00   | 只看该作者 查看该作者主题 板凳 
 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
一生有你 当前离线

10439

主题

0

广播

18

粉丝
添加关注
级别:版主

用户积分:72521 分
登录次数:1969 次
注册时间:2006/7/1
最后登录:2021/8/25
一生有你 发表于:2006/11/25 16:19:00   | 只看该作者 查看该作者主题 报纸 
 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.10938秒 powered by KesionCMS 9.0