账号通
    

账号  

密码  

17338

查看

16

回复
主题:[中级教程]----采集文章列表 [收藏主题] 转到:  
任我行 当前离线

6496

主题

191

广播

251

粉丝
添加关注
级别:管理员

用户积分:46050 分
登录次数:4182 次
注册时间:2006/4/26
最后登录:2024/11/21
任我行 发表于:2008/1/13 12:19:00   | 显示全部帖子 查看该作者主题 楼主 
科汛在线商城系统(NET)

大家好!今天我们来举个例子,采集对象是中国站长站--Asp编程栏目的所有文章(附网址:http://www.chinaz.com/Program/Asp/index_1.html-http://www.chinaz.com/Program/Asp/index_7.html)。

首先我们先观察一下要采集的对象,如下图:

接下来登录科汛系统后台,文章系统下,点击“文章采集管理”,进入新建采集项目,如下图:

进入“新建项目”,填写参数如下图:

点击“下一步”继续。

查看采集对象源代码。

列表索引页面:即列表的第一页网址;

列表开始标记:找到列表的第一条标题,找到惟一,如下图:

列表结束标签:找到列表的最后,例“共6页/157条记录 首页 1 [2] [3] [4] [5] [6] 下一页 末页”,找到惟一,如下图:

最终设置参数如下图:

列表索引分页,不作设置即采集列表当前页;如果有多页则用批量生成,这边我们观察一下总共有6页,所以选择“批量生成”,带仔细观察它的特点,列表第一页为:http://www.chinaz.com/Program/Asp/index_1.html列表最后一页为:http://www.chinaz.com/Program/Asp/index_6.html

都是http://www.chinaz.com/Program/Asp/index_*.html,所以我们设置为:http://www.chinaz.com/Program/Asp/index_{$ID}.html

生成范围为2-6,因为第一页已经设置了。

点击“下一步”继续,查找链接开始标记,找到惟一标记,如下图:

点击“下一步”即截取新闻标题标记,我们先随便打开一篇文章,查看源文件,找到标题,如下图:

新闻正文标记即新闻开始与结束的标记,注意找到惟一标记,最终设置如下图:

这边可以对时间,作者,来源,关键字词,正文分页进行设置。

点击“下一步”继续,如下图:

点击“下一步”,在这里我们可以对采集的文章绑定模板,设置文章属性,标签过滤,是否自动转换为图片文章,是否立即写入数据库等,如下图:

点击“完成”,系统提示项目设置完成,如下图:

点击“确定”,回到采集管理首页,如下图:

点击“采集”进入采集阶段,如下图:

采集完成,系统会报告成功采集条数,失败条数及图片的数量,如下图:

我们还可以点击“历史记录”查看采集的结果(成功/失败),如下图:

好了,列表采集我们就介绍到这边。。。。^_^

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.04688秒 powered by KesionCMS 9.0