|
主题:[中级教程]----采集文章列表 [收藏主题] | 转到: |
大家好!今天我们来举个例子,采集对象是中国站长站--Asp编程栏目的所有文章(附网址:http://www.chinaz.com/Program/Asp/index_1.html-http://www.chinaz.com/Program/Asp/index_7.html)。 首先我们先观察一下要采集的对象,如下图: 接下来登录科汛系统后台,文章系统下,点击“文章采集管理”,进入新建采集项目,如下图: 进入“新建项目”,填写参数如下图: 点击“下一步”继续。 查看采集对象源代码。 列表索引页面:即列表的第一页网址; 列表开始标记:找到列表的第一条标题,找到惟一,如下图: 列表结束标签:找到列表的最后,例“共6页/157条记录 首页 1 [2] [3] [4] [5] [6] 下一页 末页”,找到惟一,如下图: 最终设置参数如下图: 列表索引分页,不作设置即采集列表当前页;如果有多页则用批量生成,这边我们观察一下总共有6页,所以选择“批量生成”,带仔细观察它的特点,列表第一页为:http://www.chinaz.com/Program/Asp/index_1.html列表最后一页为:http://www.chinaz.com/Program/Asp/index_6.html 都是http://www.chinaz.com/Program/Asp/index_*.html,所以我们设置为:http://www.chinaz.com/Program/Asp/index_{$ID}.html 生成范围为2-6,因为第一页已经设置了。 点击“下一步”继续,查找链接开始标记,找到惟一标记,如下图: 点击“下一步”即截取新闻标题标记,我们先随便打开一篇文章,查看源文件,找到标题,如下图: 新闻正文标记即新闻开始与结束的标记,注意找到惟一标记,最终设置如下图: 这边可以对时间,作者,来源,关键字词,正文分页进行设置。 点击“下一步”继续,如下图: 点击“下一步”,在这里我们可以对采集的文章绑定模板,设置文章属性,标签过滤,是否自动转换为图片文章,是否立即写入数据库等,如下图: 点击“完成”,系统提示项目设置完成,如下图: 点击“确定”,回到采集管理首页,如下图: 点击“采集”进入采集阶段,如下图: 采集完成,系统会报告成功采集条数,失败条数及图片的数量,如下图: 我们还可以点击“历史记录”查看采集的结果(成功/失败),如下图: 好了,列表采集我们就介绍到这边。。。。^_^ |
|
支持(0) | 反对(0) 顶端 底部 |
<上一主题 | 下一主题 > |