如果你使用本采集系统,请记下以下顺序;
1、添加站点;
2、在所属的站点添加频道;
3、在所属的频道添加采集规则;
a、编辑采集链接的规则;
b、编辑采集内容的规则;
4、采集测试,包括测试链接和测试内容;
5、采集链接;
6、采集内容;
7、采集图片或者flash或者自定义标签的附件;
8、直接导入数据库或者直接模拟提交到其他网站;
详细步骤:
一、登陆:
这个不说了,如果这个都不会表明这采集器不适合你了。
二、添加站点及频道:
1、点击站点管理,在站点管理里面增加一个站点及一个频道(此软件可设定无数个站点,每个站点下面可设定无数个频道);
这里以CSDN的BOOK为例子做采集演示!把站点名称起名为【CSDN站】,频道为【CSDN BOOK频道】;
2、链接到站点列表,可看到CSDN站;
3、进入CSDN站,可看到CSDN BOOK频道,到这一步说明你已经建好一个站点和建好一个站点下面的频道了。
三、设置频道的规则:
这个是本软件使用的核心。规则包括2大部分规则:采集规则和导库规则,采集规则是从网站或者论坛上把信息采集下来放到本地的数据库,导库规则是把采集下来的信息发布到网站上;
1、点击频道里面的设置管理进入频道相关设置
2、点击采集规则进入采集的规则页面;
采集规则包括链接规则和内容规则,这个例子的目的就是把CSDN的某本书下载下来,演示里面下载《PHP与Dreamweaver基础教程 》这本书
a、采集链接:
例子里采集链接就是要把里面每节的目录下载下来。
先在浏览器里面输入
http://book.csdn.net/bookfiles/664/,这是《PHP与Dreamweaver基础教程 》这本书的目录页面。
打开网页源码,下载的目录都是类似
复制内容到剪贴板
代码:
<li><a title='2.1 Dreamweaver 8的新特性概览' href="/bookfiles/664/10066420934.shtml" target="_blank">2.1 Dreamweaver 8的新特性概览</a> </li>;
所以在链接规则里面的顶级链接输入
http://book.csdn.net/bookfiles/664/
下级链接规则是
复制内容到剪贴板
代码:
<li><a title='[variable]' href="[link]" target="_blank">[title]</a> </li>请注意,上面的"2.1 Dreamweaver 8的新特性概览"被[variable],"/bookfiles/664/10066420934.shtml“被[link],"2.1 Dreamweaver 8的新特性概览"被[title]所替换,由于这个目录没图片,这里不演示图片功能,完成的目录下载可看下图。
现在可测试一下目录是否下载成功,先保存上面的设置,点击频道列表里面的采集测试,可以看到测试采集到的目录列表情况。
b、采集内容:
例子里采集内容就是把节的文章标题、内容、图片、Flash、附件、作者、时间、评论、其它信息采集下来。
先打开其中某一节的文章:这里选“2.1 Dreamweaver 8的新特性概览 ”做例子。
http://book.csdn.net/bookfiles/664/10066420934.shtml
打开源码;
标题:找到有标题的地方:
复制内容到剪贴板
代码:
<div style="text-align: center; font-size: 15px">
<a href="http://book.csdn.net/bookfiles/664/10066420934.shtml">
2.1 Dreamweaver 8的新特性概览
</a>
</div>对变量和标题做一下替换,则标题规则为,
复制内容到剪贴板
代码:
<div style="text-align: center; font-size: 15px">
<a href="[variable]">
[title]
</a>
</div>内容:找到有内容的地方:发现内容是在<!-- main -->和<!-- page -->之间,则内容规则是
复制内容到剪贴板
代码:
<!-- main -->
[content]<!-- page -->对于标签可选择保留全部标签,也可以保留部分标签!
完成之后请做一下测试。
这里提供规则导入文件:
这是采集的基础教程,还有关于采集分页,内容过滤,写入内容,自定义标签及规则请参考高级教程!
发布信息的规则请参考:
discuz6.0模拟提交规则,拿了个比较难提交的做测试了:http://www.todown.com.cn/thread-169-1-1.html
drupal5.7模拟导库规则,这个也是难导,就拿这个做测试了,http://www.todown.com.cn/thread-181-1-1.html