采集 version

采集模块是可以批量采集目标网站内容入库

  • 下载安装
  • 采集流程
    1. ★ 添加采集点,填写采集规则

      ★ 采集网址,采集内容
      ★ 发布内容到指定栏目

1、下载安装

从ZTBCMS 模块->模块->模块仓库 中找到采集模块,点击下载。

图片

下载完成后,解压出来,并命名为“Collection”,然后将它copy至项目目录中。

图片

图片

接着在后台本地模块中进行安装。

图片

2、采集流程

位置:内容>内容管理>采集管理

图片

采集流程有三个步骤:

  • (1)添加采集点,填写采集规则
  • (2)采集网址,采集内容
  • (3)发布内容到指定栏目

实例说明:

目标:采集新浪新闻

(1)添加采集点
a、网址规则配置

点击系统上“添加采集点”,可以看到在网址规则上的页面中总共有基本信息和网址采集这两个大项的信息需要填写,在网址采集中的网址类型总共有四种:序列网址、多个网址、单一网页和RSS。以下例子是使用多个网址类型来进行采集。

图片

图片

设置好网址规则之后,测试一下是否正确

图片

b、内容规则配置

内容规则这里看起来比较复杂,其实也很简单,以下为了便于说明,只采集标题、内容两个字段。采集内容网址:从网址规则上获取的网址,打开其中一个网址,然后页面空白处右键->查看网页搜索标题和内容的开始边界。

图片

  • 标题采集配置:

    从网页<h1 class=”main-title”>中获取标题,可以使用规则来去除不必要的字符,如下图:

图片

  • 内容采集配置:

    新浪新闻的最终页,新闻内容都包含在<div class=”article” id=”article”>[内容]<!— 正文 end —>之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图:

图片

图片

过滤选项格式为“要过滤的内容[|]替换值”,要过滤的内容支持正则表达式,每行一条。 同时还支持函数模式,例如:“fun=str_replace|新浪,sina,###”表示对采集的内容执行替换后返回(###表示采集到的内容,多个参数用“,”隔开)。 注:函数可以添加到 Collection 模块目录下的 Funs 文件夹下的 funs.php 文件中。

c、自定义规则

图片

d、高级配置

可设置是否把图片下载到服务器,是否打水印等配置

图片

(2)采集网址、采集内容

采集规则配好以后,即可进行网址的采集,然后进行内容的采集。

图片

采集到的网址:

图片

采集到的内容:

图片

(3)发布内容到指定栏目

图片

图片

选择要导入的栏目

图片

图片

设置采集内容与数据库的字段对应关系提交进行数据入库,在此期间请耐心等待,完成后会自动转向。至此一个简单的采集流程就操作完成。

图片

图片