中关互联网信息采集系统
所有应用软件

中关互联网信息采集系统具有灵活性和准确性,使用方法简单、方便,适用于任何行业、任何部门,具有非常好的适应用户实际情况的信息采集和处理能力,特别适合注重外部信息获取的行业使用,例如门户网站可以每天自动采集指定网站的最新内容,大大节约了工作人员的精力,轻松实现行业信息的整合;新闻媒体可以通过使用信息采集系统扩充新闻的来源于数量,迅速提高本网站的信息量和浏览量;企业可以准确的采集到国内外新闻、技术文章,节约内部工作人员到各网站查阅新闻的时间;政府机关与军队可以实时跟踪采集与政府相关的国内外新闻,迅速解决政府内网的信息量不足的问题。

1典型需求

随着信息技术的发展,越来越多的公司、企业及单位都建立了自己的门户网站来展示自己的公司风采、产品及新闻。而现在大多数网站都需要大量的新闻信息来支撑页面,若是人工在后台上传则需要大量的时间,若是能通过设置使信息能从别的网站上自动采集并在自己的网站上发布,就大大节省了工作时间。信息采集系统根据这个需求应运而生,通过简单的设置规则就可以让它在最短的时间内,帮您把最新的信息从不同的Internet站点上采集下来,并在进行分类和统一格式后,第一时间把信息及时发布到自己的站点上去,从而大大节约了工作人员采集因特网信息的时间与精力,让他们有更多时间专注于业务问题并且提高了信息的及时性。

中关互联网信息采集系统具有灵活性和准确性,使用方法简单、方便,适用于任何行业、任何部门,具有非常好的适应用户实际情况的信息采集和处理能力,特别适合注重外部信息获取的行业使用,例如门户网站可以每天自动采集指定网站的最新内容,大大节约了工作人员的精力,轻松实现行业信息的整合;新闻媒体可以通过使用信息采集系统扩充新闻的来源于数量,迅速提高本网站的信息量和浏览量;企业可以准确的采集到国内外新闻、技术文章,节约内部工作人员到各网站查阅新闻的时间;政府机关与军队可以实时跟踪采集与政府相关的国内外新闻,迅速解决政府内网的信息量不足的问题。

2技术架构

中关互联网信息采集系统包括5个功能模块,分别是:基本信息设置、网络设置、文章采集管理、文章采集管理和已采集信息管理。系统的功能结构如图:

3产品功能

(一)基本信息设置

采集速度设置:设置两条记录之间等待的时间,输入19999之间的整数

服务器安装目录:填写信息采集系统在服务器上的部署目录,以pmi结尾

采集附件下载目录:设置采集文件下载地址,初始化信息不用修改;

文章图片下载目录:设置采集的信息中图片的存放位置,初始化信息不用修改;

允许下载的文件类型:设置采集信息时允许下载的图片的文件类型,例如doczip等类型

允许下载的文件大小:设置采集信息时允许下载的文件大小,单位为KB

(二)网络设置

完成采集服务器访问外网是否需要代理的设置。

(三)文章采集规则设置

设置文章正文页的采集规则,实现对文章标题和内容的采集,并通过设置过滤掉文章中不想采集的信息,例如广告等,对于有分页的文章可通过设置采集分页中的新闻内容,将信息合并,文章的作者、来源和关键字部分可根据用户需求实现不显示、通过采集获得或通过用户自定义获得。

(四)文章采集管理

对已经定义采集规则的采集项目进行管理。管理内容包括:

  人工采集管理

  自动采集管理

  管理采集结果

  采集情况统计

(五)已采历史信息管理

对已采集的信息根据不同查询条件进行查看,对历史记录进行单个删除或批量删除,并可以查看采集信息的源地址链接内容。

考核与评价管理子系统功能模块包括:

  已采信息查询

  查阅已采信息源文件

  删除已采信息

(六)已采信息发布管理

中关互联网信息采集系统采集的的信息可以通过接口直接推送到中关通用资源管理平台的CenCMS产品的信息库,由中关通用资源管理平台的信息管理员进行编辑发布管理。

4产品特点

1.  采集方法的灵活性,支持人工和自动两种处理方式;

2.  对目标网站进行信息自动抓取,支持HTML网页内各种数据的采集,如文本信息、URL、数字、日期、图片等;

3.  智能采集,支持每天自动比对目标网站信息更新情况,只对更新内容作增量采集;

4.  支持智能替换功能,可以将被采集内容中嵌入的所有无关部分如广告自动剔除除;

5.  支持多页面文章内容自动抽取与合并;

6.  支持记录唯一索引,避免相同信息重复入库;

7.  用户可根据自己的需求自定义来源和作者;

8.  支持各种主流数据库,如MySQL、sql sever、Oracle、DB2等

9.  本系统与公司产品相结合使用,信息采集成功后,可自动发布到CenCMS指定目录中,也可以由信息管理员进入系统中对信息进行编辑后指定发布目录再发布。