- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
互联网信息采集系统用户手册
用户手册[V5.0]
\l “_TOC_250010“ 第一章:系统介绍 3
\l “_TOC_250009“ 软件简介 3
\l “_TOC_250008“ 互联网信息采集与挖掘 3
\l “_TOC_250007“ 互联网采集系统流程图 3
\l “_TOC_250006“ 系统应用领域: 4
\l “_TOC_250005“ 软件特点 4
系统配置要求 13
系统性能 13
\l “_TOC_250004“ 其次章:使用手册 14
\l “_TOC_250003“ 综合设置 14
数据库治理 14
表单治理 14
频道治理 18
模板治理 19
信息采集 19
站点差不多属性 19
提交访问数据 20
站点链接预览 21
采集过滤 22
分页模板 22
附件采集设置 23
闻自动识别 23
字段提取设置 24
字段采后处理 25
\l “_TOC_250002“ 站点治理 25
采集站点治理 25
扫描采集源 26
采集日志 26
\l “_TOC_250001“ 信息治理 26
信息治理 26
附件治理 27
记录导入 27
信息导出 28
\l “_TOC_250000“ 信息公布 28
登录公布效劳器 28
猎取公布权限的信息 29
建公布表单公布映射 29
公布表单映射治理 29
公布频道映射治理 30
第一章:系统介绍
软件简介
信息采集是指利用运算机软件技术,针对定制的目标数据源,实时进展信息采集、抽取、挖掘、处理,从而为各种信息效劳系统供给数据输入的整个过程。
《军犬信息采集专家》是一款基于人工智能的自动学习技术,功能强大、简洁有用的互联网信息采集与监控软件。
互联网信息采集与挖掘
要求从互联网上对特定目标数据源或不特定目标数据源进展采集与监控,并对信息进展构造化抽取储存为本地构造化数据库,然后按业务流程需求与其它模块结合,导入与应用并效劳于到电子行业平台。
互联网数据采集与挖掘技术是指利用运算机软件技术,针对定制的目标数据源,实时进 行信息采集、抽取、挖掘、处理,从而为各种信息效劳系统供给数据输入,并按业务所需, 进展数据公布、分析的整个过程。
互联网采集系统流程图
第一步:确定采集任务。
其次步:每个采集任务,我们有多个目标数据源可供采集。
第三步:针对不同的目标数据源,进展不同的采集配置,以确保能采集到数据。第四步:调度采集任务,与目标站点同步更,增量采集。
第五步:采集到数据结果,完成数据异构到同构的过程。第六步:通过公布效劳器,将数据公布到应用平台。
系统应用领域:
1、搜寻引擎与垂直搜寻
2、综合门户与行业门户
3、电子政务与电子商务
4、学问治理与学问共享
5、企业竞争情报系统
6、BI 商业智能系统
7、信息询问与信息增值
8、信息安全和信息监控
软件特点
、过滤干净,智能化抽取正文,且图文关联
图:采集的目标源
图:采集后“干净”的正文结果
、数据导出接口丰富,能够将数据导出成各种主流关系型数据构造。
、配置简洁
关于闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自动学习网站的风格,并自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件
自动学习。
关于数据采集软件供给了通俗易明白的站点配置向导,疼惜人员稍加培训即可配置出任何的信息采集。
关于简单的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。
图:输入“网址”,完成配置工作
图:支持关键字采集,直截了当输入关键字,一步设置输入“关键字”,完成配置工作
、所采即所得,所采即可见
、增量采集与自动更
图:所采即所得,所采即可见
增加采集:关于初次采集目标网站,软件支持完全采集;而关于已采集过的站点支持增量采集。
支持自动更:自动检测站点是否发生更,并可不能遗漏任何一个重要的信息。
、采集结果自动排重
不是利用简洁的规章判定,而是利用内容的相像性进展排重判定,准确性高,可不能由于标题或内容的少许变化而产生漏判,即使把标题进展了改头换面,系统也会正确判定。
、内置强大的信息监控
能够通过一个关键字广域监控互联网上任何一个站点上的相关信息。也能够通过设置监控频道监控任何站点所采集到含有关键字的信息。关于数值字段能够设置监控误差监控数值显现在肯定范畴内的信息。信息监控到达字段级。您能够对任何一个采集目标网站设置监控属性,监控周期到达了秒级。关于发生变化的信息能够在短时刻内采集到本地。
图:独有的监控功能,可能对采集后的结果进展进一步监控与过滤强大的站点治理工具能够对全部采集对象进展集中治理和各种操作
图:对全部采集对象进展集中治理和各种操作
图:为所欲为自定义导航与分类
图:综全的选项配置,提升采集的性能
、支持多种编码
图:对采
文档评论(0)