TBSCIS操作端-北京金信桥信息技术有限公司.PPT

TBSCIS操作端-北京金信桥信息技术有限公司.PPT

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
TBSCIS操作端-北京金信桥信息技术有限公司

TBSCIS网络资源采编软件 北京金信桥信息技术有限公司 2010年05月27日 TBSCIS软件简介 TBSCIS网络资源采编软件集成了网页搜索、内容智能提取与过滤、自动分类聚类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量存储的自动化与一体化,还提供了人工对信息的编辑审核功能,从而可以对网络信息进行深度挖掘,轻松获取网络资源。 TBSCIS系统架构 TBSCIS功能架构 TBSCIS软、硬件部署 TBSCIS工作流程 TBSCIS信息加工流程 TBSCIS管理端功能 搜索引擎管理 对基本搜索引擎进行管理,便于操作端通过搜索引擎进行资源定位; 流水线管理 根据采集类型的不同对多条采集流水线及所包含的工序进行管理。 用户管理 根据工作职能及采集流水线类别,划分员工组别,并给员工按照职能及操作功能配置操作权限。 工件管理 显示采集流水线中各工序中的工件状态,便于管理员掌握各流水线加工进度; 信息定位 通过搜索引擎检索网络资源,定位获取最准确的目标资源; 信息设置 按照资源所在栏目或者关键字分类,对被采集资源配置采集规则,便于下一工序进行资源采集; 信息采集 根据信息设置的配置文件,对网络中各种标准格式,例如HTML页面、文本信息、表格、图片、声音、视频等进行采集,采集后,自动转换为标准的简体码(GB码); TBSCIS操作端功能 信息分类聚类(包含信息去重) 利用基于内容的自动分类技术,对采集的网页进行基于内容的自动分类,按照某种相似度值将一个集合划分成若干个子集,使得子集内部的元素之间有较大的相似度,并基于内容相似度计算的自动去重; 信息编辑 对采集信息编辑和删除,进行二次加工; 信息入库 将信息根据字段,导入到其他格式的数据库,便于用户进行数据发布或做其他处理; TBSCIS操作端功能 TBSCIS系统特点 加工流程方案完全由用户定制 由于采编的信息资源的来源广泛、特点各异以及不同用户的需求不一致,导致了信息资源加工过程的复杂性。但是整个信息资源加工大致可以分为信息搜索、信息定位、信息采集、信息去重、信息分类聚类、信息编辑审核、信息入库、信息发布等工序。通过完善的接口设计和流程分析,系统提供用户任意确定工艺流程操作个数和顺序,实现单机信息资源加工和机群间高效率的协同作业。 高效的信息定位功能 目前Internet上已经存在多个功能强大的搜索引擎,超级检索引擎已经随时将网上产生的新闻等建立了索引,可以直接为我们所用。无须再使用自己的ROBOT到网络上抓取。TBS元搜索引擎直接利用这些超级搜索引擎,可以从多个搜索引擎上获取检索信息,对结果进行合并去重处理,然后将结果返回给用户,方便用户进行资源的查找定位。 先进的信息采编技术 系统给用户提供了功能强大的可视化的采集规则的配置界面,极大的提高了用户进行规则的配置的效率、降低了对操作人员的计算机知识的要求。适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少。能方便地将网页中的信息提取出来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点或栏目进行信息采集。 开放性好,和其他信息服务系统有机集成 被采集到的信息可以根据用户系统环境需要,存储到TBS全文数据库、SQL Server、Oracle等关系数据库中,使得其他信息服务系统可以方便地利用,从而系统和其他系统的有机集成。 TBSCIS系统特点 TBSCIS管理端-系统设置 设置各个服务的地址和端口 设置后,该菜单下其他操作可以使用,从而创建数据库和登录用户 TBSCIS管理端-搜索引擎管理 添加新的搜索引擎 TBSCIS管理端-流水线管理 添加新的流水线 TBSCIS管理端-流水线管理 流水线添加后要为该流水线配置工序 从备选工序列表中选择工序加入到该流水线中 新建用户组 为用户组添加新用户 TBSCIS管理端-用户管理 将备选框中的流水线添加到右侧列表中 TBSCIS管理端-用户管理 将左侧备选项中的工序添加到右侧列表中 为分配的流水线添加工序 TBSCIS管理端-用户管理 选择工件进行编辑 TBSCIS管理端-工件管理 设置训练模型 为模型添加新的分类 添加训练文本 分类训练 TBSCIS管理端-分类训练 添加栏目 为栏目添加任务 TBSCIS操作端-信息定位 节点树 网页区域 当前节点下的文本区域 该条新闻在节点树中解析到的节点 下载新闻节点 TBSCIS操作端-信息设置 获取配置完成的采集任务 T

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档