6.2.CKI智能信息处理系统.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6.2.CKI智能信息处理系统

图书馆定向自建数据库 ——CKI网络信息定向建设系统解决方案 广州阔拓信息科技有限公司 产品背景 目前,各图书馆都在建设具有本地特色的数据库,在信息爆炸的今天,仅仅依靠传统的数字化加工已经跟不上知识的更新速度,因此从更为广阔和迅速的环境中获取信息就成为了建设的必然。 互联网上丰富的即时更新信息资源很好的满足了图书馆建设特色数据库的要求。但是如果仅仅依靠馆员人工获取,要想全面获得所需要的信息是不可能完成的任务。在没有优秀的信息处理系统的帮助下,互联网信息的采集、归类、入库和检索利用无法达到使用的要求,图书馆只能看着丰富的信息而望洋兴叹。 为解决搜索引擎服务,如百度、Google等,无法针对性提供信息内容,不能穿透需要注册登录的网站,我们开发出基于网络信息采集、整理、检索利用的图书馆定向信息建设系统方案,满足各个图书馆从互联网中高效地收集、整合特色资源为读者服务的需求。 搜索引擎搜索引擎是迄今为止最为成功的互联网技术,能够在极短的时间内,根据关键词在全网范围内给出相应的查询结果。但它并不能满足的要求:搜索由于身份验证、验证码、带宽限制、IP限制等反爬虫技术的应用,搜索引擎只能收录开放网站,大量舆情相关网站被排除在外。搜索引擎的更新时间相对较长,一般要超过24小时,特别是一些地方性的网站,有些则干脆就永远都搜不到。因为每个搜索引擎都有盲区。搜索引擎也不能在第一时间得到我所想要的结果,因为不仅是它的内容更新没不够快,而且他也不能提供针对时效性的服务,所以谈不上及时性;?CKI内容管理系统、CKI信息应用平台四部分。 产品作用 该产品在对图书馆的信息建设上有以下几个作用: 为图书馆建立针对本校学科要求的自动数据仓库,提高本地读者服务水平。 大大降低图书馆的网络信息采集难度,减少时间、提高效率,并形成逻辑性的数据整理,提高内容的利用水平。 深度挖掘信息,以全网络为数据比对平台,追寻数据源和影响力,提高内容的准确性和权威性。 产品特点 该产品具有如下几个特点: 科学的全网信息采集——达到信息的精确、全面信息采集,并对信息深度挖掘其价值。 最高效的分类入库——自动去除重复内容,图文自动重排,并自动形成索引,按照用户的分类要求智能入库。 最有效的信息利用——最终用户通过多种分类、关键词检索、关键词关联、影响因素查找、信息简报等方式达到对信息的便捷应用。 系统架构 下面是产品结构图: 下面是系统架构图: 产品功能模块介绍 CKI智能信息采集系统 CKI是运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向图书馆的特色数据库建设解决方案。通过用户所设置的分类和关键词,对网页内容自动采集处理、自动识别、文章去重与相似度分析、敏感词过滤、智能聚类分类、自动生成摘要和关键词、主题检测、专题聚焦,分类自动入库等整套环节,利用网络内容建库的系统工程。 以精确信息采集引擎为核心,按照用户对信息的关注设置,向Internet全网络发出采集要求,使用人工参预和智能信息采集结合的方法完成信息收集任务。抓取最全面的正确信息,自动寻找首发信息源、自动去重、自动获取信息在全网络下的影响因子。 默认设置数千个影响程度大、传播面广、参与度高的专业网站 、论坛、博客,实时抓取信息,从广度和深度两层面实现信息采集;同步检索各大搜索引擎,如baidu、Google、搜狗等。实现“访问穿透”。对于需要注册、登录的网站、博客、论坛,通过对特定的url的描述,实现自动进入。规避身份验证、验证码技术,抓取的频率限制、代理限制、地址过滤等反搜索引擎技术的限制,实现对尽可能多的互联网信息的自动访问和下载;对于网络上的信息的动态变化采用机器学习技术,采用不同的策略,根据网站结构,指定探测和下载策略。可定向的分钟级网页抓取;利用有限的带宽、计算资源和存储资源,对目标范围内的信息,实现高效的抓取。 CKI内容管理系统对采集回来的信息进行查错、展示管理 ,并统计信息使用情况。 内容管理 部分采集回来的信息,有可能因为关键字的错误识别,或者被植入关键字造成错误采集或者归类错误,采集信息中有可能插入广告,所以需要对内容进行管理。 信息审核 在前面设置了需要审核信息的条件下,对采集回来的信息进行审核,审核通过的信息才会在前台呈现供读者使用。 信息再加工 对采集回来的信息可以再加工,去除信息中的垃圾和广告内容,可以对版式进行调整,可以把分类不正确的信息进行重新归类等等操作。 信息入库 采集的信息具有影响因子指标,以全网转载数为衡量,对于影响因子高的信息,系统会自动将其归入重要信息库,同时管理员手动两种方式自动入信息库。 统计管理 信息量统计 系统统计各个分类下的信息量。 引用量统计 系统统计信息按照时间段的引用情况,从而使图书馆判断信息建设的侧重。 CKI信息应用平台

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档