《中国知识资源总库》技术方案.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《中国知识资源总库》技术方案.doc

《中国知识资源总库》技术方案 -------------------------------------------------------------------------------- 顾问委员会 编辑委员会 资源建设规划委员会 学术委员会 技术委员会 建设方案 资源建设规划 编辑方案 技术方案 电子期刊一览表 一、概要 《中国知识资源总库》(简称总库)技术方案是根据“《中国知识资源总库》编辑方案”和资源社会共享及各种增值性开发利用的要求编写的,主要包括资源数字化加工、资源存储管理与调度、知识获取与处理、资源检索与发布、资源共享以及资源综合应用开发平台等几部分内容。 二、设计原则 先进性:系统在体系结构、功能、性能等方面要具有业界先进水平,反映相关技术领域的当前发展水平,同时要具有前瞻性,为后续开发打下良好的基础。 开放性:在知识资源描述、存储管理、资源调度、资源服务等方面尽可能采用相关的国际标准,系统设计应具有较优的开放能力与良好的互操作能力。 敏捷性:系统可以方便地剪裁与扩展,满足系统需长期持续发展的要求。 高效益:初期技术方案充分考虑到实施的成本与技术可行性的协调。 安全性:系统应充分重视数据安全性要求。 自主知识产权:立足自主,形成自有知识产权的系统,但不排除采用国际先进技术。 三、技术目标 构建《中国知识资源总库》的软件建设管理平台,开发中文知识资源智能应用平台,初步实现中文知识资源服务网络(网格),提供海量数据下(1000T)支持超大负载(1M)的知识资源服务系统。 鉴于《总库》系统的资源几乎涵盖了所有知识领域,而且数据量巨大,故通过《总库》系统的开发,必将推动国内大规模文本挖掘、知识获取、知识表示、知识库应用、自然语言处理、机器学习等相关领域的研究,加速知识工程的应用开发。 四、系统结构 《中国知识资源总库》系统共包括6大系统19个子系统,6大系统为:资源数字化加工、资源存储管理与调度、知识获取与处理、资源检索与发布、资源共享以及资源综合应用开发平台。19个子系统为:纸介质资源数字化、电子文档转换、资源存储、资源调度、文本挖掘、数值挖掘、Web挖掘、超大规模概念关系词典、常识知识库、智能检索Agent、智能信息检索、数字版权管理、电子商务、协同工作平台、个性化知识服务、网络教学、智能问答、知识资源分析与评估、科技查新。 《中国知识资源总库》系统建筑于IP网络之上,其存储核心是基于IP的资源存储网格,资源存储网格系统等同于网格数据库系统,《总库》中的资源对象全部存放在资源网格中。 知识资源藉由知识元数据库、表征连接、超类、大规模概念关系词典形成一潜在的知识网络系统。该知识网络系统为各种知识挖掘抽取方法提供了良好的研究基础,同时也使系统提供全面、细致的个性化知识服务成为可能。 此外,整个知识挖掘与服务体系也是建立于网格之上。 以上三种网格即资源网格、知识网格、知识挖掘与服务网格,构成《中国知识资源总库》系统的基本框架。网格体系使《中国知识资源总库》系统的安全性、性能、扩充能力、效率、经济性等都有了可靠的保障。 五、资源数字化加工系统 1.纸介质资源数字化 藉由OCR技术开发针对特定领域纸介质文献资源的自动与半自动数字化方案,开发数字加工流水线。目标是大幅度提高内容数字化的自动化程度,降低资源数字化成本,提高数字化资源质量,尤其是可以利用版面分析技术,自动获取内容的结构化或半结构化信息。 2.电子文档处理 处理多种不同格式的电子文档(PDF, PS, WORD, HTML, XML, …), 从电子文档中抽取文本信息,自动或半自动抽取文档的结构化描述,提供文档格式转换、显示、打印、加密、水印等功能。 六、资源存储管理与调度 1.资源存储 资源存储网格是《总库》存储系统的核心。在存储网格的数据是以面向对象的方式存储的。在网格系统中,对象数据通过系统的冗余管理,达到数据安全备份与错误恢复。 2.资源调度 网格系统分层结构:存在核心网格结点与非核心网格结点。核心网格结点不止一个,核心网格结点之间是对等的。一个核心网格结点周围有一些非核心网格结点。非核心网格结点可以隶属于几个核心网格结点。通过网格中的任何一个节点都可以访问到数据对象。通过在系统实施访问量审计,可以对访问量实现负载均衡; 同时也可以实现访问路径优化。 七、知识表示获取与处理 1.知识表示 研究各种知识表示方法。主要研究两种表示:一种面向知识资源的表示方法,他要比传统文献资源描述要深,却比常识类知识库的精确表示要相对简单。主要面向当前知识资源的查询、检索等服务。另一种面向常识类知识库建设的知识表示方法,为建设大规模常识数据库打下基础。 2.文本挖掘 主要包括文本分类、文本聚类、摘要、主题标引、

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档