非结构化信息处理平台.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非结构化信息处理平台.doc

非结构化信息处理平台 IDOL Server licensed for the following operations AQG Categorisation Channels Hyperlinking Retrieval - Advanced Retrieval – Parametric Retrieval – Lite Retrieval - Standard Summarisation Profiling Clustering - Basic Clustering - 2D Clustering - 3D Connectors for use with IDOL server: FileSystem ODBC/ORACLE HTTP 技术要求: 1. 统一搜索 构建一个统一非结构化数据处理平台,需要一个全面的、能够帮助他从各种可能的信息源进行搜索的工具,单独一个搜索引擎很难满足使用者的要求,具体要求如下: 支持关键字、词,基于语义的概念搜索; 实现跨系统、跨平台、跨协议接口搜索各种异构的信息数据源; 实现各种格式的文档进行全文搜索 ; 提供针对性的、面向企业的搜索相关性解决方案和持续优化的搜索结果; 2.搜索数据源 本搜索引擎可以搜索以下数据源: 文件服务器 各种关系型数据库 内外网网站 外部购买数据库 Office 文档,PDF,HTML,txt, Zip,rar,CHM,CAD,Adobe XMP,DWF、Voice、Video等。 4.搜索结果展现 根据企业的搜索要求和知识管理要求,实现搜索界面、功能、结果的个性化定制。 搜索排行:自动将企业内部搜索次数最多的关键词列出来。这样对新员工来说由此可以看出企业主要的方向。 结果排序:支持搜索结果按照相关度进行排序。 支持对搜索结果进行自动聚类导航。 相关信息展现:根据搜索关键字不同展现不同的信息。 5.超级链接. 针对多种信息格式,自动分析内容概念,并在其中自动创建链接。当用户查看具体每篇文档信息时,在原文下方会显示与上述文档内容相关的其他文档信息: 通过超级链接,用户可以方便的将当前的文档关联到其他的系统信息,扩大了内容研究范围,提高了工作效率。 6. 知识分类. 能够提供一个科学的文件分类存储组织机制,让各种信息分门别类保存起来。根据内容存储结构来构造一个知识树,用户可以根据知识树来定位知识内容。系统可以根据不同的用户的喜好构建多个知识树,由用户自己选择使用的树结构来满足自己的要求。 不仅支持单一的知识分类目录树管理,同时支持根据企业知识管理需要的多维度和动态知识管理和分类要求。 能自动对信息进行分类,而且不需要任何手工维护。分类功能的灵活性可以精确地根据非结构化文本中的概念进行分类。它保证根据内容对所有的数据进行最准确的分类。建立分类时,根据提供的样例文件进行自学习,以形成某类信息的概念。分类维护调整时,无需删除现有的分类,可以动态的对已有的分类进行修改、调整。 从时间的维度分析热点主题的变化趋势,了解最新的市场和技术热点及变化趋势,保持领先。 非结构化信息处理平台技术需求 1性能要求 能够满足海量数据的处理要求,至少具备支持200万数据量的能力; 能够支持大量用户并发访问的要求,系统建设初期支持————用户左右,今后会扩展到————万用户。 系统应支持7x24小时的不间断工作,支持多用户的并发访问。在用户和信息不断增长的情况下,系统应该提供稳定的服务。 支持分布式架构,满足今后————的应用系统、数据量及用户的不断增加的需求,以及系统后期向下属分公司扩展和本平台与规划中的知识管理、协同办公等系统的整合需求; 2系统接口 应当充分考虑与现有的和新建的各业务系统的连接。系统的接口设计应该具有很强的扩充能力和很高的效率。涉及到的系统接口至少包括以下几个方面: 数据源接口 提供丰富的数据源接口,包括网页、文件系统、各种数据库如ODBC、Oracle、DB2等,在满足目前系统需求的同时,保证了系统未来的扩展性。 3. 基本架构 系统应采用符合业界标准的开发规范和多层技术架构设计,并支持各种主流服务器、操作系统和数据库。此外,为了实现对不同业务模式的灵活支持,系统应同时支持集中式与分布式的部署方案。前台界面显示使用模板方便更新维护,后台接口基于模块化组建结构设计以及面向对象的设计方法,使系统具有较强的灵活性和扩展性,必须采用通用开发平台进行开发,模块之间通过输入参数和输出参数进行耦合。 3.1 开放性与集成能力 系统应采用符合业界标准的开放的集成架构以实现与集团总部和产业集团、各成员企业各个系统的集成。系统还应提供标准接口说明以备集团现有系统的集成。此外,系统还需提供数据转换工具以确保公司现有数据的延续性。 3.2 可使用性与可管理性 系

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档