企业内部文档智能语义搜索方案.docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业内部文档智能语义搜索方案.doc

PAGE \* MERGEFORMAT11 PAGE \* MERGEFORMAT11 企业内部文档智能语义搜索方案 背景和意义 近年来,企业文档管理和检索方式经历了分门别类管理,数字信息化管理和全文搜索引擎三大阶段,使得企业利用文档信息的效率不断提高。但是随着信息化程度的不断提高,尤其是大数据数字浪潮的思维深入发展的背景下,目前信息化企业文档管理以及基于关键词的全文检索技术仍旧存在诸多的短板和问题,影响了企业自身知识利用价值的实际落地应用,目前基于关键词检索的搜索技术存在信息丢失、返回信息太多、信息无关等局限性,主要症结体现在如下方面: 基于关键词的检索,对于绝大部分人来说存在一定的应用门槛,如何选取适当的关键词来找到需要的信息,需要具备一定的搜索技巧和对业务问题的清晰认识。更多的时候,简单的关键词搜索返回的命中信息太多,还是需要人工阅读筛选真正有价值的内容。 普通全文检索缺少真实世界的关联性,联想和类比是人类智慧过程的两种重要方法。在普通全文检索中,用户获得的还是碎片化的信息,最终依然需要进行大量的细致阅读和人工整理过程,从而形成对查询问题的认识。需要更智能的信息化方法,帮助人工建立关联分析体系,提高知识服务效能。 在海量的企业文档信息中,存在大量的隐性信息,这些隐性信息作为信息单元本身可能价值较低,也不好加以利用,或者虽然有价值,但是挖掘代价高,理解难度大。因此长期以来,在企业文档管理中,得到大量应用的都是那些显性信息。如何利用好隐性信息,让企业的知识得到最大化的再利用,产生新的源源不断的价值,是大数据的核心体现。 面向企业文档管理现有信息化方案的不足和需求,本方案拟以自然语言理解与人工智能技术为基础,基于SaCa·DeepConig知识服务平台产品实现文档管理中的智能语义搜索,对搜索结果进行更精确的知识挖掘,建立碎片信息间的分类体系与语义关联,发现利用隐性信息。为企业提供更加有效的知识管理服务系统。 企业文档搜索方案功能特性 2.1 语义搜索 普通基于关键词匹配的全文搜索并不具备语义理解的功能。比如在全文搜索引擎中输入“计算机”为关键词,在返回结果中不会包含只有“电脑”这种表述的文档资料。在实际应用中,存在大量的同义词和近义词。通过DeepCogni的语义扩展算法可以搜索到被搜索词扩展之后的相关内容。例如搜索“java读文件”时,通过语义扩展可以搜索到“java读取文件”、“java读写文件”“java文件读写操作”等内容。 图 SEQ 图 \* ARABIC 1 相关词分析 基于语义的搜索引擎使搜索引擎的工作不再拘泥于用户输入的关键词,而是能够对这些关键词进行语义计算。通过在语义的层面上把文档中关键词和其映射的概念进行关联,对文档信息所蕴含的语义信息进行充分挖掘,同时把用户的检索要求转换成相应的语义表示。 借助语义搜索功能,企业人员在检索文档文件时,不再会精挑细选关键词组合,只需要准确表达自己的含义,相关的信息词汇,系统进行智能扩充,查询所有符合用户语义期待的命中结果。 图 SEQ 图 \* ARABIC 2 基于内容的搜索关键词扩展和智能提示 2.2 关联发现 通过对文档资料进行语义标注,形成语义相似度聚类特征、业务概念和业务事件三类对文档的语义标注,以语义标注为线索,可以组织文档间的多种关联关系。在用户检索查阅文档文件时,提供语义相关,概念相关和事件相关的文档检索相关列表,供用户比对查阅,帮助用户形成网络化的综合分析环境,协助对隐性知识的发现和整理,有助于形成新的发现。 图 SEQ 图 \* ARABIC 3 文件的复杂关联 如某业务员在查阅本部门之前的项目文档,进行经验总结,检索系统通过事件关联,发现与项目事件互有影响的其他项目文档;通过概念关联,发现与本项目共享资源的其他技术文档;通过语义相似性分类标签,发现其他部门实施的类似项目。从而帮助业务员更加全面的获取了相关的经验知识,有助于从归档知识中产生新的价值。 2.3 智能推荐 文档语义搜索引擎,通过用户搜索记录和业务资料的语义特征,计算用户行为画像,形成用户的兴趣图谱,将用户关心的分类、概念和事件关联的文档相关度提升,使得用户更容易获得自己感兴趣的文档检索内容。用户使用文档智能搜索的频次越多,历史越丰富,系统能够越好的理解用户的查询意图,熟悉用户的使用习惯。从而非用户提供更加准确的检索服务。 2.4 自然语言交互 图 SEQ 图 \* ARABIC 4 自然语言交互取代高级搜索 用户检索文档不仅仅可以通过关键词或分类进行检索,也可以通过普通的自然对话形式进行文档检索,语义引擎根据用户输入内容,通过语义计算,给出匹配度最高的知识答案,和文档资料搜索结果。实现更高效的知识管理服务结果。自然语言查询使得检索和搜索更加人性化,信息查询变得更加方

文档评论(0)

kanghao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档