- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能搜索引擎关键技术及应用研究
第59卷 第5期 2015年3月
智能搜索引擎关键技术及应用研究
1 2 1 1
■ 刘耀 郑德举 潘希阳 黄毅
1 2
中国科学技术信息研究所 北京 100038 北京大学语言信息工程系 北京 100871
摘要:[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说
重点在于自动语义标注。技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理
的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业
提供精准的知识服务。[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将
语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文
本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关
文本的语义内容的自动标注。[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景。同
时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎
的构建提供有益的参考。
关键词:语义标注 自然语言处理 文本内容理解 搜索引擎
分类号:G203
DOI:10.13266/j.issn.0252-3116.2015.05.018
[3-4]
1 引言 片段语义信息 。
为了达到对数字资源进行内容层面理解的目的,
技术创新服务平台的建设需要智能搜索引擎技 需要利用自然语言处理技术对文本片段语料进行深入
术,虽然现阶段在互联网领域搜索引擎众多,但都是大 加工,实施对数字资源的内容语义化,从而支持智能搜
而全,不是小而精,适用虽然广泛,但针对性不强,很难 索引擎服务。数字资源的内容语义化依赖于组织语义
提供个性化的、精准的搜索结果。技术创新服务平台 化,即实际上利用自然语言处理相关技术将数字资源
上对搜索引擎的要求,与大众的搜索引擎的需求还是 标注成语义标签的形式,达到对资源进行内容语义化
不同的,处理的对象主要是专业领域的文本,重点在于 的目的[5-7]。
解决自动语义标注的问题。面对数字资源的有效组
织,笔者提出面向知识密集型片段的文本特征获取和 2 问题定义
面向网络的文本内容获取总体框架和技术,以有效地 语义标注是对一组文档资源进行组织语义化的过
从结构化的领域专业文本和网络中的非结构化文本中 程,是利用一个语义概念资源对数字资源上的文本片
提取出所需要的知识片段[1-2]。但是,虽然通过文献 段进行标引,根据概念实体出现频次、位置和关系等因
[1-2]中所介绍的技术方法提取出的文本片段能够 素抽取一组语义概念集合用以表现该文本片段的内容
反映文本知识的领域特征(面向知识密集型文本的特 语义。语义标注的性能主要依赖于概念知识库知识是
征获取)和反映最新的描述专业领域知识的情况(面 否完备和标注算法的性能是否优良。
向网络的文本内容获取技术),对知识的描述粒度却过 问题定义:依据一组语义概念资源,S=
{P Q;P 语义概念集合,Q 语义概念之间的关系}
于粗糙,没有对领域文本的内容进行精细的加工处理, → ∈ ∈
,对文本片段 T= D,D,D,…,D 进行语义标注,
对于知识内
文档评论(0)