面向信息检索概念关系自动构建.docVIP

下载本文档

6
0
约5.65千字
约 12页
2018-09-22 发布于福建
举报
版权申诉

面向信息检索概念关系自动构建.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向信息检索概念关系自动构建

面向信息检索概念关系自动构建　　摘要：概念之间的依存分析是提高信息检索性能的关键。相比概念关系的强弱而言，识别关系的类型更有意义．本文在Bootstrapping框架下，以“(地理)领属”，“(实体)功能”和“(动作)对象”三种语义关系类型为例，获得了构建上下文中两个概念特定关系的语义模板，并开发了一个名为SPG的系统。本文的工作：(1)引入了生物信息计算中序列比对的方法两两生成相似上下文的模板；(2)定义了新的模板评价机制估计模板的置信度。就这三种概念关系的识别而言，SPG获得的模板集合相比DIPRE系统获得了更高的正确率和覆盖能力。关键词：计算机应用；中文信息处理；文本检索模型；概念关系构建pbootstrapping 　　中图分类号：TP391　文献标识码：A 　　　　1 引　言　　　　当前的搜索引擎大多使用关键词建立检索模型，寻找相关信息。独立性假设在检索模型中广泛使用。尽管这个假设使得检索模型的设计变得简单，但事实上，语言中词语之间的独立性显然不成立。这促使研究者进一步考虑检索词所代表的概念之间的依存关系。而很多依存检索模型在实际应用中，并不能始终有效的提高检索性能。其中可能存在两个原因：(1)概念之间的关系往往体现为相关性的强弱，而不是给出词所代表概念之间准确的关系类型；(2)相关性的强弱依赖于概念在语料库中的共现信息或在知识源中的某种“距离”，其数值的大小，缺少直观上的解释。很自然地就提出了一种基于明确概念关系的信息检索模型。我们认为，基于概念的信息检索应当通过主要概念的出现以及期望的概念关系的成立来寻找符合用户需求的信息。这不但需要识别词所代表的概念，更需要得到这些概念在当前上下文环境约束下，相互间的语义关系构成的概念图。显然，这种深层次的信息表示，更接近人对文本的真实理解。　　本文的工作在于为概念之间关系类型的自动构建(识别)提供支持，以便进一步服务基于概念的信息检索。以我们预先定义好的概念关系体系中的“(地理)领属”，“(实体)功能”以及“(动作)对象”关系为例，描述了在Bootstrapping学习框架下概念关系自动构建的方法。　　　　2 相关研究工作　　　　从以往的研究来看，五指导的Bootstrapping已被用于信息抽取的很多领域。就识别概念类型而言，如武器名，恐怖组织等，做了有益的工作。另一方面，在抽取满足某种关系的概念对上也做了尝试。这些工作的基本目标在于从语料中生成知识库，为面向用户的知识服务做准备。比如用户问到IBM的总部在哪里时，信息服务系统可以直接回答“ARMONK”。需要说明的是，我们工作的重点不在于获取满足某个关系的概念对有哪些(这是个开放问题)，而在于探索判断具体文本中两个概念之间满足这种关系的依据。研究视角的转变，使得信息抽取技术可以服务于信息检索系统，为将来进一步生成文本中主题完整的概念图提供支持。　　DIRPE(Dual Iterative Pattern Expansion)的提出是为了从HTML文本集中抽取一个结构化的关系R(或是列表)，这种关系R由满足关系定义的二元组来表示。DIPRE提出的理论设想就是模板和关系之间存在对偶性：一个有着很高抽取覆盖率和正确率的模板集合，可以仅仅通过模板的匹配把给定文本中的大部分满足关系及的二元组抽取出来。另一方面，可以通过寻找所有这样的二元组，来发现这些二元组出现时上下文的相似性。把从模板找到二元组和从二元组产生模板这两个过程结合起来就有可能在迭代的方式下不断获得新的二元组和模板，这在大规模的网页环境下是一个很好的选择。DIPRE就是利用了文档集合的信息冗余和结构的相对一致性抽取目标关系。　　　　　　3 我们的SPG系统　　　　我们基于DIRPE的思想提出了一个名为SPG(Semantic Pattern Getter)的系统，抽取的是词序列构成的词串模板。本文的贡献在于：(1)引入了生物信息学中序列比对的方法，从句子为单位的两两上下文中抽取多个公共成分，获得了较为灵活的上下文表达，使得单个模板的可理解性以及模板集的覆盖能力都得到了一定的保证。(2)定义了模板置信度的新的评价机制，提高了下一轮概念对抽取的质量。　　　　3．1 模板定义　　SPG在大规模训练语料中，寻找每一个种子概念对的所有“出现”。本文的“出现”是指两个概念同时出现的句子。如(闵行，上海)这个概念对可以在文本集中找到这样的一次出现：“发展中的闵行区位于上海市的西南部。”以“(地理)领属”关系为例，用pre-location表示靠近句首的地区概念；post-location表示靠近句尾的地区概念。在地理位置上pre-location有可能领属于post-location，比如，(北京，中国)是