- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
广义词汇共现模型研究.pdf
广义词汇共现模型研究
乔亚男 齐勇
西安交通大学电信学院计算机系,西安(710049 )
E-mail: new_siberia@163.com
摘 要:词汇共现研究最初是在信息检索的查询扩展研究的基础上发展起来的。词汇共现模
型反映了词汇共现研究的基本框架和采用的相关技术,可以对词与词之间的相关性进行量化
的比较,它被广泛地应用于信息检索、文本聚类等研究中。本文提出了广义词汇共现模型
(General Term Co-occurrence Model,GTM ),该模型统一了传统的词汇共现模型密切关注的
两个方面,可以将分别注重于两个方面的诸多传统模型叠加成很多复合模型,以便适应各种
不同的应用环境。
关键词:信息检索,自然语言处理,词汇共现,词汇共现模型
中图分类号:TP391.3
1.概述
在信息检索领域研究的早期,信息检索系统一般都采用基本的布尔模型,而用户在进行
查询的时候使用的查询词通常很少,但自然语言中同义词繁多,再加之英语中即使同一个词
在不同地区也有不同的拼法(如“refrigerator ”和“fridge ”等),直接导致当时的信息检索
系统的查全率非常低。为了解决这个问题,部分研究者尝试在用户查询中添加查询词的同义
词或近义词来进行查询扩展(Query Expansion )来提高查全率,取得了非常好的效果。随后
又有研究者试图在用户查询中进一步添加和查询词有语义关系的非同义近义词,尽管研究证
明这种方法对于信息检索系统性能改善并不大[1],但建立在查询扩展研究基础上的词汇共现
(term co-occurrence)研究却应运而生并在众多领域发挥了重要作用。
词汇共现研究是在基于统计的计算语言学研究领域的重要课题之一。以一个词为中心,
可以找到一组经常与之搭配的词,称之为共现词汇集,它描述了这个词的语义上下文和语境。
针对共现词汇集的生成和应用的研究称为词汇共现研究,而相应的词汇共现模型
(Co-occurrence Model)则反映了共现词汇研究的基本框架和采用的相关技术。词汇共现模
型是建立在这样一个基本假设的基础之上的:如果在大规模语料(训练语料)中,两个词经常
共同出现(共现)在同一窗口单元中,则认为这两个词在意义上是相互关联的,而且,共现的
频率越高,其相互间的关联越紧密.利用词汇共现模型可以对词与词之间的相关性进行量化
[2]
的比较,因此,词汇共现模型广泛地应用于信息检索、文本聚类等研究中 。
在词汇共现模型研究的过程中,研究者们通常从两个角度进行分析:第一,如果两个词
同时出现于一个窗口单元,如何评价这两个词在这个窗口单元中含义的关联程度?第二,如
果在一个文档中有多个这样的词汇共现窗口单元,如何评价这两个词在这个文档或文档集中
含义的关联程度?针对这两个问题,研究者们提出了多种不同的评价模型,但基本都是针对
这两个问题中的某一个问题的处理进行孤立地改进,而简单地忽略或者简化另一个问题的处
理,没有进行全面综合的考虑,势必影响了评价模型的性能和适用范围。
本文提出了广义词汇共现模型(General Term Co-occurrence Model,GTM),该模型统
一了传统的词汇共现模型密切关注的两个方面,可以将分别注重于两个方面的诸多传统模型
本课题得到教育部博士点基金(项目编号:20060698018 )和国家自然科学基金(项目编号)的
资助。
叠加成很多复合模型,以便适应各种不同的应用环境。
本文其他部分的内容的组织方式如下:第二部分简要叙述词汇共现模型的一些基本概念
以及相关研究者的主要工作;第三部分给出广义词汇共现模型的形式化定义,并对实际应用
中广义词汇共现模型针对传统模型的常见复合形式进行了讨论;第四部分小结。
2 .相关研究现状
项(Term)是词汇共现模型研究中最基础的概念。文本的内容特征常常用它所含有的基
本语
文档评论(0)