- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
摘
要
在过去的四十年里,信息检索领域出现了很多经典的模型,诸如布尔模型、
向量空间模型以及概率模型。随着 Pnoet 和 Corft 首次提出基于统计语言模型的 检索模型,近十年来该模型得到了快速的发展。国内外许多学者都加入了这个领 域的研究,做了大量有意义的工作,因此又陆续的提出了隐马尔科夫模型,统计 翻译模型,风险最小化模型等。
但是大多数检索模型都是基于词在文档中的频率,而未考虑词在文档中的位 置关系。例如这样的两篇文档——包含了相同集合的词并且每个词在两篇文档中 的出现频率都一样,唯一不同的是这些词在文档中摆放的位置顺序有所不同,那 么对于大多数检索模型这两篇文档的检索得分是一样的。但若第一篇文档中查询 词与查询词出现得更为邻近,第二篇则出现得更为疏远的话,那么显然第一篇文 档理应获得更高的检索得分,而大多数检索模型都无法做到这点。
基于这点出发,Lv 和 Zhai 提出了一种位置语言模型,并成功的应用于信息 检索,该模型最大的优势就是考虑了文档中词与词的位置关系。但该模型依然还 存有缺陷:并未考虑到词与词之间的语义关系。因此本文在他们的工作基础上进 行了改进,提出了一种结合语义的位置语言模型。
具体来说本文的主要工作和创新点如下:
1) 提出了一种新的技术——“平滑互信息”,来度量两个词之间的转移概率。 由于数据集中的词存在稀疏性,因此直接使用互信息来度量两个词的转移概率会 造成大量的词对无法计算。本文则对互信息采用了一种平滑技术,使得数据集上 几乎任意两个词都可计算出平滑互信息,从而计算出两个词的转移概率。更为重 要的是,这种平滑技术遵循了词在数据集中的原始分布,并在附录中给出了这种 平滑技术的理论证明。
2) 基于概率统计学以及互信息等相关理论,提出了一种结合语义的位置语 言模型。本文给出了该模型中每个未知参数的估计思想以及估计方法,并且进一 步对比了位置语言模型和结合语义的位置语言模型的异同点。最后证明了位置语 言模型是本文模型的一个特例。
3)通过实验表明,基于本文模型的检索模型在检索性能方面要优于基于位置 语言模型的检索模型。本文还进一步对模型中的参数进行了敏感度分析,主要分 析了三个参数对这两个检索模型的影响。
关键词 位置语言模型;互信息;平滑技术;信息检索;语义关系;
I
A
Abstract
In the past four decades, there have been many classic models in the field of information retrieval, such as the Boolean model, Vector space model and Probabilistic model. As Pnoet and Corft first proposed Statistical language model-based retrieval model, the model has been rapid development in recent years. Many scholars have joined in this field of research, and have done a lot of meaningful work. Hidden markov models, Statistical Translation models, the risk minimization for information have been proposed in turn.
But most of the retrieval model is based on the frequency of words in the document, and do not consider the position relationship of the word in the document. For example, the two documents contain the same set of words and the frequency of each word in the two documents is the same. The only difference between the two documents is that these words have different order in the position of document. So the two document retrieval would have the same retrieval score for most of the retrieval m
您可能关注的文档
- 结合图论和评价体系的城市供水管网PMA分区优化研究-建筑与土木工程专业论文.docx
- 结合图像分割的图像融合算法分析-模式识别与智能系统专业论文.docx
- 结合图像空间信息的线性判别分析研究-计算机科学与技术专业论文.docx
- 结合网页结构特征与内容特征的正文提取-计算机系统结构专业论文.docx
- 结合位点确定的高分子杂化体的制备及其功能研究-化学工艺专业论文.docx
- 结合文本倾向性分析的股评可信度计算研究-计算机科学与技术专业论文.docx
- 结合我的创作雨中景观浅谈油画中的构思-美术专业论文.docx
- 结合先验形状信息和序贯学习的心血管内超声外弹力膜检测-生物医学工程专业论文.docx
- 结合显式与隐式算法的PZT型智能钢筋损伤监测的三维数值模拟-土木工程专业论文.docx
- 结合显著性目标检测与图像分割的服饰提取算法研究及实现-计算机应用技术专业论文.docx
- 结合在线分析技术和序列线性规划算法的汽油调合优化-控制科学与工程专业论文.docx
- 结合在线学习检测的粒子滤波行人跟踪算法-通信与信息系统专业论文.docx
- 结合整数规划的改进YASS算法研究-电子与通信工程专业论文.docx
- 结合正向和负向相关因子的推荐算法研究和应用-计算机科学与技术专业论文.docx
- 结合肢体动作的双认知任务研究-生物医学工程专业论文.docx
- 结合智能决策支持的ERP生产控制系统研究与实现-计算机软件与理论专业论文.docx
- 结合智能天线的自适应多用户检测技术-通信与信息系统专业论文.docx
- 结合中国电信的品牌战略来实施重庆电信的营销管理-工商管理专业论文.docx
- 结合中医预防制定有效运动处方改善高校教师体质健康的分析-体育教育训练学专业论文.docx
- 结合重力场模型的联合平差方法研究及软件开发-测绘工程专业论文.docx
原创力文档


文档评论(0)