结合语义的位置语言模型计算机科学与技术专业论文.docxVIP

下载本文档

7
0
约5.97万字
约 69页
2019-02-22 发布于上海
举报
版权申诉

结合语义的位置语言模型计算机科学与技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要在过去的四十年里，信息检索领域出现了很多经典的模型，诸如布尔模型、向量空间模型以及概率模型。随着 Pnoet 和 Corft 首次提出基于统计语言模型的检索模型，近十年来该模型得到了快速的发展。国内外许多学者都加入了这个领域的研究，做了大量有意义的工作，因此又陆续的提出了隐马尔科夫模型，统计翻译模型，风险最小化模型等。但是大多数检索模型都是基于词在文档中的频率，而未考虑词在文档中的位置关系。例如这样的两篇文档——包含了相同集合的词并且每个词在两篇文档中的出现频率都一样，唯一不同的是这些词在文档中摆放的位置顺序有所不同，那么对于大多数检索模型这两篇文档的检索得分是一样的。但若第一篇文档中查询词与查询词出现得更为邻近，第二篇则出现得更为疏远的话，那么显然第一篇文档理应获得更高的检索得分，而大多数检索模型都无法做到这点。基于这点出发，Lv 和 Zhai 提出了一种位置语言模型,并成功的应用于信息检索，该模型最大的优势就是考虑了文档中词与词的位置关系。但该模型依然还存有缺陷：并未考虑到词与词之间的语义关系。因此本文在他们的工作基础上进行了改进，提出了一种结合语义的位置语言模型。具体来说本文的主要工作和创新点如下： 1) 提出了一种新的技术——“平滑互信息”,来度量两个词之间的转移概率。由于数据集中的词存在稀疏性，因此直接使用互信息来度量两个词的转移概率会造成大量的词对无法计算。本文则对互信息采用了一种平滑技术，使得数据集上几乎任意两个词都可计算出平滑互信息，从而计算出两个词的转移概率。更为重要的是，这种平滑技术遵循了词在数据集中的原始分布,并在附录中给出了这种平滑技术的理论证明。 2) 基于概率统计学以及互信息等相关理论，提出了一种结合语义的位置语言模型。本文给出了该模型中每个未知参数的估计思想以及估计方法，并且进一步对比了位置语言模型和结合语义的位置语言模型的异同点。最后证明了位置语言模型是本文模型的一个特例。 3)通过实验表明，基于本文模型的检索模型在检索性能方面要优于基于位置语言模型的检索模型。本文还进一步对模型中的参数进行了敏感度分析，主要分析了三个参数对这两个检索模型的影响。关键词位置语言模型；互信息；平滑技术；信息检索；语义关系； I A Abstract In the past four decades, there have been many classic models in the field of information retrieval, such as the Boolean model, Vector space model and Probabilistic model. As Pnoet and Corft first proposed Statistical language model-based retrieval model, the model has been rapid development in recent years. Many scholars have joined in this field of research, and have done a lot of meaningful work. Hidden markov models, Statistical Translation models, the risk minimization for information have been proposed in turn. But most of the retrieval model is based on the frequency of words in the document, and do not consider the position relationship of the word in the document. For example, the two documents contain the same set of words and the frequency of each word in the two documents is the same. The only difference between the two documents is that these words have different order in the position of document. So the two document retrieval would have the same retrieval score for most of the retrieval m