利用人工和自动生成资源进行中文信息检索查询扩展.pdf

下载文档 降价啦

7
0
约12.4万字
约 105页
2017-08-27 发布于安徽
举报
版权申诉
保障服务

利用人工和自动生成资源进行中文信息检索查询扩展.pdf

1、本文档共105页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文摘要在中文信息检索的研究和实践中，由于词的不匹配现象导致一些相关的文件不能被成功地检索出来，这是影响检索效果的一个很关键的问题。本论文通过对利用人工和自动生成的资源进行中文信息检索查询扩展的研究和讨论，在一定程度上解决了词的不匹配现象，显著地提高了中文信息检索的检索效果。本论文中利用中文信息检索标准测试集，对信息检索系统及其算法进行了科学客观的评价，并对中文信息检索的最佳检索单元进行了详细的讨论和研究，在此基础上，重点讨论和研究了利用人工和自动生成的资源进行中文信息检索查询扩展。提出并实现了利用知网提供的人工生成的信息资源，进行中文信息检索查询扩展。受知网资源的限制，试验表明，单独利用知网的资源直接进行中文信息检索查询扩展，并不能取得具有统计意义的理想的检索效果。实现了一种带衰减因子的词共现模型，可以对大规模中文文件集进行统计处理，并自动生成包含词与词相关性信息的资源。由于该模型考虑了词与词间距离的概念，因此，不同于普通的词共现模型，带衰减因子的词共现模型能够更准确地描述词与词间相关性信息。提出并实现了基于上下文的查询扩展方法，可以根据查询的上下文对扩展词进行选择，是一种相对“智能”的查询扩展方法。相对于不进行查询扩展的检索效果，基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。提出并实现了利用人工和自动生成的两种资源的组合进行中文信息检索查询扩展。利用知网的同义词资源与“伪同义词资源”的组合进行基于上下文的查询扩展．取得了具有统计意义的更理想的检索效果。关键词：中文信息检索查询扩展词共现模型中文分词信息检索系统 ABSTRACT Termmismatchbetween anddocumentsISafundamentalin queries problem Information affectstheeffectivenessofretrievalresults Chinese Retrieval(取)，which Inthis outthe on withthesauruses thesis，we expansion generated carry studyquery for resultsshowthatour and Chinese manuallyautomatically IR．Experimental IR the methodsresultsin over without significant queryexpansion． improvement collections evaluate and onthestandardevaluation We s拄atc：gies theⅡ己systems forChinese discuss aboutthebetter unitsofChineseIR． IR，and clearly indexing focusonthe of