利用人工和自动生成资源进行中文信息检索查询扩展.pdf

利用人工和自动生成资源进行中文信息检索查询扩展.pdf

  1. 1、本文档共105页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文摘要 在中文信息检索的研究和实践中,由于词的不匹配现象导致一些相关的文件 不能被成功地检索出来,这是影响检索效果的一个很关键的问题。本论文通过对 利用人工和自动生成的资源进行中文信息检索查询扩展的研究和讨论,在一定程 度上解决了词的不匹配现象,显著地提高了中文信息检索的检索效果。 本论文中利用中文信息检索标准测试集,对信息检索系统及其算法进行了科 学客观的评价,并对中文信息检索的最佳检索单元进行了详细的讨论和研究,在 此基础上,重点讨论和研究了利用人工和自动生成的资源进行中文信息检索查询 扩展。 提出并实现了利用知网提供的人工生成的信息资源,进行中文信息检索查询 扩展。受知网资源的限制,试验表明,单独利用知网的资源直接进行中文信息检 索查询扩展,并不能取得具有统计意义的理想的检索效果。 实现了一种带衰减因子的词共现模型,可以对大规模中文文件集进行统计处 理,并自动生成包含词与词相关性信息的资源。由于该模型考虑了词与词间距离 的概念,因此,不同于普通的词共现模型,带衰减因子的词共现模型能够更准确 地描述词与词间相关性信息。 提出并实现了基于上下文的查询扩展方法,可以根据查询的上下文对扩展词 进行选择,是一种相对“智能”的查询扩展方法。相对于不进行查询扩展的检索 效果,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。 提出并实现了利用人工和自动生成的两种资源的组合进行中文信息检索查 询扩展。利用知网的同义词资源与“伪同义词资源”的组合进行基于上下文的查 询扩展.取得了具有统计意义的更理想的检索效果。 关键词:中文信息检索查询扩展词共现模型中文分词信息检索系统 ABSTRACT Termmismatchbetween anddocumentsISafundamentalin queries problem Information affectstheeffectivenessofretrievalresults Chinese Retrieval(取),which Inthis outthe on withthesauruses thesis,we expansion generated carry studyquery for resultsshowthatour and Chinese manuallyautomatically IR.Experimental IR the methodsresultsin over without significant queryexpansion. improvement collections evaluate and onthestandardevaluation We s拄atc:gies theⅡ己systems forChinese discuss aboutthebetter unitsofChineseIR. IR,and clearly indexing focusonthe of

文档评论(0)

文档分享 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档