信息检索关键技术及高性能检索系统设计-中国科学院科技论文预发布平台.PDF

信息检索关键技术及高性能检索系统设计-中国科学院科技论文预发布平台.PDF

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索关键技术及高性能检索系统设计-中国科学院科技论文预发布平台.PDF

第 8 卷第 4 期 信息技术快报 Vol.8 No.4 Information Technology Letter Jul. 2010 信息检索关键技术及高性能检索系统设计 俞晓明 郭嘉丰 朱小飞 关峰 程学旗 摘要:网络等技术的快速发展,使人们能够访问的数据规模急剧增加。如何从海量信息中找到需要的信息 成为难题。信息检索技术是应对该问题的有效手段,可以快速有效地帮助人们找到自己需要的信息。本文 介绍了检索技术中使用的索引组织、检索模型、查询分析等关键技术及本课题组开发和维护的高性能开源 检索系统 FirteX 。 关键词:信息检索、检索模型、查询分析、排序学习(Learning to rank )、FirteX 1 引言 1 v 随着互联网信息数量的急速膨胀,信息检索作为一种有效的信息获取手段,在人们的日 9 常生活中日益变得重要。广义的信息检索包括文本检索、图像检索、音视频检索等;狭义的 7 信息检索是指文本检索或者文档检索,尤其指对非结构化(或半结构化)文本的检索,其任 1 0 务就是研究如何从相对稳定的文本数据集中检索出与用户需求相关的文本。本文将主要针对 0 文本检索相关的关键技术。 . 3 0 具体来说,信息检索完成的 7 工作是根据用户的查询请求,在 用户 1 一个文档集中找出与用户请求 用户查询需求 0 2 最为接近的文档子集。右图给出 文档内容分析 : v 了信息检索系统的一般处理过 用户查询 i X 程。信息检索首先对文本建立索 查询操作 倒排索引构建 文档格式分析 a 引。索引可以有效提高检索效 n 率。检索时用户向检索系统提交 查询表达式 i h 查询,检索系统根据事先建立的 查询操作 倒排 文档集 c 索引进行检索,最后把检索到的 检出的文档 索引 文档根据一定的算法排序,按与 查询操作 查询请求相关度从高到低的顺 排序文档 序返回给用户。 图1. 检索系统的一般处理过程 在信息检索中,查询请求是 指用户对信息需求的描述,是用户信息需求的一种外在表现形式;文档是检索系统的基本检 索对象或检索粒度,通常是由自然语言所描述的非结构化的自由文本或半结构化的文本,如 网页、文字新闻、学术出版物、产品描述、博客页面等;文档集指的则是一定数目文档的集 合。根据文档类型的不同,文档集会随时间发生频度不同的改变。例如,数字图书馆可能几 天添加一些新书或者移除一些旧书,而论坛的帖子、博客的文章和上架的商品可能几分钟就 会发生更新。根据文档集更新的快慢和方式,又可将文档集分为静态文档集、增量文档集和 动态文档集。 在面向 Web 的信息检索系统中,除上图的一般处理过程,通常还会包含另外两个重要 的模块:信息采集和信息抽取。它们都是为得到检索用的文档集做准备的过程。信息采集的

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档