尚文清信息检索计算机应用技术.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
尚文清信息检索计算机应用技术.doc

信息检索 摘要: 本文中主要是对信息检索、信息搜索、问答搜索、信息抽取、信息过滤、信息推荐的概念的一些理解及他们之间的区别。 有学者将信息检索最本质的部分概括为:对信息集合与需求集合的匹配与选择。通俗一点来说,就是用户提出信息需求,需求表达方式可能是一个或组检索词、也可能是一幅图像、甚至是哼出的一段旋律。信息的集合是经过整理或序化的,信息可以是文本型,也可以是音频、视频、图像、图形,甚至是上述种类信息综合而成的多媒体信息。信息既可以是结构化的信息,如各种文献数据库的记录或 XML 文件,也可以是非结构的信息,如 HTML页面或图像。经典的信息检索技术主要是检索文本信息,后来为了检索音频、视频、图像等多媒体信息,就通过如下方法来实现:①先将这些非文本信息进行著录,也就是文字性描述,然后再利用文本信息检索的技术来实现检索;②直接基于音频、视频、图像的内容来实现检索。 经典意义上的信息检索所处理的信息集合在一段时间内保持相对稳定不变,用户的信息需求则是不断变化的。例如,搜索引擎系统的有序信息集合在一段时间内保持不变(变化情况取决于系统的更新频率,可能是一个星期也可能是几天),而这些信息集合在网络上接受成千上万的来自不同用户的不同的检索请求。下面将要讲到的信息推荐和信息过滤所面对的信息集合则相对是动态的,而来自用户的信息需求则相对不变或变化甚小,它们都可以看成是经典信息检索的一个的检索任务。[1] 信息搜索 搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具,它利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。搜索引擎起源于传统的信息全文检索理论。狭义上的搜索引擎仅指基于因特网的搜索引擎;广义上的搜索引擎除此之外还包括基于目录的信息检索服务。搜索引擎的研究极具综合性和挑战性,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的关键理论和技术,其核心问题是数据库的规模、索引数据库的质量和标引质量。为适应发展,新一代搜索引擎的关键技术应运而生,带有明显的智能特征,因此被称为智能搜索引擎。知识问答搜索引擎(Answers Searching),是基于搜索的互动式问答平台,也称为问答式检索系统或问答系统。如同web2.0环境下的BBS,用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。知识问答搜索引擎支持用户通过以自然语言形式提问(如:什么是3G)。与基于网页对搜索引擎不同的是,知识问答搜索引擎给出的是问题的答案而不是链接,而且其本身也是一种服务。知识问答搜索引擎是搜索引擎自身为适应网络信息环境和用户需求发展到web2.0时代而提供的服务,在web2.0的新环境中,用户越来越喜欢分享、同创和参与的网络文化。?知识问答搜索引擎具备如下基本特征: 是基于开放的、借助网络人力资源的、有悬赏机制(荣誉积分)的互动式问答平台。知识问答搜索引擎是充分利用网络人力资源来解决问题的成功体现,在互联网上每个人都可能是某一个方面的“专家”,而由这些“专家”来解答其擅长的问题,显然是再适合不过的。 ?和搜索引擎紧密结台。严格来说,知识问答搜索引擎不是真正的搜索引擎,值所以被称为搜索引擎,主要是由于这些系统一般基于母体搜索引擎强大的用户群从而得到很好的发展,问答知识作为web页面内容被众多搜索引擎大量索引,并被用户利用。 强调对知识的沉淀和分享。用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。 (user Profile),从动态变化的信息流(比如Web, e-mail)中自动检索出满足用户个性化需求的信息。 信息过滤就是通过某种技术将不良信息屏蔽掉,不呈现给最终用户的过程[1]。 Profile:一组对用户过滤需求的描述,这种“profile”描述了用户长期的、稳定的兴趣爱好。 如下表[4][5] 信息检索(IR) 信息过滤(IF) 用户需求 “query” “user profile” 信息流 相对静态的结构化的数据集 海量、动态的无结构数据 需求 动态变化 静态 需要了解用户的情况 否 是 需求表示 检索词(可含组合条件) 兴趣模型 目标 选择相关条目 过滤掉不相关的信息 涉及范围 静态文本数据 除数据外如行为科学等多个学科 用户特点 大范围多用户的短期使用 小范围少用户的长期使用 和文本分类(Categorization)的区别:分类系统中的类不会经常改变。 相对而言,User Profile会动态变化 和信息抽取(I

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档