网站大量收购独家精品文档,联系QQ:2885784924

尚文清 信息检索算机应用技术.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
尚文清 信息检索算机应用技术

信息检索 摘要: 本文中主要是对信息检索、信息搜索、问答搜索、信息抽取、信息过滤、信息推荐的概念的一些理解及他们之间的区别。 有学者将信息检索最本质的部分概括为:对信息集合与需求集合的匹配与选择。通俗一点来说,就是用户提出信息需求,需求表达方式可能是一个或组检索词、也可能是一幅图像、甚至是哼出的一段旋律。信息的集合是经过整理或序化的,信息可以是文本型,也可以是音频、视频、图像、图形,甚至是上述种类信息综合而成的多媒体信息。信息既可以是结构化的信息,如各种文献数据库的记录或 XML 文件,也可以是非结构的信息,如 HTML页面或图像。经典的信息检索技术主要是检索文本信息,后来为了检索音频、视频、图像等多媒体信息,就通过如下方法来实现:①先将这些非文本信息进行著录,也就是文字性描述,然后再利用文本信息检索的技术来实现检索;②直接基于音频、视频、图像的内容来实现检索。 经典意义上的信息检索所处理的信息集合在一段时间内保持相对稳定不变,用户的信息需求则是不断变化的。例如,搜索引擎系统的有序信息集合在一段时间内保持不变(变化情况取决于系统的更新频率,可能是一个星期也可能是几天),而这些信息集合在网络上接受成千上万的来自不同用户的不同的检索请求。下面将要讲到的信息推荐和信息过滤所面对的信息集合则相对是动态的,而来自用户的信息需求则相对不变或变化甚小,它们都可以看成是经典信息检索的一个的检索任务。[1] 信息搜索 搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具,它利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。搜索引擎起源于传统的信息全文检索理论。狭义上的搜索引擎仅指基于因特网的搜索引擎;广义上的搜索引擎除此之外还包括基于目录的信息检索服务。搜索引擎的研究极具综合性和挑战性,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的关键理论和技术,其核心问题是数据库的规模、索引数据库的质量和标引质量[2]。 为适应发展,新一代搜索引擎的关键技术应运而生,带有明显的智能特征,因此被称为智能搜索引擎[3]。 问答系统 知识问答搜索引擎[3](Answers Searching),是基于搜索的互动式问答平台,也称为问答式检索系统或问答系统。如同web2.0环境下的BBS,用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。知识问答搜索引擎支持用户通过以自然语言形式提问(如:什么是3G)。与基于网页对搜索引擎不同的是,知识问答搜索引擎给出的是问题的答案而不是链接,而且其本身也是一种服务。 知识问答搜索引擎是搜索引擎自身为适应网络信息环境和用户需求发展到web2.0时代而提供的服务,在web2.0的新环境中,用户越来越喜欢分享、同创和参与的网络文化。?知识问答搜索引擎具备如下基本特征: 是基于开放的、借助网络人力资源的、有悬赏机制(荣誉积分)的互动式问答平台。知识问答搜索引擎是充分利用网络人力资源来解决问题的成功体现,在互联网上每个人都可能是某一个方面的“专家”,而由这些“专家”来解答其擅长的问题,显然是再适合不过的。 ?和搜索引擎紧密结台。严格来说,知识问答搜索引擎不是真正的搜索引擎,值所以被称为搜索引擎,主要是由于这些系统一般基于母体搜索引擎强大的用户群从而得到很好的发展,问答知识作为web页面内容被众多搜索引擎大量索引,并被用户利用。 强调对知识的沉淀和分享。用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。 信息抽取[4] 信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。 信息抽取是一个输入/输出过程 输入:未知文本信息 输出:固定格式、无二义性数据(信息) 这些被抽取出来的数据可以:直接显示给用户,存储于数据库或电子表格中以供随后分析 信息检索和信息抽取对比: 信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户 而信息抽取不是仅仅是指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户 信息检索和信息抽取对比总结[4] 功能不同 处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成 适用领域不同:由于采用的技术不同、信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先

文档评论(0)

vtangojia + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档