- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SE、QA、IE、IF、IR的区别.docx
一信息检索的概念1信息检索的定义:是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(InformationSearch或InformationSeek)。2检索的原因:1.信息检索是获取知识的捷径。2.信息检索是科学研究的向导。3.信息检索是终身教育的基础。3信息检索的热点3.1智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果。3.2知识挖掘主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。3.3异构信息整合检索和全息检索信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要全息检索”的概念就是支持一切格式和方式的检索从实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。4信息检索的四个要素:信息检索的前提—信息意识信息检索的基础—信息源信息检索的核心—信息获取能力信息检索的关键—信息利用5信息检索的主要环节:信息内容分析与编码,产生信息记录及检索标识。组织存贮,将全部记录按文件、数据库等形式组成有序的信息集合。6信息检索的方法普通法、追溯法和分段法。二SE、QA、IE、IF、IR的区别以下是分别从SE、QA、IE、IF、IR的定义,条件的提出者,主要任务,功能描述,需求变化率和技术路线几个方面进行阐述SE、QA、IE、IF、IR的区别。1SE、QA、IE、IF、IR的定义搜索引擎(searchengine,SE)万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。问答系统(QuestionAnsweringSystem,QA)是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。信息推荐(InformationRecommendation,IR)就是将满足信息需求的信息通过某种方式推荐给相关用户,尤其是将最新的满足需求的信息推荐给用户。推荐的方式可以是系统主动通知用户,也可以是用户主动去获取。信息过滤(Informationfiltering,IF)是大规模内容处理的另一种典型应用。它是对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,将不符合用户需求的信息过滤掉。通常可分为不良信息过滤和个性化信息过滤:不良信息过滤一般指过滤掉暴力反动色情等信息;个性化信息过滤类似于信息检索,帮助用户返回感兴趣的东西。信息抽取(InformationExtraction:IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。2SE、QA、IE、IF、IR条件的提出者搜索引擎用户自行提出查询条件,由搜索引擎从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。问答系统用户自行提出问题,该系统能用准确、简洁的自然语言回答用户用自然语言提出的问题。信息抽取由系统根据用户信息提出抽取条件。信息推荐用户自行提出推荐条件,推荐条件优势成为用户兴趣。信息过滤一般由监管者提出过滤条件,最终用户一般无权干涉。3SE、QA、IE、IF、IR的主要任务搜索引擎搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,并根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。问答系统用准确、简洁的自然语言回答用户用自然语言提出的问题。信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出
文档评论(0)