十信息检索系统介绍续.ppt

下载文档 降价啦

1
0
约6.63千字
约 41页
2017-08-16 发布于天津
举报
版权申诉
保障服务

十信息检索系统介绍续.ppt

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

十信息检索系统介绍续

中文信息检索专题Chinese Information Retrieval 一、历史计算机信息检索起源于20世纪50年代初。1954年美国海军兵器中心图书馆利用IBM701机开发计算机信息检索系统，它标志着计算机信息检索阶段的开始。计算机信息检索技术已经从脱机检索、联机检索、光盘检索发展到了网络检索阶段。一、历史（续）中文文本信息检索最早见于“748工程”中的汉字情报检索。 80年代中期后，由于计算机处理能力的大大提高和应用的普及化，中文文本信息检索的研究广泛开展，各种汉字文本索引方法、检索算法以及实用化系统开始出现。二、信息检索的定义信息检索是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息需求(User Information Need)的技术。文档可以是Web网页、邮件、文章、段落和句子等内容。三、信息检索和数据库检索信息检索处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured)，最典型的例子是无任何结构的文章或者只有tag标记的Html文档等；另一方面，信息检索的结果也往往是不精确的，不能像数据库查询那样有100％的正确率。如查找关于“雅典奥运会”，可能会漏掉有关“2004奥运会”的文章。四、信息检索相关技术自然语言处理人工智能模式识别机器学习神经网络数理统计计算机网络内容管理 …… 五、信息检索的对象文本图像音频视频 …… 六、结构、半结构和非结构化数据结构化的数据包含了各种可以命名的部分，并按照一定的结构对内容进行组织。如数据库中就包含了各种结构化的记录。非结构化数据无法用一定的格式对它进行组织和定义，搜索工具也无法根据特定的语义通过SQL的方法对它进行检索。如一本小说中的一段文字，一份报纸中的一则广告等都属于非结构化数据。半结构化数据是指部分有结构，部分没有结构的数据。七、例子（结构化数据）七、例子（非结构化数据）播激励网络(Spreading Activation Networks)是一种最常见的基于神经网络的信息检索模型，一般由概念层和文档层组成，有时还有提问层。用户提问的概念在概念层被激活，被激活的切题概念和关联概念按权值不同传送到文档层，并到达潜在相关的概念和文档，然后将最高度激活的文档作为结果返回给用户。而且，允许由文档或文档和概念结合形成初始提问。为了提高检索质量，用户得到检索结果时，可以就某些文档做出相关性反馈，给它们分配一个相关值；也可以随时改变一些高度激活的概念和文档节点的相关性，评价和影响被激活的节点。系统在相关和不相关的文档内分析概念的分布，优化用户的提问。此外，当层间的激活传送过几次后，在相同文档中经常出现的概念也作为提问概念被激活，这样就可以自然地、灵活地进行概念扩展，让用户和系统相互作用。七、例子（半结构化数据） From: pfli@ Subject: xxxx Date: Wed, 15 Sep 2004 07:24:01 +0800 MIME-Version: 1.0 Content-Type: text/plain;charset=gb-2312 Content-Transfer-Encoding: 7bit X-Priority: 3 X-MSMail-Priority: Normal X-Unsent: 1 X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2800.1165 在相同文档中经常出现的概念也作为提问概念被激活，这样就可以自然地、灵活地进行概念扩展，让用户和系统相互作用。八、信息检索系统的模型九、中文信息检索特点词语切分和词语词法分析进行词性标注及相关的自然语言处理信息扩展十、信息检索的评测召回率（Recall，又称查准率）和准确率（precision，又称查全率）。准确率是一个给定被检索文档的相似度的概率。召回率是一个给定相关性文档的被检索的概率。十、信息检索的评测（续）其中，E（效率）用来指定准确率和召回率重要性。 P代表准确率，R表示召回率，α是变量，值为0－1。如果取值是0，表示召回率更重要；取值1/2表示召回率和准确率同等重要；取值1表示准确率更重要。十一、信息检索的模型一般而言，有两种信息检索的模型：基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档；而基于语义的模型则尝试对需求实现一定程度语法和语义的分析，即对用户输入的自然语言文本进行一定程度的理解并重新生成查询。十一、信息检索的模型（续）基于统计的模型主要有：布尔模型