- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
十信息检索系统介绍续
中文信息检索专题Chinese Information Retrieval 一、历史 计算机信息检索起源于20世纪50年代初。1954年美国海军兵器中心图书馆利用IBM701机开发计算机信息检索系统,它标志着计算机信息检索阶段的开始。 计算机信息检索技术已经从脱机检索、联机检索、光盘检索发展到了网络检索阶段。 一、历史(续) 中文文本信息检索最早见于“748工程”中的汉字情报检索。 80年代中期后,由于计算机处理能力的大大提高和应用的普及化,中文文本信息检索的研究广泛开展,各种汉字文本索引方法、检索算法以及实用化系统开始出现。 二、信息检索的定义 信息检索是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息需求(User Information Need)的技术。 文档可以是Web网页、邮件、文章、段落和句子等内容。 三、信息检索和数据库检索 信息检索处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured),最典型的例子是无任何结构的文章或者只有tag标记的Html文档等; 另一方面,信息检索的结果也往往是不精确的,不能像数据库查询那样有100%的正确率。如查找关于“雅典奥运会”,可能会漏掉有关“2004奥运会”的文章。 四、信息检索相关技术 自然语言处理 人工智能 模式识别 机器学习 神经网络 数理统计 计算机网络 内容管理 …… 五、信息检索的对象 文本 图像 音频 视频 …… 六、结构、半结构和非结构化数据 结构化的数据包含了各种可以命名的部分,并按照一定的结构对内容进行组织。如数据库中就包含了各种结构化的记录。 非结构化数据无法用一定的格式对它进行组织和定义,搜索工具也无法根据特定的语义通过SQL的方法对它进行检索。如一本小说中的一段文字,一份报纸中的一则广告等都属于非结构化数据。 半结构化数据是指部分有结构,部分没有结构的数据。 七、例子(结构化数据) 七、例子(非结构化数据) 播激励网络(Spreading Activation Networks)是一种最常见的基于神经网络的信息检索模型,一般由概念层和文档层组成,有时还有提问层。用户提问的概念在概念层被激活,被激活的切题概念和关联概念按权值不同传送到文档层,并到达潜在相关的概念和文档,然后将最高度激活的文档作为结果返回给用户。而且,允许由文档或文档和概念结合形成初始提问。为了提高检索质量,用户得到检索结果时,可以就某些文档做出相关性反馈,给它们分配一个相关值;也可以随时改变一些高度激活的概念和文档节点的相关性,评价和影响被激活的节点。系统在相关和不相关的文档内分析概念的分布,优化用户的提问。此外,当层间的激活传送过几次后,在相同文档中经常出现的概念也作为提问概念被激活,这样就可以自然地、灵活地进行概念扩展,让用户和系统相互作用。 七、例子(半结构化数据) From: pfli@ Subject: xxxx Date: Wed, 15 Sep 2004 07:24:01 +0800 MIME-Version: 1.0 Content-Type: text/plain;charset=gb-2312 Content-Transfer-Encoding: 7bit X-Priority: 3 X-MSMail-Priority: Normal X-Unsent: 1 X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2800.1165 在相同文档中经常出现的概念也作为提问概念被激活,这样就可以自然地、灵活地进行概念扩展,让用户和系统相互作用。 八、信息检索系统的模型 九、中文信息检索特点 词语切分和词语词法分析 进行词性标注及相关的自然语言处理 信息扩展 十、信息检索的评测 召回率(Recall,又称查准率)和准确率(precision,又称查全率)。 准确率是一个给定被检索文档的相似度的概率。 召回率是一个给定相关性文档的被检索的概率。 十、信息检索的评测(续) 其中,E(效率)用来指定准确率和召回率重要性。 P代表准确率,R表示召回率,α是变量,值为0-1。如果取值是0,表示召回率更重要;取值1/2表示召回率和准确率同等重要;取值1表示准确率更重要。 十一、信息检索的模型 一般而言,有两种信息检索的模型:基于统计的模型和基于语义的模型。 基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档; 而基于语义的模型则尝试对需求实现一定程度语法和语义的分析,即对用户输入的自然语言文本进行一定程度的理解并重新生成查询。 十一、信息检索的模型(续) 基于统计的模型主要有: 布尔模型
您可能关注的文档
最近下载
- 检验科职业安全防护和职业暴露紧急处理.pptx
- 加油站安全风险分级管控清单.docx VIP
- T∕CBMF 37-2018 T∕CCPA 7-2018- 超高性能混凝土基本性能与试验方法.pdf
- 公开课----议论文阅读——论证思路省公开课获奖课件市赛课比赛一等奖课件.pptx
- 2024新苏教版一年级数学上册全一册全部教案(共21课时).pdf VIP
- 《我和小姐姐克拉拉》乐读分享ppt课件[文字可编辑].ppt
- 工程经济学第3版教学课件第二章 资金时间价值与现金流量.pdf
- 数据透视表教程-教学课件.pptx
- 日立GVF2、NPH系列FMT板、A板使用说明(2).pdf VIP
- 传染病预防控制必修和选修答案-2024年全国疾控系统“大学习”活动.docx VIP
文档评论(0)