智能检索技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能检索技术

* 智能 检索 —— 文本智能检索技术 1. 检索?和智能检索? “检索”简单的说就是指从文献资料、网络信息等信息集合中查找达到所需要的信息资料过程。 “智能检索”是由抽词检索与全文检索发展而来,它是对检索词具有较高的判断、理解和处理能力的人工智能型的多媒体检索系统。 2. 智能检索技术几方面? (1)文本智能检索技术 (2)图像智能检索技术 (3)视频智能检索技术 文本检索技术 ——基于索引的检索技术 ■ 在获取信息时,顺序搜索的响应时间将变得不可忍受。解决搜索响应时间的办法是对文本文挡库中的文件进行预处理,为文本文库建立一种便于搜索的数据结构——索引。基于索引的搜索技术非常适合用于大规模、稳定的或中期性变化的文本文档库,如今绝大部分搜索引擎(如Google)采用的都是基于索引的检索技术。 ■ 随着时间的推移,基于web的信息越来越多,如何在海量的信息中获取自己真正需要的信息成为一个巨大的挑战。 背景知识 文本文档库 文档 文本提取 文本字符串 索引查询系统 索引 直接访问 文本预处理 处理结果 查询 用 户 ? 基于索引的检索 技术 排序系统 相关文档列表 排序结果 返回 1、文本文档库 要进行检索之前,首先检索系统将所有的检索对象收集起来,构建集中的本地文本文档库。例如:对于web搜索引擎,其检索对象主要是web网页,因此搜索引擎需要从互联网上抓取尽可能多的网页保存到本地文本文档库中,一般这个过程由程序自动完成,在此不过多讨论。 文本文档库 2、文本提取 基于文本文档库进行文本提取。文本提取过程主要是提取各种格式文档中的字符串。 文本检索系统不仅面向互联网的web网页,还面向各种文本类型,例如:XML,PDF,Microsoft Word等等。下面以XML格式信息为例,介绍如何从该格式的文档中提取文本内容。 文本提取 ? 解析XML文档 XML文档一般都是纯文本文档,其文本内容可以直接读取,读取时需要一些工具对其中的信息进行解析,可选择的工具有SAX API(Application Programming Interface)等。 → XML的SAX API定义了一个以事件驱动的接口。在这个接口中,当某个分析事件发生时,解析器(解析器是在读取文档时,激活一系列的事件,这些事件被推给事件处理器,然后由事件处理器提供对文档内容的反问。)会调用几个方法中的一个予以响应,而这些方法由调用程序提供。触发事件包括文档或文档元素的开始、结束或解析出错等。 3、文本预处理 提取出文本字符串之后,还需对文本字符串进行预处理以选择合适的词来建立索引。 文本预处理首先将文本中包含的词分析出来,即分词( ? )。在语义表达方面并不是所有词的表达能力都是同等的,因此除了分词之外,文字预处理还包括停用词删除、词干提取、索引词选择和建立词典等操作。 文本预处理 ?分词 ■ 分词的概念 词是最小的能独立活动的、有意义的语言成分。关键词查询的前提就是将条件分解成若干关键词。 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是切词也称为分词。我是一个学生,分词的结果是:我 是 一个 学生。 ■ 常用分词方法分类 (1)基于字符串匹配的分词方法 —— 基于字符串匹配的正向 最大匹配算法 (2)基于统计的分词的分词方法 ——又叫无词典分词法或统计取词方法 (3)基于理解的分词方法——试验阶段 分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 ■ 基于字符串匹配的正向最 大匹配算法 又称“机械分词方法”(由左到右的方向) 基本内容 它是按照一定的策略(某种算法)将待分析的汉字串与一个“充分大的”机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别一个词)。 →按照扫描方向的不同,机械分词方法可以分为正向匹配和逆向匹配; →按照不同长度优先

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档