- 1、本文档共121页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture3-tolerant-retrieval 第3讲 词典及容错式检索 现代信息检索导论 教学课件
第3讲 词典及容错式检索 Dictionary and tolerant retrieval * * * * 从cat到catcat * * * * 提纲 上一讲回顾 词典 通配查询 编辑距离 拼写校正 Soundex * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 如何从上述矩阵中找到编辑操作的路径? * * * k-gram 索引 比轮排索引空间开销要小 枚举一个词项中所有连读的k个字符构成的k-gram 。 2-gram称为二元组(bigram) 例子: from April is the cruelest month we get the bigrams: $a ap pr ri il l$ $i is s$ $t th he e$ $c cr ru ue el le es st t$ $m mo on nt h$ 同前面一样,$ 是一个特殊字符 构建一个倒排索引,此时词典部分是所有的2-gram,倒排记录表部分是包含某个2-gram的所有词项 相当于对词项再构建一个倒排索引(二级索引) * 3-gram(trigram)索引的例子 * k-gram (bigram, trigram, . . . ) 索引 需要注意的是,这里有两个倒排索引 词典-文档的倒排索引基于词项返回文档 而k-gram索引用于查找词项,基于查询包含的k-gram查找词项 * 利用2-gram索引处理通配符查询 查询mon* 可以先执行布尔查询: $m AND mo AND on 该布尔查询会返回所有以前缀mon开始的词项 . . . . . . 当然也可能返回许多伪正例,比如MOON. 因此,必须要做后续的过滤处理 余下的词项将在词项-文档倒排索引中查找文档 k-gram索引 vs. 轮排索引 k-gram索引的空间消耗小 轮排索引不需要进行后过滤 * 课堂练习 Google对通配符查询的支持极其有限 比如:在 Google中查询 [gen* universit*] 意图:想查 University of Geneva, 但是不知道如何拼写,特别是法语中的拼写 按照Google自己的说法, 2010-04-29: “* 操作符只能作为一个整体单词使用,而不能作为单词的一部分使用” 但是这点并不完全对,尝试一下 [pythag*] 和 [m*nchen] 问题: 为什么Google对通配查询并不充分支持? * 原因 问题 1: 一条通配符查询往往相当于执行非常多的布尔查询 对于 [gen* universit*]: geneva university OR geneva université OR genève university OR genève université OR general universities OR . . . 开销非常大 问题 2: 用户不愿意敲击更多的键盘 如果允许[pyth* theo*]代替 [pythagoras’ theorem]的话,用户会倾向于使用前者 这样会大大加重搜索引擎的负担 Google Suggest是一种减轻用户输入负担的好方法 提纲 上一讲回顾 词典 通配查询 编辑距离 拼写校正 Soundex * 拼写校正 两个主要用途 纠正待索引文档 纠正用户的查询 两种拼写校正的方法 词独立(Isolated word)法 只检查每个单词本身的拼写错误 如果某个单词拼写错误后变成另外一个单词,则无法查出, e.g., an asteroid that fell form the sky 上下文敏感(Context-sensitive)法 纠错时要考虑周围的单词 能纠正上例中的错误 form/from * 关于文档校正 本课当中我们不关心文档的拼写校正问题 (e.g., MS Word) 在IR领域, 我们主要对OCR处理后的文档进行拼写校正处理. (OCR = optical character recognition,光学字符识别) IR领域的一般做法是:不改变文档 * 查询校正 第一种方法: 词独立(isolated word)法 假设1: 对需要纠错的词存在一系列“正确单词形式” 假设2: 需要提供存在错误拼写的单词和正确单词之间的距离计算方式 简单的拼写校正算法: 返回与错误单词具有最小距离的”正确”单词 例子: informaton → information 可以将词汇表中所有的单词都作为候选的“正确”单词 这种方式为什么有问题? * 使用词汇表的几种其他方式 采用标准词典 (韦伯词典, 牛津词典等等) 采用领域词
您可能关注的文档
- Grammatica Latina 拉丁文语法.pdf
- g《现代物流管理》第六章 运输1.ppt
- GY、GYU型 便拆式管道泵产品培训讲义.ppt
- H 第九章 劳动管理 人力资源管理课件.ppt
- GTS-网格菜单使用说明 midas 教学文件.pdf
- handout for lecture 3-4 系统功能语言学概论课件.doc
- Happy Hew Year 放假须知课件.ppt
- hapter 7 brakes 汽车服务工程专业英语 教学课件.ppt
- guide to the use of scores GRE考试指导.pdf
- Hazardous Cattle Crossings- Use of Flashing Amber Lamps 《道路勘测设计》英文资料.pdf
- lecture5-indexcompression 第5讲 索引压缩 现代信息检索导论 教学课件.ppt
- Lecture4 信息安全测评与风险评估 教学课件.ppt
- Lecture3 雅思阅读课件.ppt
- lecture_3 美国文学史课件.ppt
- lecture_4 美国文学史课件.ppt
- Lecture6 信息安全测评与风险评估 教学课件.ppt
- Lecture_1 英美国家概况 教学课件.ppt
- lecture_5 美国文学史课件.ppt
- lecture9-queryexpansion 第9讲 相关反馈及查询扩展 现代信息检索导论 教学课件.ppt
- lecture_4 英美国家概况 教学课件.ppt
文档评论(0)