搜索引擎中的查询纠错方法.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎中的查询纠错方法 周博 智能技术与系统国家重点实验室 导师:马少平 教授 2008 年 10 月 内容提要 ? 问题描述 ? 查询预处理 ? 正确性判断 ? 候选集合生成 ? 候选评分 ? 测试 问题描述 ? 拼写纠错 – 拼写纠错是一个首先 判断拼写正确性 ,最后对 错误的拼写 给出其正确形式 的过程。 ? 查询拼写纠错 – 针对搜索引擎查询的拼写纠错,这里简称查询 纠错。 问题描述 ? 查询纠错的意义 – 据统计,输入英文搜索引擎的查询中有 10-15% 含有拼写错误 [Cucerzan 2004] 。 – 在中文搜索引擎中 ,包含拼写错误的查询的 比 例更高 ,错误 种类更多 。 问题描述 ? 查询纠错问题的特殊性 – 查询的 长度较短 ,导致无法使用基于上下文的 纠错方法。 – 查询中包含大量动态变化的 新词 ,导致查询的 拼写正确性很难判断。例如: naboo 、 aznar 、 shrek 问题描述 ? 查询纠错的一般过程 – 查询预处理 – 拼写正确性判断 – 候选集合生成 – 候选评分 内容提要 ? 问题描述 ? 查询预处理 ? 正确性判断 ? 候选集合生成 ? 候选评分 ? 测试 查询预处理 ? 查询的类型 – 中文查询 – 英文查询 – 拼音查询 – 混合查询 查询预处理 ? 预处理流程 – 中文与英文字母拆开 – 中文交 中文查询纠错 处理 – 英文字母交 拼音纠错 处理 ? 是拼音的还原成最有可能的中文查询 ? 不是拼音的交 英文查询纠错 处理 查询预处理 拼写错误查询 纠错结果 方法 中文纠错 中国娱伦监督网 中国舆论监督网 baomazhuanmai avri lavigne 猛牛 niunai 宝马专卖 avril lavigne 蒙牛牛奶 拼音纠错 英文纠错 中文 + 拼音 内容提要 ? 问题描述 ? 查询预处理 ? 正确性判断 ? 候选集合生成 ? 候选评分 ? 测试 正确性判断 ? 不进行正确性判断(中文纠错) – 将查询本身加入候选集合 – 参与候选集合评分 – 认为正确的查询应该在其候选集合中评分最高 正确性判断 ? 基于置信词典进行判断(英文纠错) – 置信词典构建时利用的资源 ? 传统词典 ? 维基百科 ? 百度百科 ? 搜索引擎查询日志 内容提要 ? 问题描述 ? 查询预处理 ? 正确性判断 ? 候选集合生成 ? 候选评分 ? 测试 候选集合生成 ? 通过 字型相似度 生成候选集合 – 编辑距离(四种编辑操作)是一般采用的衡量 英文单词间字型相似度的方法 – 在英文纠错中,我们扩展了传统编辑距离中的 编辑操作,增加了 4 种新的编辑操作,并且训 练出了每种编辑操作的权重 – 将字型相似度在一定阈值范围内的查询加入候 选集合 候选集合生成 - 字形相似度 ? 扩展后的编辑操作列表 – 操作 1 :插入一个字符; – 操作 2 :删除一个字符; – 操作 3 :替换一个字符; – 操作 4 :交换相邻两个字符的位置; – 操作 5 :一个字符与其位置靠后且相隔一个字符位置的字符交换位 置; – 操作 6 :一个字符与其位置相邻且靠后的两个字符交换位置; – 操作 7 :两个相邻字符与其位置相邻且靠后的一个字符交换位置; – 操作 8 :对于操作 1-7 中的生成的候选形式,利用操作 1-7 进行第二 轮候选生成,若第二轮生成的候选形式的错误倾向性大于一定阈值 ,则叠加操作为一个编辑操作。 候选集合生成 - 字形相似度 ? 权重训练时的限制 – 若候选的第一字母与查询不同,该候选在字形 相似度计算的时候会有相应的惩罚(惩罚与查 询的长度成正比)。 候选集合生成 ? 通过 语音相似度 生成候选集合 – 英文可以使用 Double Metaphone 等衡量语音相 似度的方法 – 中文主要是利用拼音串之间的编辑距离衡量语 音相似度 ? 拼音串间的编辑距离计算需要考虑 模糊音 的因素 – 将语音相似度在一定阈值范围内的查询加入候 选集合 – 中文纠错在生成候选时还需

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档