- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎中的查询纠错方法
测试 对3087个英文查询效果进行横向比较 纠错系统 精度 百度 93.3% 谷歌 86.8% 我们 88.5% Thank you! Questions or comments? * 搜索引擎中的查询纠错方法 周博 智能技术与系统国家重点实验室 导师:马少平 教授 2008年10月 内容提要 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 问题描述 拼写纠错 拼写纠错是一个首先判断拼写正确性,最后对错误的拼写给出其正确形式的过程。 查询拼写纠错 针对搜索引擎查询的拼写纠错,这里简称查询纠错。 问题描述 查询纠错的意义 据统计,输入英文搜索引擎的查询中有10-15%含有拼写错误[Cucerzan 2004]。 在中文搜索引擎中 ,包含拼写错误的查询的比例更高,错误种类更多。 问题描述 查询纠错问题的特殊性 查询的长度较短,导致无法使用基于上下文的纠错方法。 查询中包含大量动态变化的新词,导致查询的拼写正确性很难判断。例如:naboo、aznar、shrek 问题描述 查询纠错的一般过程 查询预处理 拼写正确性判断 候选集合生成 候选评分 内容提要 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 查询预处理 查询的类型 中文查询 英文查询 拼音查询 混合查询 查询预处理 预处理流程 中文与英文字母拆开 中文交中文查询纠错处理 英文字母交拼音纠错处理 是拼音的还原成最有可能的中文查询 不是拼音的交英文查询纠错处理 查询预处理 拼写错误查询 纠错结果 方法 中国娱伦监督网 中国舆论监督网 中文纠错 baomazhuanmai 宝马专卖 拼音纠错 avri lavigne avril lavigne 英文纠错 猛牛niunai 蒙牛牛奶 中文+拼音 内容提要 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 正确性判断 不进行正确性判断(中文纠错) 将查询本身加入候选集合 参与候选集合评分 认为正确的查询应该在其候选集合中评分最高 正确性判断 基于置信词典进行判断(英文纠错) 置信词典构建时利用的资源 传统词典 维基百科 百度百科 搜索引擎查询日志 内容提要 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 候选集合生成 通过字型相似度生成候选集合 编辑距离(四种编辑操作)是一般采用的衡量英文单词间字型相似度的方法 在英文纠错中,我们扩展了传统编辑距离中的编辑操作,增加了4种新的编辑操作,并且训练出了每种编辑操作的权重 将字型相似度在一定阈值范围内的查询加入候选集合 候选集合生成-字形相似度 扩展后的编辑操作列表 操作1:插入一个字符; 操作2:删除一个字符; 操作3:替换一个字符; 操作4:交换相邻两个字符的位置; 操作5:一个字符与其位置靠后且相隔一个字符位置的字符交换位置; 操作6:一个字符与其位置相邻且靠后的两个字符交换位置; 操作7:两个相邻字符与其位置相邻且靠后的一个字符交换位置; 操作8:对于操作1-7中的生成的候选形式,利用操作1-7进行第二轮候选生成,若第二轮生成的候选形式的错误倾向性大于一定阈值,则叠加操作为一个编辑操作。 候选集合生成-字形相似度 权重训练时的限制 若候选的第一字母与查询不同,该候选在字形相似度计算的时候会有相应的惩罚(惩罚与查询的长度成正比)。 候选集合生成 通过语音相似度生成候选集合 英文可以使用Double Metaphone等衡量语音相似度的方法 中文主要是利用拼音串之间的编辑距离衡量语音相似度 拼音串间的编辑距离计算需要考虑模糊音的因素 将语音相似度在一定阈值范围内的查询加入候选集合 中文纠错在生成候选时还需要满足拼音规则 候选集合生成 模糊音 表1:模糊音错别字分类 类别 说明 举例 平舌音/翘舌音 拼音开始声母: c~ch, s~sh, z~zh, (“入党自愿书”, “入党志愿书”) 前鼻音/后鼻音 拼音最末韵母: an~ang, en~eng, in~ing (”圣斗士新矢”, “圣斗士星矢”) 方言口音 拼音开始声母: L~n, f~h, r~l, k~g (”摩托诺拉”, “摩托罗拉”) 内容提要 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 候选集合评分-模型 语言模型与错误模型 P(c|q) = P(q|c)P(c) 语言模型P(c) 错误模型P(q|c) 候选集合评分-特征 错误倾向性特征 某查询q的错误倾向性是将其所有错误形式的查询频次加和 查询返回结果网页数 查询是否为网页标题 查询是否为URL 候选集合评分-特征 候选集合评分-特征 候选集合评分-特征 字型相似度Dist(q,c) 语音相
您可能关注的文档
- 投资概要.doc
- 投资理财-如何理财.doc
- 投资理财工具的综合分析.ppt
- 投资理财探讨.ppt
- 投资理财的新星——私募基金介绍.ppt
- 投资者债券逆回购详细操作指南.doc
- 投资者如何分析上市公司财务报表.doc
- 投资英国,你了解多少.doc
- 投资项目尽职调查提纲.doc
- 投资项目经济评价方法应用讲座.ppt
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
文档评论(0)