中文搜索引擎.ppt

下载文档 降价啦

4
0
约1.64千字
约 18页
2017-06-02 发布于湖北
举报
保障服务

中文搜索引擎.ppt

中文搜索引擎剖析

* * 中文搜索引擎技术第一节中文分词技术分词技术简述百度分词技术分词中的难题与发展第二节拼写检查错误提示第三节相关提示功能分析第四节 CACHE结构 CACHE的实现原理三级CACHE的设计一.什么是中文分词把中文的汉字序列切分成有意义的词。二.分词技术简述例：我/是/一个/学生 1.基于字符串匹配的分词方法按照一定的策略将待分析的汉字串与一个机器词库中的词条进行匹配。 ?常用分词方法：正向最大匹配法（由左到右的方向）例：我 /有意/ 见/ 分歧反向最大匹配法例：我 /有/意见/分歧统计结果表明:单纯使用正向最大匹配的错误率为1/169，单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。 2.基于统计的分词方法相邻的字同时出现的次数越多，就越有可能构成一个词。用于系统自动识别新词。 3.基于理解的分词方法在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。三.百度分词技术分析 1.最大分词词长：小于等于3个中文字不切割对于大于等于4个汉字的词将被分词。 2.分词算法：查询:“工地方向导” 正向最大匹配: 工地/方向/导反向最大匹配: 工/地方/向导百度采用正向最大匹配算法查询: 邓小平安定军山正向最大匹配: 邓小平/安定/军/山百度分词：邓小平/安/定军山结论：百度识别人名、影视、戏剧名等专用词，专用词库分词时优先。查询:何润东西南北(“何润东”、“东西南北”两个词) 正向最大匹配: 何润东/西/南北归纳: 首先用专有词典采用最大正向匹配分词，切分出部分结果；剩余没有切分交给普通词典，同样采取正向最大匹配分词。四.分词中的难题 1.歧义识别「这个门把手坏了」－「把手」是个词；「请把手拿开」－「把手」不是一个词；「元帅任命了一名中将」－「中将」是个词；「产量三年中将增长两倍」－「中将」不再是词。 ?真歧义「乒乓球拍卖完了」可以切分成「乒乓球拍卖完了」、也可切分成「乒乓球拍卖完了」。 2.新词识别就是那些在字典中没收录过，但又确实能称为词的那些词。「听说温家宝物非常多」「吴官正在吉林考察」收录人名本身是一项巨大的工程过多专用人名的收录很容易出现问题五.最新进展 ?设计目标: 1.无长度限制 2.歧义包容:将出现歧义的各种可能性都包含进去，作为分词的参考。 ?方案：将关系数据库的词按字打散，并存放到层次数据库中。 ?特色：分词长度限制，词的长度变成了树的高度，每一次的匹配变成了树的遍历。感冒感冒解痛散感冒解痛颗粒感冒解痛灵茶等都能匹配一.实例分析百度维持着一个同音词词典,多音字不区分百度的中文纠错和拼音检索使用的机制相同。百度是将分词词典里面每个词条利用拼音标注程序标注成拼音。查询：罗华世界有风军词长不限，专用词全部标注二.错误提示流程利用拼音标注程序对用户输入进行拼音标注用户输入查分词词典不做拼写检查匹配在同音词词典里面扫描不匹配不做提示不匹配匹配输出权重比较大的几个提示结果拼音提示流程一.如何获得用户的查询信息可对搜索引擎用户查询日志(LOG)文件做查询归类。二.如何选择提示词对于用户查询进行分词，然后对于分词后的结果来进行相似性计算。 “娱乐新闻报道”和“新闻娱乐报道”的相关提示完全一样。三.如何计算相似性并排序输出为什么增加的是“娱乐报道”和“新闻报道”的相关提示呢？ Info.Retrieval

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文搜索引擎.ppt