中文分词.pptVIP

下载本文档

31
0
约4.67千字
约 43页
2016-08-06 发布于河南
举报
版权申诉

中文分词.ppt

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词

中文分词一席谈 suntian@ 内容提要中文分词概述分词技术发展国际分词评测分词技术总结中文分词概述什么是分词？分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理” 中文分词概述（Cont.）分词作用互联网绝大多数应用都需要分词，典型应用实例汉字处理：拼音输入法、手写识别、简繁转换 … 信息检索：Google 、Baidu … 内容分析：机器翻译、广告推荐、内容监控 … 语音处理：语音识别、语音合成 … … 中文分词概述（Cont.）分词难点歧义无处不在交叉歧义（多种切分交织在一起）内塔内亚胡说的/确实/在理组合歧义（不同情况下切分不同）这个人/手上有痣我们公司人手真歧义（几种切分都可以）乒乓球拍/卖/完了乒乓球/拍卖/完了中文分词概述（Cont.）分词难点新词层出不穷人名、地名、机构名奥巴马长坂坡耀华路网名你是我的谁旺仔小馒头公司名、产品名摩托罗拉谷歌爱国者腾讯网易新浪诺基亚C5 尼康D700 中文分词概述（Cont.）分词难点普通词与新词互用高明表演真好（演员）/他的表演很高明汪洋到深圳检查工作/洞庭湖一片汪洋普通词与新词交织在一起克林顿对内塔尼亚胡说胡锦涛听取龚学平等同志的汇报中文分词概述（Cont.）分词难点（需要重新处理）需求多种多样切分速度：搜索引擎VS单机版语音合成结果呈现：切分粒度要求不同：机器翻译VS搜索引擎分词重点要求不同：语音合成VS搜索引擎唯一结果VS多结果：语音合成VS搜索引擎新词敏感度不同：语音合成VS搜索引擎处理对象：书面文本(规范/非规范)VS口语文本硬件平台：嵌入式VS单机版VS服务器版内容提要中文分词概述分词技术发展国际分词评测分词技术总结分词技术发展机械分词（查词典）北京航天航空大学梁南元教授提出，典型算法有： FMM/BMM 全切分统计分词产生式统计分词判别式统计分词理解分词仅仅是人们期望，不能投入实用机械分词实例小沈阳演出收入分成均为9:1 FMM：小沈阳/演出/收入/分成/均/为/9:1 （正确） BMM：小沈阳/演出/收入/分成/均/为/9:1 （正确）小沈阳演出收入分成都是9:1 BMM：小沈阳/演出/收入/分成/都/是/9:1 （正确） FMM：小沈阳/演出/收入/分/成都/是/9:1 （错误）词典小沈阳沈阳演出分成成都都均为是 9:1 FMM/BMM：把句子从左向右（从右向左）扫描一遍，遇到字典里有的最长词就标识出来，遇到不认识的字串就分割成单字词。机械分词（Cont.）内塔尼亚胡胡说说的的确确实实在在理词典实例内塔尼亚胡说的确实在理 FMM：内塔尼亚胡/说/的确/实在/理（错误） BMM：内塔尼亚/胡说/的/确实/在理（错误）词典从哪里来？机械分词（Cont.）全切分：获得文本所有可能的切分结果，得到所有切分单元搜索引擎中机械分词（Cont.）优点程序简单易行，开发周期短没有任何复杂计算，分词速度快不足不能处理歧义不能识别新词分词精度不能满足实际的需要（规范文本 80%，互联网文本在70%左右）统计分词生成式统计分词判别式统计分词生成式分词原理首先建立学习样本的生成模型，再利用模型对预测结果进行间接推理两个假设前提马尔可夫假设当前状态出现的概率仅同过去有限的历史状态有关，而与其他状态无关。具体到分词任务，就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词，而与其他词无关。输出独立性假设当前状态的输出仅仅取决于当前状态本身，而与其他状态无关。生成式分词（Cont.） Na?ve N-gram分词模型学习过程(利用MLE估计) P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1) 分词过程 W：分词结果 O：待分词文本生成式分词（Cont.）学习素材句子切分结果分词知识库分词词典生成式分词（Cont.）分词过程实例第一步：全切分生成式分词（Cont.）第二步：Viterbi动态规划，找到贯穿句子的路径并计算每条路径的概率 P1=P(说|他)*P (的|说)*P(确实|的)*P(在理|确实)*P($End|在理) P2=P(说|他)*P (的确|说)*P(实在|的确)*P(理|实在)*P($End|理) 第三步：选择概率最大的路径为切分结果生成式分词（Cont.） Class-based Ngram Ngram分词评价能够处理大多数常用词带来的歧义问题不能处理新词以及新词带来的歧义问题解决之道：Class-ba