中文分词.pptVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词

中文分词一席谈 suntian@ 内容提要 中文分词概述 分词技术发展 国际分词评测 分词技术总结 中文分词概述 什么是分词? 分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理” 中文分词概述(Cont.) 分词作用 互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音输入法、手写识别、简繁转换 … 信息检索:Google 、Baidu … 内容分析:机器翻译、广告推荐、内容监控 … 语音处理:语音识别、语音合成 … … 中文分词概述(Cont.) 分词难点 歧义无处不在 交叉歧义(多种切分交织在一起) 内塔内亚胡说的/确实/在理 组合歧义(不同情况下切分不同) 这个人/手上有痣 我们公司人手 真歧义(几种切分都可以) 乒乓球拍/卖/完了 乒乓球/拍卖/完了 中文分词概述(Cont.) 分词难点 新词层出不穷 人名、地名、机构名 奥巴马 长坂坡 耀华路 网名 你是我的谁 旺仔小馒头 公司名、产品名 摩托罗拉 谷歌 爱国者 腾讯 网易 新浪 诺基亚C5 尼康D700 中文分词概述(Cont.) 分词难点 普通词与新词互用 高明表演真好(演员)/他的表演很高明 汪洋到深圳检查工作/洞庭湖一片汪洋 普通词与新词交织在一起 克林顿对内塔尼亚胡说 胡锦涛听取龚学平等同志的汇报 中文分词概述(Cont.) 分词难点(需要重新处理) 需求多种多样 切分速度:搜索引擎VS单机版语音合成 结果呈现: 切分粒度要求不同:机器翻译VS搜索引擎 分词重点要求不同:语音合成VS搜索引擎 唯一结果VS多结果:语音合成VS搜索引擎 新词敏感度不同:语音合成VS搜索引擎 处理对象:书面文本(规范/非规范)VS口语文本 硬件平台:嵌入式VS单机版VS服务器版 内容提要 中文分词概述 分词技术发展 国际分词评测 分词技术总结 分词技术发展 机械分词(查词典) 北京航天航空大学 梁南元教授提出,典型算法有: FMM/BMM 全切分 统计分词 产生式统计分词 判别式统计分词 理解分词 仅仅是人们期望,不能投入实用 机械分词 实例 小沈阳演出收入分成均为9:1 FMM:小沈阳/演出/收入/分成/均/为/9:1 (正确) BMM:小沈阳/演出/收入/分成/均/为/9:1 (正确) 小沈阳演出收入分成都是9:1 BMM:小沈阳/演出/收入/分成/都/是/9:1 (正确) FMM:小沈阳/演出/收入/分/成都/是/9:1 (错误) 词典 小沈阳 沈阳 演出 分成 成都 都 均 为 是 9:1 FMM/BMM:把句子从左向右(从右向左)扫描一遍,遇到字典里有的最长词就标识出来,遇到不认识的字串就分割成单字词。 机械分词(Cont.) 内塔尼亚胡 胡说 说 的 的确 确实 实在 在理 词典 实例 内塔尼亚胡说的确实在理 FMM:内塔尼亚胡/说/的确/实在/理(错误) BMM:内塔尼亚/胡说/的/确实/在理(错误) 词典从哪里来? 机械分词(Cont.) 全切分:获得文本所有可能的切分结果,得到所有切分单元 搜索引擎中 机械分词(Cont.) 优点 程序简单易行,开发周期短 没有任何复杂计算,分词速度快 不足 不能处理歧义 不能识别新词 分词精度不能满足实际的需要(规范文本 80%,互联网文本在70%左右) 统计分词 生成式统计分词 判别式统计分词 生成式分词 原理 首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理 两个假设前提 马尔可夫假设 当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。 输出独立性假设 当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。 生成式分词(Cont.) Na?ve N-gram分词模型 学习过程(利用MLE估计) P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1) 分词过程 W:分词结果 O:待分词文本 生成式分词(Cont.) 学习 素材 句子 切分 结果 分词 知识库 分词 词典 生成式分词(Cont.) 分词过程实例 第一步:全切分 生成式分词(Cont.) 第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率 P1=P(说|他)*P (的|说)*P(确实|的)*P(在理|确实)*P($End|在理) P2=P(说|他)*P (的确|说)*P(实在|的确)*P(理|实在)*P($End|理) 第三步:选择概率最大的路径 为切分结果 生成式分词(Cont.) Class-based Ngram Ngram分词评价 能够处理大多数常用词带来的歧义问题 不能处理新词以及新词带来的歧义问题 解决之道:Class-ba

文档评论(0)

abf4675328 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档