- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词
中文分词一席谈
suntian@
内容提要
中文分词概述
分词技术发展
国际分词评测
分词技术总结
中文分词概述
什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例
汉字处理:拼音输入法、手写识别、简繁转换 …
信息检索:Google 、Baidu …
内容分析:机器翻译、广告推荐、内容监控 …
语音处理:语音识别、语音合成 …
…
中文分词概述(Cont.)
分词难点
歧义无处不在
交叉歧义(多种切分交织在一起)
内塔内亚胡说的/确实/在理
组合歧义(不同情况下切分不同)
这个人/手上有痣
我们公司人手
真歧义(几种切分都可以)
乒乓球拍/卖/完了
乒乓球/拍卖/完了
中文分词概述(Cont.)
分词难点
新词层出不穷
人名、地名、机构名
奥巴马 长坂坡 耀华路
网名
你是我的谁 旺仔小馒头
公司名、产品名
摩托罗拉 谷歌 爱国者 腾讯 网易 新浪
诺基亚C5 尼康D700
中文分词概述(Cont.)
分词难点
普通词与新词互用
高明表演真好(演员)/他的表演很高明
汪洋到深圳检查工作/洞庭湖一片汪洋
普通词与新词交织在一起
克林顿对内塔尼亚胡说
胡锦涛听取龚学平等同志的汇报
中文分词概述(Cont.)
分词难点(需要重新处理)
需求多种多样
切分速度:搜索引擎VS单机版语音合成
结果呈现:
切分粒度要求不同:机器翻译VS搜索引擎
分词重点要求不同:语音合成VS搜索引擎
唯一结果VS多结果:语音合成VS搜索引擎
新词敏感度不同:语音合成VS搜索引擎
处理对象:书面文本(规范/非规范)VS口语文本
硬件平台:嵌入式VS单机版VS服务器版
内容提要
中文分词概述
分词技术发展
国际分词评测
分词技术总结
分词技术发展
机械分词(查词典)
北京航天航空大学 梁南元教授提出,典型算法有:
FMM/BMM
全切分
统计分词
产生式统计分词
判别式统计分词
理解分词
仅仅是人们期望,不能投入实用
机械分词
实例
小沈阳演出收入分成均为9:1
FMM:小沈阳/演出/收入/分成/均/为/9:1 (正确)
BMM:小沈阳/演出/收入/分成/均/为/9:1 (正确)
小沈阳演出收入分成都是9:1
BMM:小沈阳/演出/收入/分成/都/是/9:1 (正确)
FMM:小沈阳/演出/收入/分/成都/是/9:1 (错误)
词典
小沈阳
沈阳
演出
分成
成都
都
均
为
是
9:1
FMM/BMM:把句子从左向右(从右向左)扫描一遍,遇到字典里有的最长词就标识出来,遇到不认识的字串就分割成单字词。
机械分词(Cont.)
内塔尼亚胡
胡说
说
的
的确
确实
实在
在理
词典
实例
内塔尼亚胡说的确实在理
FMM:内塔尼亚胡/说/的确/实在/理(错误)
BMM:内塔尼亚/胡说/的/确实/在理(错误)
词典从哪里来?
机械分词(Cont.)
全切分:获得文本所有可能的切分结果,得到所有切分单元
搜索引擎中
机械分词(Cont.)
优点
程序简单易行,开发周期短
没有任何复杂计算,分词速度快
不足
不能处理歧义
不能识别新词
分词精度不能满足实际的需要(规范文本 80%,互联网文本在70%左右)
统计分词
生成式统计分词
判别式统计分词
生成式分词
原理
首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理
两个假设前提
马尔可夫假设
当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。
输出独立性假设
当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。
生成式分词(Cont.)
Na?ve N-gram分词模型
学习过程(利用MLE估计)
P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1)
分词过程
W:分词结果
O:待分词文本
生成式分词(Cont.)
学习
素材
句子
切分
结果
分词
知识库
分词
词典
生成式分词(Cont.)
分词过程实例
第一步:全切分
生成式分词(Cont.)
第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率
P1=P(说|他)*P (的|说)*P(确实|的)*P(在理|确实)*P($End|在理)
P2=P(说|他)*P (的确|说)*P(实在|的确)*P(理|实在)*P($End|理)
第三步:选择概率最大的路径 为切分结果
生成式分词(Cont.)
Class-based Ngram
Ngram分词评价
能够处理大多数常用词带来的歧义问题
不能处理新词以及新词带来的歧义问题
解决之道:Class-ba
您可能关注的文档
- 聂明中总第52课时西师版九册第五单元语文教案.doc
- 日本地名简单梳理.doc
- 地名规划蓝本.doc
- 苏州地名与文化名人.doc
- 天津各区地名的由来.doc
- 四年级语文上册第八单元教学设计.doc
- 常用地名代码表.doc
- 《晏子使楚》中考试题.doc
- 数千名圣斗士集结 打造中国最强音.doc
- 人教版小学语文三年级上册第19课《赵州桥》+ppt课件.ppt
- 2025年高考物理真题完全解读(上海卷).doc
- 2025年高考数学真题分类汇编——等式不等式(全国通用)(解析版).doc
- 精品解析:2022年湖北省咸宁市、孝感市中考语文真题(原卷版).doc
- 2025年吉林省中考-语文.doc
- 精品解析: 2025年甘肃省白银市中考英语真题(原卷版).doc
- 精品解析:2022年山东省德州市中考语文真题(解析版).doc
- 精品解析:2022年山东省德州市中考语文真题(原卷版).doc
- 精品解析:2022年青海省中考语文真题(原卷版).doc
- 精品解析:2022年宁夏回族自治区中考语文真题(原卷版).doc
- 精品解析:2022年内蒙古通辽市中考语文真题(原卷版).doc
最近下载
- GB50863-2013 尾矿设施设计规范.docx VIP
- 2025年陕西省二级造价工程师职业资格考试《基础知识》真题及答案.docx VIP
- 人教版PEP三年级英语下册全册同步练习随堂练习一课一练版(有答案).pdf VIP
- 彩钢管理房单元工程施工质量评定表(1).doc VIP
- 江西婺源篁岭民俗文化村发展规划--规划说明.pdf
- IATF16949-2016事态升级控制规范.doc VIP
- 新收入准则对电商企业运营的影响及应对策略.docx VIP
- 东莞市地图含区县可编辑可填充动画演示矢量分层地图PPT模板.pptx VIP
- XX县2022年度自然资源统一确权登记项目技术设计书模版.docx VIP
- 女儿墙维修工程施工方案(3篇).docx VIP
文档评论(0)