- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
汉语分词2020年11月ChineseWordSegmentation汇报人:庞皓阳,李燈杰,高依萌、刘硕、崔酉至、党迎旭
1概述2机械匹配分词3统计学习分词4神经网络分词5分词最新进展6分词工具及评估
概述01汇报人:庞皓阳
什么是分词1.1我们:importjieba;jieba.cut()真正的分词:n-gram、词典、HMM序列标注分词是做自然语言处理问题的上游预处理的工具
为什么要汉语分词1.2不像英语词与词之间有空格分开词是最小的有意义的语言单元,不是字(如果要是字就一个一个都拆分)下游的应用,比如句法分析、情感分析、QA、文档分类都少不了分词
汉语分词难点1.3重叠词、离合词、词缀来来回回,高高兴兴洗了一个澡,担什么心玩儿,重要性歧义问题我画了一/直线我/一直/在写作业南京市/长江/大桥南京/市长/江大桥[医生对喝酒的病人说:]“小心/肝”[爱人对你说:]“小/心肝”
汉语分词难点1.3未登录词识别(OOV):命名实体、新词术语往往不能全部收录到分词词典中,一般分词系统的词典是静态的。例:龚学平等领导实体名词包括有:中国人名:张三中国地名:白沟翻译人名:川普翻译地名:河南机构名:联想集团专业术语和新词语专业术语:逻辑回归最大熵支持向量机缩略语:三个代表五位一体新词语:吃鸡走马灯农药
分词发展和未来方向1.4
分词发展和未来方向1.4
分词发展和未来方向1.4
分词发展和未来方向1.4
分词发展和未来方向1.4
理想的分词系统1.5新词自动识别词性输出+动态词性输出智能歧义解决数词量词优化
机械匹配分词02汇报人:李燈杰
机械匹配方法:在待分析句子中根据词典寻找词语机械匹配算法简介2.1待分析字符串识别分词结果机器词典匹配匹配成功
常用机械匹配算法2.21)正向最大匹配法FMM(由左到右的方向)2)逆向最大匹配法RMM(由右到左的方向)3)双向扫描算法(FMM+RMM)4)最短路径算法(Dijkstra)
研究生命的起源字典:研究研究生生命起源正向最大匹配算法FMM2.3两个词在词典中研究生命的起源研究生命的起源研究生命的起源最大匹配长度为3
研究生命的起源逆向最大匹配算法RMM2.4三个词在词典中字典:研究研究生生命起源最大匹配长度为3研究生命的起源研究生命的起源研究生命的起源
分别执行正向最大匹配法和逆向最大匹配法原则:大颗粒度词越多越好,单字越少越好91%结果相同9%结果不同90%全部正确1%全部错误有一个正确双向最大匹配方法2.5
最短路径算法2.6最短路径:0-1-2-4-6-7分词结果:他|说|的确|实在|理|。节点:字边:相邻两个字或词尾的字与词前的字权值:可以全为1,也可以与词频相关
统计学习分词03汇报人:崔酉至
基于统计的分词算法简介3.1统计分词方法的核心思想:如果若干个字经常连在一起,那么这很可能就是一个词!
常用统计分词算法3.21)N元语法模型(N-Gram)2)互信息模型3)最大熵模型(ME)4)隐马尔可夫(HMM)
N元语言模型(N-Gram)3.3N-gram模型主要思想:假设第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关。如果使用词有20000个,那么:模型参数二元语法模型200001×19999=4×108三元语法模型200002×19999=8×1012四元语法模型200003×19999=1.6×1017
N元语言模型(N-Gram)3.3最大似然估计方法:以词频代替概率借助此式可以得出整个句子的概率
N元语言模型(N-Gram)3.3以二元语言模型为例例句:去北京旅游可以切成5个词(1种切法)、4个词(4种切法)、3个词(3种切法)Pmax(s)=P(去|B)*P(北京|去)*P(旅游|北京)*P(E|旅游)
互信息模型3.4H(X)H(Y)H(X,Y)H(X|Y)H(Y|X)I(X;Y)
最大熵模型(ME)3.5最大熵模型的作用是词义消歧。从语料库中获取足够的约束条件将所有特征逐一加入集合选取使熵增加最大的特征加入集合
隐马尔可夫模型(HMM)3.6马尔可夫模型:当前状态只与上一个时间节点状态有关隐马尔可夫模型:当前隐含状态只与上一个时间节点隐含状态有关x(t-1)y(t-1)x(t)y(t)x(t+1)y(t+1)?
隐马尔可夫模型(HMM)3.6隐马尔可夫模型的三个假设有限历史性假设(只与上一个时刻有关)齐次性假设(状态和当前时刻无关)观察值独立性假设(观察值只取决于当前状态值)
隐马尔可夫模型(HMM)3.6隐马尔可夫模型的结构StatusSet状态值集合ObservedSet观察值集合TransProbMatrix转移概率矩阵EmitProbMatrix发射状态矩阵I
文档评论(0)