中文词语分析一体化系统-pku.ppt.ppt

下载文档 降价啦

3
0
约4.65千字
约 30页
2017-06-24 发布于天津
举报
版权申诉
保障服务

中文词语分析一体化系统-pku.ppt.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文词语分析一体化系统-pku.ppt

张华平刘群 zhanghp@software.ict.ac.cn 中科院计算技术研究所 2002-5-28 纲要问题背景与难点分析主要研究方法与相关系统我们的研究思路—基于多层HMM的一体化方法基于N-最短路径的词语粗分基于角色标注的未登录词识别计算所中文词语一体化分析系统ICTCLAS 结论问题背景与难点分析问题背景问题背景与难点分析 II 分词的必要性问题背景与难点分析 III 中文词语分析的主要难点歧义交叉歧义(86%): 结合成分子时组合歧义(14%): 这个人手上有痣；我们缺人手全局歧义与局部歧义: 乒乓球拍/卖/完了；乒乓球/拍卖/完了；我很/难过问题背景与难点分析 IV 未登录词问题干扰作用克林顿对内塔尼亚胡说龚学平等领导最终识别多样性复杂性上下文干扰主要研究方法与相关系统当前主要的研究方法基于规则的方法最大匹配法（Maximum Matching）正向、逆向、双向最优路径（+词频选择）法（最少分词法）基于统计的方法 (N元语法，HMM) 基于规则和基于统计相结合其他的一些方法 (压缩，自监督，基于转移的错误驱动方法等) 主要研究方法与相关系统II 当前主要的中文词语分析系统哈工大统计分词系统自动化所三元统计模型清华大学SEGTAG系统词典中的每一个重要的词都加上了切分标志无条件切出qk类词；完全切分ck类词；其他无交叉歧义的切之，否则全切分。动态规划和全切分搜索+叶子评价主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin中的中文词语分析词系统双向的Chart Parsing，使用了语法规则并以概率模型作导向切词-句法分析一体化北大计算语言所分词和词类标注系统分词和词类标注结合起来基于规则的标注排歧与基于语料库统计模型的排歧结合处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨)：规则与统计的结合，更大意义上是一种组合，两种处理出现在系统中相对独立的两个不同阶段。排歧、识别未登录词更多的是利用规则，难以量化。即使量化，也很难和普通词实现真正量值上的比较。歧义字段、未登录词作为特殊情况处理，后期处理中没有与普通词统一。没有相对统一的处理模型和评估体系。最终导致：准确率、召回率在开放测试的条件下并不像宣称的那样理想，尤其是在未登录词、歧义字段存在的情况里。我们的研究思路—基于多层HMM的一体化方法目标：分词、词性标注的一体化；未登录词与普通词处理的一体化；评估体系一体化。基本思想：采取HMM模型，建立切分词图。词语粗分阶段，先得出N个概率最大的切分结果。然后，利用角色标注方法识别未登录词，并计算其概率，将未登录词加入到切分词图中，之后视它为普通词处理，最终进行动态规划优选出N个最大概率切分标注结果。基于多层HMM的一体化方法II 基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率 P((W,T)|C) =ΠP(ti|ti-1)P(wi|ti).…………………………….(1) P*(W,T)=lnP(W,T) =ln Π P(wi|ti) =Σ ln P(ti|ti-1) + Σ ln P(wi|ti) …………………….(2) ∴ 评价函数或者决策函数如下： (W,T)*= [Σ ln P(ti|ti-1) + Σ ln P(wi|ti)] 基于多层HMM的一体化方法IV 一体化需要解决的主要问题排歧问题未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)? 基于N-最短路径的词语粗分基本思想根据词典，建立字串词语切分有向无环图。每个词对应图中的一条有向边，并赋给相应的边长（权值）。然后针对该切分图，在起点到终点的所有路径中，求出长度值按严格升序排列（任何两个不同位置上的值一定不等，下同）依次为第1，第2，…，第i，…，第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等，那么他们的长度并列第i，都要列入粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集合大小大于或等于N。基于N-最短路径的词语粗分II 出发点实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能，另一方面又大大解决了