中文词语分析一体化系统-pku.ppt.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文词语分析一体化系统-pku.ppt

张华平 刘 群 zhanghp@software.ict.ac.cn 中科院计算技术研究所 2002-5-28 纲要 问题背景与难点分析 主要研究方法与相关系统 我们的研究思路—基于多层HMM的一体化方法 基于N-最短路径的词语粗分 基于角色标注的未登录词识别 计算所中文词语一体化分析系统ICTCLAS 结论 问题背景与难点分析 问题背景 问题背景与难点分析 II 分词的必要性 问题背景与难点分析 III 中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 问题背景与难点分析 IV 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 最终识别 多样性 复杂性 上下文干扰 主要研究方法与相关系统 当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误驱动方法等) 主要研究方法与相关系统II 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交叉歧义的切之,否则全切分。 动态规划和全切分搜索+叶子评价 主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin中的中文词语分析词系统 双向的Chart Parsing,使用了语法规则并以概率模型作导向 切词-句法分析一体化 北大计算语言所分词和词类标注系统 分词和词类标注结合起来 基于规则的标注排歧与基于语料库统计模型的排歧结合 处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理 主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨): 规则与统计的结合,更大意义上是一种组合,两种处理出现在系统中相对独立的两个不同阶段。 排歧、识别未登录词更多的是利用规则,难以量化。即使量化,也很难和普通词实现真正量值上的比较。 歧义字段、未登录词作为特殊情况处理,后期处理中没有与普通词统一。 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣称的那样理想,尤其是在未登录词、歧义字段存在的情况里。 我们的研究思路 —基于多层HMM的一体化方法 目标: 分词、词性标注的一体化;未登录词与普通词处理的一体化;评估体系一体化。 基本思想: 采取HMM模型,建立切分词图。词语粗分阶段,先得出N个概率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视它为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。 基于多层HMM的一体化方法II 基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率 P((W,T)|C) =ΠP(ti|ti-1)P(wi|ti).…………………………….(1) P*(W,T)=lnP(W,T) =ln Π P(wi|ti) =Σ ln P(ti|ti-1) + Σ ln P(wi|ti) …………………….(2) ∴ 评价函数或者决策函数如下: (W,T)*= [Σ ln P(ti|ti-1) + Σ ln P(wi|ti)] 基于多层HMM的一体化方法IV 一体化需要解决的主要问题 排歧问题 未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)? 基于N-最短路径的词语粗分 基本思想 根据词典,建立字串词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1, 第2,…,第i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。 基于N-最短路径的词语粗分II 出发点 实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能,另一方面又大大解决了

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档