中文词语分析一体化系统.pptVIP

  • 1
  • 0
  • 约4.65千字
  • 约 30页
  • 2017-06-10 发布于四川
  • 举报
张华平 刘 群 zhanghp@software.ict.ac.cn 中科院计算技术研究所 2002-5-28 纲要 问题背景与难点分析 主要研究方法与相关系统 我们的研究思路—基于多层HMM的一体化方法 基于N-最短路径的词语粗分 基于角色标注的未登录词识别 计算所中文词语一体化分析系统ICTCLAS 结论 问题背景与难点分析 问题背景 问题背景与难点分析 II 分词的必要性 问题背景与难点分析 III 中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 问题背景与难点分析 IV 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 最终识别 多样性 复杂性 上下文干扰 主要研究方法与相关系统 当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误驱动方法等) 主要研究方法与相关系统II 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典

文档评论(0)

1亿VIP精品文档

相关文档