中文词语剖析一体化系统.pptVIP

  • 1
  • 0
  • 约1.37千字
  • 约 30页
  • 2020-09-15 发布于福建
  • 举报
一唤化 张华平刘群 hanghp( software ict ac cn 中科院计算技术研究所 2002-5-28 纲要 问题背景与难点分析 主要研究方法与相关系统 我们的研究思路—基于多层HM的一体化 方法 基于N-最短路径的词语粗分 °基于角色标注的未登录词识别 计算所中文词语一体化分析系统 ICTCLAS 题背景与难点分析 问题背景 今汉语的书面语是按句分开的,词与词之间没有 明确的分隔标记。 今词是最小的能够独立活动的有意义的语言成 分 令中文信息处理只要涉及句法、语义(如检索、 翻译、文摘、校对等应用,就需要以词为基本 单位。句法分析、语句理解、自动文摘、自动 分类和机器翻译等,更是少不了词的详细信 问题背景与难点分析Ⅱ 分词的必要性 evidence phySIcS understand school physics p theory barber subject products science 理 study credit 物理学 Image reason student physicist 6×5×5=150 问题背景与难点分析II 中文词语分析的主要难点 歧义 交叉歧义(86%) 结合成分子时 组合歧义(14% 这个人手上有痣 我们缺人手 全局歧义与局部歧义 乒乓球拍/卖/完了; 乒乓球拍卖完了 我很难过 问题背景与难点分析IV 未登录词问题 干扰作

文档评论(0)

1亿VIP精品文档

相关文档