中文分词词性标注系统.pptVIP

  • 2
  • 0
  • 约4.93千字
  • 约 29页
  • 2017-05-21 发布于四川
  • 举报
中文自动分词系统IRSEG 设计与实现 高立琦 王卓然 2004.9.20 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 中文分词的意义和用途 汉语的特点 最小书写单位为字 最小表意单位为词 词与词之间没有书写边界 分词系统的用途 各种中文信息处理系统的基础模块 自然语言处理 信息检索 … 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 IRSEG系统框架设计 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 数学模型与原理分析 信道噪声模型 设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。 分词系统的任务是,找到一种切分结果W*,满足: 根据贝叶斯公式: 假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型) 则: 为了实现上的方便,我们对上述公式取负对数,得到: 数学模型

文档评论(0)

1亿VIP精品文档

相关文档