中文分词词性标注系统.pptVIP

下载本文档

181
0
约4.93千字
约 29页
2017-06-04 发布于北京
举报

中文分词词性标注系统.ppt

中文自动分词系统IRSEG设计与实现高立琦王卓然 2004.9.20 大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测中文分词的意义和用途汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界分词系统的用途各种中文信息处理系统的基础模块自然语言处理信息检索 … 大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测 IRSEG系统框架设计大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测数学模型与原理分析信道噪声模型设S=c1c2…cn为输入汉字序列，W=w1w2…wm为切分词序列。分词系统的任务是，找到一种切分结果W*，满足：根据贝叶斯公式：假设：一个词wi的出现概率以它前面的词的出现没有关系（Unigram模型）则：为了实现上的方便，我们对上述公式取负对数，得到：数学模型与原理分析(续) 构建分词有向图通过最短路径搜索，即得最优（概率最大）结果：结合 / 成/ 分子大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测 “N最短路径”算法设计 N最短路径的思想中科院张华平博士提出”N最短路径“粗分模型 IRSEG系统的背景哈工大信息检索研究室CUP自然语言理解平台 IRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利用高层语言信息的反馈纠正分词结果算法设计利用分词有向图的特点（有向无环图）明显减小了时间复杂度和空间复杂度 “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) 回溯得到N最优结果：结合 / 成 / 分子结合 / 成分 / 子结 / 合成 / 分子结合 / 成 / 分 / 子时间复杂度：搜索过程时间复杂度为O(k)，K为图中边的总数；保留结果过程插入排序时间复杂度O(N2)；总时间复度为O(k*N2)。大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测未登录词识别模块 Unigram的困境很有效的解决歧义字段切分问题绝大多数歧义现象为交集型歧义对未登录词识别力不从心未登录词构成极其复杂与上下文形成各种歧义自身构成形成各种歧义很多情况下需借助上下文信息 Bigram性价比很低 90%以上的问题Unigram可以解决得很好 Bigram需要很大规模的训练语料和更复杂的词典结构 Bigram解码过程复杂度高，产生N最短路径开销是可观的未登录词识别模块(续) 局部Bigram模型思想在必要的范围应用Bigram模型全局以Unigram模型为主借助平滑的思想用插值λ将不同维数概率结合起来用聚类的方法处理数据稀疏问题优点时间复杂度小（几乎与Unigram的相同）不需要大规模的训练语料可以通过λ方便的调节上下文信息对未登录词识别的影响在原有数据结构上稍作修改即可输出N最短路径达到和整体Bigram模型相当的效果大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测系统评测词典资源：85000多词条评测语料：人工标注的《人民日报》1998年上半年新闻语料中抽取的12000句。 * * 文本断句资源: 词典资源，未登录词知识库等汉字原子切分构建分词有向图重叠词识别未登录词识别歧义字段处理搜索最优结果保留N个最优结果输出结

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文分词词性标注系统.pptVIP