中文分词词性标注系统.pptVIP

下载本文档

0
0
约 29页
2017-10-18 发布于河北
举报
版权申诉

中文分词词性标注系统.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词词性标注系统.ppt

中文自动分词系统IRSEG设计与实现高立琦王卓然 2004.9.20 大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测中文分词的意义和用途汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界分词系统的用途各种中文信息处理系统的基础模块自然语言处理信息检索 … 大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测 IRSEG系统框架设计大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测数学模型与原理分析信道噪声模型设S=c1c2…cn为输入汉字序列，W=w1w2…wm为切分词序列。分词系统的任务是，找到一种切分结果W*，满足：根据贝叶斯公式：假设：一个词wi的出现概率以它前面的词的出现没有关系（Unigram模型）则：为了实现上的方便，我们对上述公式取负对数，得到：数学模型与原理分析(续) 构建分词有向图通过最短路径搜索，即得最优（概率最大）结果：结合 / 成/ 分子大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测 “N最短路径”算法设计 N最短路径的思想中科院张华平博士提出”N最短路径“粗分模型 IRSEG系统的背景哈工大信息检索研究室CUP自然语言理解平台 IRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利用高层语言信息的反馈纠正分词结果算法设计利用分词有向图的特点（有向无环图）明显减小了时间复杂度和空间复杂度 “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) 回溯得到N最优结果：结合 / 成 / 分子结合 / 成分 / 子结 / 合成 / 分子结合 / 成 / 分 / 子时间复杂度：搜索过程时间复杂度为O(k)，K为图中边的总数；保留结果过程插入排序时间复杂度O(N2)；总时间复度为O(k*N2)。大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测未登录词识别模块 Unigram的困境很有效的解决歧义字段切分问题绝大多数歧义现象为交集型歧义对未登录词识别力不从心未登录词构成极其复杂与上下文形成各种歧义自身构成形成各种歧义很多情况下需借助上下文信息 Bigram性价比很低 90%以上的问题Unigram可以解决得很好 Bigram需要很大规模的训练语料和更复杂的词典结构 Bigram解码过程复杂度高，产生N最短路径开销是可观的未登录词识别模块(续) 局部Bigram模型思想在必要的范围应用Bigram模型全局以Unigram模型为主借助平滑的思想用插值λ将不同维数概率结合起来用聚类的方法处理数据稀疏问题优点时间复杂度小（几乎与Unigram的相同）不需要大规模的训练语料可以通过λ方便的调节上下文信息对未登录词识别的影响在原有数据结构上稍作修改即可输出N最短路径达到和整体Bigram模型相当的效果大纲中文分词的意义和用途 IRSEG系统框架设计数学模型与原理分析 “N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测系统评测词典资源：85000多词条评测语料：人工标注的《人民日报》1998年上半年新闻语料中抽取的12000句。 * * 文本断句资源: 词典资源，未登录词知识库等汉字原子切分构建分词有向图重叠词识别未登录词识别歧义字段处理搜索最优结果保留N个最优结果输出结