中文分词词性标注系统.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词词性标注系统.ppt

中文自动分词系统IRSEG 设计与实现 高立琦 王卓然 2004.9.20 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 中文分词的意义和用途 汉语的特点 最小书写单位为字 最小表意单位为词 词与词之间没有书写边界 分词系统的用途 各种中文信息处理系统的基础模块 自然语言处理 信息检索 … 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 IRSEG系统框架设计 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 数学模型与原理分析 信道噪声模型 设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。 分词系统的任务是,找到一种切分结果W*,满足: 根据贝叶斯公式: 假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型) 则: 为了实现上的方便,我们对上述公式取负对数,得到: 数学模型与原理分析(续) 构建分词有向图 通过最短路径搜索,即得最优(概率最大)结果: 结合 / 成/ 分子 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 “N最短路径”算法设计 N最短路径的思想 中科院张华平博士提出”N最短路径“粗分模型 IRSEG系统的背景 哈工大信息检索研究室CUP自然语言理解平台 IRSEG中”N最短路径”模块的特点 追求最短路径的准确率和召回率 在CUP平台中利用高层语言信息的反馈纠正分词结果 算法设计 利用分词有向图的特点(有向无环图) 明显减小了时间复杂度和空间复杂度 “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) “N最短路径”算法设计(续) 回溯得到N最优结果: 结合 / 成 / 分子 结合 / 成分 / 子 结 / 合成 / 分子 结合 / 成 / 分 / 子 时间复杂度: 搜索过程时间复杂度为O(k),K为图中边的总数; 保留结果过程插入排序时间复杂度O(N2); 总时间复度为O(k*N2)。 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 未登录词识别模块 Unigram的困境 很有效的解决歧义字段切分问题 绝大多数歧义现象为交集型歧义 对未登录词识别力不从心 未登录词构成极其复杂 与上下文形成各种歧义 自身构成形成各种歧义 很多情况下需借助上下文信息 Bigram性价比很低 90%以上的问题Unigram可以解决得很好 Bigram需要很大规模的训练语料和更复杂的词典结构 Bigram解码过程复杂度高,产生N最短路径开销是可观的 未登录词识别模块(续) 局部Bigram模型 思想 在必要的范围应用Bigram模型 全局以Unigram模型为主 借助平滑的思想用插值λ将不同维数概率结合起来 用聚类的方法处理数据稀疏问题 优点 时间复杂度小(几乎与Unigram的相同) 不需要大规模的训练语料 可以通过λ方便的调节上下文信息对未登录词识别的影响 在原有数据结构上稍作修改即可输出N最短路径 达到和整体Bigram模型相当的效果 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型与原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 系统评测 词典资源:85000多词条 评测语料:人工标注的 《人民日报》1998年上半年 新闻语料中抽取的12000句。 * * 文本断句 资源: 词典资源,未登录词知识库等 汉字原子切分 构建分词有向图 重叠词识别 未登录词识别 歧义字段处理 搜索最优结果 保留N个最优结果 输出 结

文档评论(0)

zhoubingchina + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档