- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文自动分词系统IRSEG
中文自动分词系统IRSEG设计及实现 高立琦 王卓然 2004.9.20 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型及原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型及原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 中文分词的意义和用途 汉语的特点 最小书写单位为字 最小表意单位为词 词及词之间没有书写边界 分词系统的用途 各种中文信息处理系统的基础模块 自然语言处理 信息检索 … 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型及原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 IRSEG系统框架设计 文本断句 资源: 词典资源,未登录词知识库等 汉字原子切分 构建分词有向图 重叠词识别 未登录词识别 歧义字段处理 搜索最优结果 保留N个最优结果 输出 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型及原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 数学模型及原理分析 信道噪声模型 设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。 分词系统的任务是,找到一种切分结果W*,满足: 根据贝叶斯公式: 假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型) 则: 为了实现上的方便,我们对上述公式取负对数,得到: 数学模型及原理分析(续) 构建分词有向图 通过最短路径搜索,即得最优(概率最大)结果: 结合 / 成/ 分子 结 合 成 分 子 大纲 中文分词的意义和用途 IRSEG系统框架设计 数学模型及原理分析 “N最短路径”的算法设计 基于局部Bigram模型的未登录词识别模块 系统评测 “N最短路径”算法设计 N最短路径的思想 中科院张华平博士提出”N最短路径“粗分模型 IRSEG系统的背景 哈工大信息检索研究室CUP自然语言理解平台 IRSEG中”N最短路径”模块的特点 追求最短路径的准确率和召回率 在CUP平台中利用高层语言信息的反馈纠正分词结果 算法设计 利用分词有向图的特点(有向无环图) 明显减小了时间复杂度和空间复杂度 “N最短路径”算法设计(续) 结 合 成 分 子 value pre 0 0 0 0 0 0 0 0 value Pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 “N最短路径”算法设计(续) 结 合 成 分 子 value pre 0 0 0 0 0 0 0 0 value Pre 10.1 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 “N最短路径”算法设计(续) 结 合 成 分 子 value pre 0 0 0 0 0 0 0 0 value Pre 10.1 0 ∞ 0 ∞ 0 ∞ 0 value pre 7.76 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 “N最短路径”算法设计(续) 结 合 成 分 子 value pre 0 0 0 0 0 0 0 0 value Pre 10.1 0 ∞ 0 ∞ 0 ∞ 0 value pre 7.76 0 20.0 1 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 value pre ∞ 0 ∞ 0 ∞ 0 ∞ 0 “N最短路径
您可能关注的文档
最近下载
- 热管式余热锅炉在电弧炉烟气余热回收中的应用.pdf
- 体例格式12:任务2教学单元1工学一体化课程《windows服务器基础配置与局域网组建》之教学单元活动方案.docx VIP
- 《小青蛙回家》幼儿园小班音乐PPT课件.pptx VIP
- LNG接收站(储备中心)项目工程环境影响报告书.pdf
- 办公室人员考试习题及答案.doc
- 停车场管理系统的设计与实现毕业论文10.doc
- 高考前家长会--5.20.ppt
- 《外国新闻传播史》-课程教学大纲.doc
- 党政办公室工作人员业务培训PPT党课.ppt VIP
- 体例格式12:任务7教学单元6工学一体化课程《windows服务器基础配置与局域网组建》之教学单元活动方案.docx VIP
文档评论(0)