- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
张华平 刘 群 zhanghp@software.ict.ac.cn 中科院计算技术研究所 2002-5-28 纲要 问题背景与难点分析 主要研究方法与相关系统 我们的研究思路—基于多层HMM的一体化方法 基于N-最短路径的词语粗分 基于角色标注的未登录词识别 计算所中文词语一体化分析系统ICTCLAS 结论 问题背景与难点分析 问题背景 问题背景与难点分析 II 分词的必要性 问题背景与难点分析 III 中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 问题背景与难点分析 IV 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 最终识别 多样性 复杂性 上下文干扰 主要研究方法与相关系统 当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误驱动方法等) 主要研究方法与相关系统II 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交叉歧义的切之,否则全切分。 动态规划和全切分搜索+叶子评价 主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin中的中文词语分析词系统 双向的Chart Parsing,使用了语法规则并以概率模型作导向 切词-句法分析一体化 北大计算语言所分词和词类标注系统 分词和词类标注结合起来 基于规则的标注排歧与基于语料库统计模型的排歧结合 处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理 主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨): 规则与统计的结合,更大意义上是一种组合,两种处理出现在系统中相对独立的两个不同阶段。 排歧、识别未登录词更多的是利用规则,难以量化。即使量化,也很难和普通词实现真正量值上的比较。 歧义字段、未登录词作为特殊情况处理,后期处理中没有与普通词统一。 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣称的那样理想,尤其是在未登录词、歧义字段存在的情况里。 我们的研究思路—基于多层HMM的一体化方法 目标: 分词、词性标注的一体化;未登录词与普通词处理的一体化;评估体系一体化。 基本思想: 采取HMM模型,建立切分词图。词语粗分阶段,先得出N个概率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视它为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。 基于多层HMM的一体化方法II 基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率 P((W,T)|C) =ΠP(ti|ti-1)P(wi|ti).…………………………….(1) P*(W,T)=lnP(W,T) =ln Π P(wi|ti) =Σ ln P(ti|ti-1) + Σ ln P(wi|ti) …………………….(2) ∴ 评价函数或者决策函数如下: (W,T)*= [Σ ln P(ti|ti-1) + Σ ln P(wi|ti)] 基于多层HMM的一体化方法IV 一体化需要解决的主要问题 排歧问题 未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)? 基于N-最短路径的词语粗分 基本思想 根据词典,建立字串词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1, 第2,…,第i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。 基于N-最短路径的词语粗分II 出发点 实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能,另一方面又大大解决了
您可能关注的文档
- 中国饮食文化(1).ppt
- 中国饮食文化汉语教学.ppt
- 中国餐饮文化介绍.ppt
- 中国马克思主义与当代-第三讲.ppt
- 中国高级英语学习者对反义关系的习得.ppt
- 中图版选修6第一章第一节人类和环境的关系(课件).ppt
- 中图版选修6第一章第一节人类和环境的关系.ppt
- 中外会计准则比较.ppt
- 中外历史人物评说孔子课件.ppt
- 中外历史人物评说课件:儒家思想的创始人——孔子.ppt
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
最近下载
- 学生工作单位实习证明word模板.docx
- 横河CS3000中文培训从讲解到组态最全资料.ppt VIP
- 内容讲义文本kyn28型开关柜及五防系统.ppt
- 四年级上册美术试卷国家义务教育质量监测答案.pdf VIP
- 2024年四川省广安市《保安员证》考试题库含答案 .pdf VIP
- 毕业设计(论文)-基于PLC的电梯控制系统设计.doc
- 糖尿病护理业务学习护理课件.pptx VIP
- 三菱电梯MAXIEZ-CZ调试大纲.pdf
- 东芝2307维修手册 东芝200623062506维修手册.doc
- 中考英语阅读训练Gulliver's Travels (selection)《格列佛游记》(选段).pdf VIP
文档评论(0)