ResearchonChineseLexicalAnaly参考sisBIT.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ResearchonChineseLexicalAnaly参考sisBIT

面向互联网应用的中文浅层语言分析技术 张华平 博士 副教授 研究生导师 计算机语言信息处理研究所 副所长 2010-3-12@Nokia Beijing 纲要 常用汉语分词方法综述 浅层语言分析的需求背景 ICTCLAS2010(LJWS): 中文浅层语言分析集大成者 互联网搜索对语言分析的新需求与挑战 总结与展望 问题背景 汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 词是最小的能够独立活动的有意义的语言成分 。 中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。 分词的必要性: 词语信息熵大,计算速度更快 主要困难 重叠词、离合词、词缀 高高兴兴,高兴高兴,糊里糊涂,白花花,研究研究,个个,回回,工作工作(错误) 洗了一个澡,担什么心,发理了没有 学术性、花儿,盆儿 主要困难2:汉语的切分歧义 交集型歧义(交叉型歧义):如果字串abc既可切分为ab/c,又可切分为a/bc。其中a,ab,c和bc是词;占86%. 有意见: 我 对 他 有 意见。 总统 有意 见 他。 组合型歧义(覆盖型歧义):若ab为词,而a和b在句子中又可分别单独成词,占14%. 马上: 我 马上 就 来。 他 从 马 上 下来。 将来: 我 将来 要 上 大学。 我 将 来 上海。 混合型歧义:由交集型歧义和组合型歧义自身嵌套或两者交叉组合而产生的歧义 人才能:这样 的 人才 能 经受 住 考验。 人才能:这样 的 人 才能 经受 住 考验。 人才能:这样 的 人 才 能 经受 住 考验。 主要困难2续:歧义问题 歧义全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; [护士对喝酒的病人说:]“小心/肝” [爱人对你说:]“小/心肝” 主要困难3:未登录词问题 命名实体、新词术语往往不能全部收录到分词词典中,一般分词系统的词典是静态的,对未登录词的处理 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 根据我们的实验,未登录词和歧义问题大约占所有词语中的1.73%,但是导致了3.76%的切分错误。 汉语切分的数据结构-词图 根据这个数据结构,我们可以把词法分析中的几种操作转化为: 给词图上添加边(查词典,处理重叠词、离合词、前后缀和未定义词); 寻找一条起点S到终点E的最优路径(切分排歧); 给路径上的边加上标记(词性标注); 汉语切分算法综述 规则方法 全切分 最大匹配方法 最短路径方法 统计方法 N元语言模型; 互信息、 最大熵方法、条件随机场; 规则统计结合方法 N元语法 全切分方法 给出所有的切分结果 算法(略) 算法的时间复杂度随着句子长度的增加呈指数增长 最大匹配方法 1 正向最大匹配(MM) 自左往右 每次取最长词 逆向最大匹配(RMM) 自右往左 每次取最长词 双向最大匹配 依次采用正向和逆向最大匹配 如果结果一致则输出 如果结果不一致再用其他方法排歧 最大匹配方法 II 优点 简单、快速 在某些应用场合已经足够 缺点 单向最大匹配会忽略交集型歧义和组合型歧义 幼儿园 地 节目 / 独立自主 和平 等 互利 的 原则 双向最大匹配会忽略链长为偶数的交集型歧义和组合型歧义 原子 结合 成分 子时 / 他 从 马上 下来 最短路径方法 最短路径方法 II 基本思想: 在词图上选择一条词数最少的路径 算法: 动态规划算法 优点:好于单向的最大匹配方法 最大匹配:独立自主 和平 等 互利 的 原则(6) 最短路径:独立自主 和 平等互利 的 原则(5) 缺点:忽略了所有覆盖歧义,也无法解决大部分交叉歧义 结合 成分 子时 N元语法分词方法 句子的出现概率用P(W) 将分词问题转化为求概率最大的词语序列问题。 引入三元模型,不考虑未登录词问题,精度可以达到98%以上; 常用的模型为二元(一阶马尔科夫模型)和三元模型(二阶马尔科夫模型) 互信息与双字耦合度方法 互信息(MI,Mutual Information)用来表示两个字之间结合的强度 双字耦合度 “过目”这一双字对在出现16次,其中出现在“过目不忘”,“一一过目”这样的词中12次,而在“超过/目前”这样的语境中出现了4次,所以Coup(过,目)=12/(12+4)=0.75。 研究结果表明:随机字对总数超过3600万,但只有10万左右的字会相邻构词,规律性极强,可以通过这一规律进行分词。 其他方法 决策树方法: 将分词问题转化为决策判断问题 最大熵方法: 将字分为单字词、词首、词中、词尾,训练信息熵,最后将分词问题转化为求解信息熵最大的标注方法(类似与词性标注)。

文档评论(0)

yd327298 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档