中文分词中歧义切分处理策略.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词中歧义切分处理策略.PDF

维普资讯 山西大学学报 (自然科学版)30(2):163~167,2007 JournalofShanxiUniversity(Nat.Sci.Ed.) 文章编号 :0253—2395(2007)02-0163—05 中文分词中歧义切分处理策略 郑家恒,张剑锋,谭红叶 (山西大学 计算机与信息技术学院计算智能与中文信息处理省部共建教育部重点实验室,山西 太原 030006) 摘 要 :文章试 图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度 ,以规则库为辅助手段 ,构建相应概率 统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明 该模型在解决歧义切分问题上是有效的. 关键词 :自动分词 ;伪歧义 ;真歧义;概率模型 中图分类号 :TP391 文献标识码 :A 目前 ,在机器翻译 、语音识别、信息检索等许多领域对语料库 的使用越来越多,要求也越来越高.对语料 库进行分词是建立汉语语料库资源的首要任务 ,歧义字段的切分和专有名词的识别一直是 自动分词中两个 比较棘手 的问题.实际上 ,歧义现象不仅仅由词表中的词与词之间的交叠(交集型歧义)和串联 (多义型歧义) 产生 ,在各种未登录词语之间,未登录词语与普通词语之间也存在歧义现象,而且这些歧义现象也会随着专 名数量的增加和词表的扩大而不断增加n].当前,国内许多学者对歧义字段的切分展开了研究.文献E2-]选取 了20个典型的多义型歧义字段,通过试验确定 了与特征矩阵相关的上下文窗21I大小、窗21I位置区分等要素 , 利用词的语义信息对特征矩阵进行了降维处理,取得了较好的结果.文献E3-1通过计算相邻字之间的互信息 及 t一信息差,解决汉语歧义字段的切分 问题.文献[4]考察了歧义字段(特别是交集型歧义字段)的分布情况 和特征 ,提出了一种改进的最大正向匹配歧义字段发现算法 ,采用 “规则+例外”的方法进行消歧. 本文从歧义字段在语料库 中出现真歧义和伪歧义的现象出发 ,以MSR语料库 (400万)为训练语料 ,从 中提取所有的歧义字段 ,并对真歧义和伪歧义这两种不同类型的歧义字段采用不同的方法 ,来解决 自动分词 中歧义切分的问题.特别是对不能用规则库解决的真歧义字段 2,建立 了概率统计模型.在抽取特征时,不仅 考虑 了相邻词语,而且还考虑了相邻词语的语义信息.实验表明该模型在解决真歧义问题上是有效的. 1 歧义字段的分类 我们根据歧义字段在语料库 中的切分结果,将其分为两大类 :一类属于机器形式上的歧义,在真实语言 环境下,只有唯一可能的正确切分结果 ,称其为伪歧义字段.另一类有两种 以上可实现的切分结果,称其为真 歧义字段L5]. 我们以微软亚洲研究院2005年提供的SIGHAN简体中文语料库 (MSR)的400万语料作为训练语料 , 分析其中的歧义字段 ,共发现歧义字段 52088条.其 中:伪歧义字段 46303条 (伪歧义字段 1有 34673条 , 伪歧义字段 2有 11630条),真歧义字段 5785条 (真歧义字段 1有 3478条,真歧义字段 2有 2307条). 1.1 伪歧义字段 我们采用最大正 向匹配算法作为基本的切分算法 ,而有些歧义字段 的切分用最大正向匹配算法可以解 决.因此 ,我们将伪歧义字段分为两种 : 收稿 日期 :2007—03—08 基金项 目:国家 自然科学基金 ;山西省 自然科学基金 作者简介:郑家恒 (1948一),女,教授,博士生导师,主要研究方向为中文信息信息处理. 维普资讯 山西大学学报(自然科学版) (1)最大正向匹配算法可以解决的伪歧义字段.如 :歧义字段 “爱国情感”.由于 “爱 国”、“国情”和 “情感” 都在词典中,运用最大正向匹配算法得到的切分结果为 “爱 国情感”,且这种切分形式是正确的.这一类伪歧 义字段定义为伪歧义字段 1. (2)最大正 向匹配算法不能解决的伪歧义字段.如:对于字段 “保证金融安全”

文档评论(0)

sunyangbill + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档