一种消除混合歧义新方法.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种消除混合歧义新方法

一种消除混合歧义新方法中图分类号:TP311.52 文献标识码:A 文章编号:1003-2738(2011)11-0361-01 摘要:由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。本文以含有歧义词语的句子作为研究对象,考虑了由于不同的分词方法导致的共生词语的出现,构建了辨别不同断句方法的公式。初步试验与例证表明该方法具有较好的灵活性,优于现存技术 关键词:信息处理;混合歧义;消除歧义;方程 一、前言 在中文文本信息处理中,自动分词是一项由计算机将完整的句子划分为多个词语单元的技术。由于分词的精度严重影响了读者对于文本的分析与理解程度,因此该技术在信息处理领域具有一定的重要意义,比如文本分类、文本信息检索以及本文自动总结等。分词技术的瓶颈是消除歧义,其中包括混合歧义与交叉歧义 以下列存有混合歧义的句子为例: 1.你要考虑你自己的/将来/;市长/将/来/我们学校考察工作 2.他/才能/有资格获得冠军;人/才/能/推动科技进步 3.国家的/中长期/计划是指导国家战略发展的计划;这是国际共产主义运动/中/长期/没有解决的一个重大理论问题 在本文中,综合考虑了多种分词方法所导致的不同结果,例如歧义词“中长期”可以分解为“中”,“长期”或者“中长期”两种不同的结果,在可能的结果与其在文本中前后的词语之间,根据匹配词语的数量构建方程来消除句子中的歧义 二、相关概念 定义1:将连续的字符串分解为多个词语的技术为分词技术,且由不同分词方法导致的词语含义发生变化称为歧义 定义2:现有任一字符串***AB***,W为词组,如果AB∈W,A∈W,B∈W,则AB可以被分解为/AB/,或者/A/B/,此时AB被称为混合歧义 定义3:现有数组D={d1,d2,…,dm},且单元di={t1,t2,…,tn}(i=1,2, …,m)。T={t1,t2, …,tp}为D中所有的单元。因此可得:单元集:T中任一子集均为D中的单元集,记为X,|X|=k为X中单元个数,如果单元个数等于k,则称单元集为k单元集 令,将方程的单元集定义为: F(X),F(X,Y)是关于单元集X与的方程,|D|是D集合的长度 三、混合歧义 (一)定义 定义4:令共生词集A∈T,B∈T,T为文本,α为常数由试验确定。则: 定义5:令,为混合歧义词。如果被视为整体,则分解结果为,进一步分解为 若,被称为整体右边共生词集 若,被称为整体左边共生词集 若,被称为分离右共生词集 若,被称为分离左共生词集 定义6:令为混合歧义句。并构建方程消除歧义,由方程对比结果可确定将歧义词做整体保留或分解处理 (二)设计原则 混合歧义性词语被保留为整体还是分解主要应由词语所在上下文决定。根据不同分词方法与上下文信息,结合两者的匹配度,确定对词语做何种分词。所以首先需获得不同分词方法的结果,在结果与上下文之间计算出匹配度构建方程挑选合适的分词方法,最终消除歧义 如:在句子“国家的中长期计划是指导国家战略发展的计划;这是国际共产主义运动中长期没有解决的一个重大理论问题”中“中长期”具有混合歧义性,分词结果有“中长期”与“中”“长期”。根据上下文有“国家的中长期”,“中长期计划”,“国家的中”,“长期计划”,“运动中长期”,“中长期没有”。“运动中”,“长期没有”等。但是“国家的中”与“运动中长期”不能构成词语,匹配为0 由式1、2可得,所以混合歧义词应被保留整体 针对“这是国际共产主义运动中长期没有解决的一个重大理论问题”,由式1、2可得,所以应对混合歧义词采用分离分解 四、试验 试验对象为纯文本,在文本格式化之前完成内容的编辑 (一)样本描述 现有样本句(1) 你要考虑你自己的将来;市长将来我们学校考察工作;(2) 他才能有资格获得冠军;人才能推动科技进步;(3) 国家的中长期计划是指导国家战略发展的计划;这是国际共产主义运动中长期没有解决的一个重大理论问题;样本句中包含混合歧义词“将来”、“才能”、“中长期”。现将北京大学[4]开发的分词测试平台与猎兔分词平台[5]对3个样本句的分词结果如图1 a、b所示。由结果可知,两个平台均无法消除混合歧义 (二)试验评价 选择包含8组混合歧义词的文本评价本文所说明的算法。结论:依据试验结果,本文介绍的消除歧义方法具有较好的灵活性和可靠性,在消除混合歧义方面优于现有技术 五、总结 基于关联规则,本文对消除混合歧义的新方法进行了讨论。该方法计算了不同分词方法处理的结果与上下文之间的匹配度,构建了方程消除歧义。根据计算与试验结果表明该方法灵活、可靠,并优于传统技术

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档