- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用于中文分词的组合型歧义消解算法
摘 要:自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义.本文以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该因子消除组合型歧义。通过样例说明和实验验证该方法可行并优于现有技术。
关键词:中文信息处理; 组合型歧义; 共现支持度; 歧义消解; 支持度因子
分类号:TP301.6
The Disambiguiting Algorithm of Combination Ambiguity for Chinese Word Segmentation
Abstract: The bottleneck of word segment is disambiguate, which includes combinational ambiguity and crossing ambiguity. In this paper, we took the sentence included ambiguity word as our research object, seen about the support of co-occurrence words resulting from different segment methods in the text, constructed a formula to distinguish different segment method. Preliminary experiment and example show that the method is feasible and better than the present technique.
Keywords: Chinese text information processing; combinational ambiguity; co-occurrence supporting; disambiguate; support formula.
Class number: TP301.6
1 引言
自动分词技术就是将连续的字所构成的句子切分成不同的具有一定意义的词的技术,它是中文信息处理的关键技术。影响分词技术发展的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义,简称交集型歧义和组合型歧义。
组合型歧义词在不同的语境下有不同的切分方式,例如:
1 你要考虑你自己的/将来/;市长/将/来/我们学校考察工作。
2他/才能/有资格获得冠军;人/才/能/推动科技进步。
3 国家的/中长期/计划是指导国家战略发展的计划;这是国际共产主义运动/中/长期/没有解决的一个重大理论问题。
“将来”、“才能”、“中长期”在上述三个句子的前半句从合切分,后半句则从分。
“何时从分,何时从合”就是组合型歧义消解要解决的问题。目前虽然存在许多消解方法,但几乎所有的组合型切分歧义消解方法都将歧义词的上下文环境信息作为切入点,用上下文环境信息作为参数构建模型,再用一定标注好的语料作为训练样本,从而获得歧义消解技术。如[2]从上下文信息中获取词性搭配规则,用SVM模型进行消歧;[3]从语境信息的窗口大小、位置和频次等角度考察歧义词的上下文语境,用对数似然比建立计算模型,进行歧义消解;[4]以条件随机场CRF为计算模型,利用歧义字段的上下文的词和词性建立特征模板, 进行歧义消解;文[5]使用语境信息中对数似然比的最大值和语境信息中合、分两种情况下各自的对数似然比之和取值大者进行消歧;文[6]利用相对词频作为语境的计算模型进行歧义消解。文[7]以最大信息熵作为计算模型计算歧义字段上下文信息,进行消歧。
我们从歧义字段不同切分方式所得的结果入手,比如歧义字段“中长期”可切分为“中”、“长期”和“中长期”两种不同的结果,在全文范围内,考察结果词与其前后搭配所构成的词是否合理或为字典中的词,分别计算从合、从分切分的支持度,依据支持度因子进行组合性歧义消解。随后的章节中将介绍相关知识,然后构造组合型歧义的消解算法,最后是实验验证和小结。
2 相关概念
定义1:设,其中为字符串,为字符, 把连续的字符串切分成不同的词的技术称为分词技术,如可切分为:词和词,由于不同切分造成词意的差异称为切分歧义。
定义2:给定任意汉字串***AB***, W为词表,若 AB∈W、A∈W、B∈W、在真实文本中可切分为:/AB /,或切分为:/A / B /,则称AB为组合型歧义词。
定义3:假设事务数据库,事务,(n=1,2,…,p)称为事务项(item)。令是中全体项目的集合,则有如下几个基本概念:
项集:对于全体项目集
文档评论(0)