最大熵与转换规则相结合识别中文名词短语.docVIP

最大熵与转换规则相结合识别中文名词短语.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大熵与转换规则相结合识别中文名词短语   摘要:本文针对统计方法和规则方法各自的特点,提出基于最大熵方法和转换规则方法相结合的中文基本名词短语识别算法,该算法是在一定词性标注的基础上实现的。在训练和测试两个阶段中,均先采用最大熵方法识别基本名词短语,然后将已具有一定精度的识别结果作为初始标注结果运用于转换规则方法中。实验表明,该方法具有一定的可行性。   关键词:基本名词短语;短语识别;最大熵;转换规则   中图分类号:TP391文献标识码:A文章编号:1007-9599 (2011) 03-0000-02   Maximum Entropy and Transformation Rules Combined Identification Chinese Noun Phrase   Lu Chaohua,Meng Haobing   (Shangqiu Vocational Technical Institute,Shangqiu476000,China)   Abstract:Utilizing features of the statistic approach and the regulation approach,an Chinese noun phrase identification algorithm based on combing maximum entropy approach with transformation-rules approach is presented.The algorithm is based on certain POS(parts of speech)tagger.During the training phase and the application phase,maximum entropy approach is first applied to the initialization process of transformation-rules approach,and the transformation-rules approach is then run on its results already having certainly accuracy.Experimental showed that this combined algorithm has feasibility.   Keywords:Basic noun phrase;Phrase identification;Maximum entropy;   Transformation-rules   一、引言   在自然语言处理领域,名词短语对机器翻译、文本检索、信息抽取和文本分类等应用领域有重要作用。首先,短语具有更丰富的语义,而且它不能简单地由短语的成分词来表示。其次,许多专有词汇本身就是以短语的形式存在,如“自然语言处理”和“最惠国待遇”等,而专有词汇在真实文本中是大量存在的。特别是对于中文而言,词汇本身更具有争议,和词汇相比短语的歧义要小得多。因此,在大规模文本处理中若能用短语而不是词汇来表示文本,更能反映文本的语义。   目前,基本名词短语的识别方法主要有:基于规则的方法,基于统计的方法和基于机器学习的方法。Brill方法是E.Brill提出的一种基于转换的错误驱动的基本名词短语结构学习方法[1],基于语料库的规则处理方法是另一种错误驱动剪枝方法。常见的统计方法有最大熵方法[2]、Viterbi算法,基于统计决策树模型的方法和基于词性关联度及词语关联度的方法等。最典型的基于机器学习的方法是基于记忆(memory-based)的方法,该方法是一个从实例中监督推导的学习模式[3]。   最大熵方法和转换规则方法分别是统计方法和规则方法的代表。为了进一步提高基本名词短语的识别精度,使统计与规则更加有机地统一起来,本文提出了基于两者结合的中文基本名词短语识别方法。该方法结合了统计模型和规则方法的优点:最大熵方法通过统计的方法学习规则,再用规则对问题进行分类。转换规则方法选用大量的特征作为支持,能以较小的训练集达到较高的识别准确率。两者结合使名词短语识别精度得到进一步提高。   二、基于最大熵的中文名词短语识别   (一)最大熵原理   假设存在n个特征 ,则模型属于约束所产生的模型集合,即(1)   满足约束条件的模型有很多,模型的目标是产生在约束集下具有最均匀分布的模型,而条件概率p(y|x)均匀性的一种数学测量方法为条件熵,定义为    (2)   其中 。   最大熵原理:若在允许的概率分布C中选择模型,具有最大熵的模型 即为所选模型,即:(3)  

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档