基于条件随机域的复杂最长名词短语识别.doc

下载文档

0
0
约9.25千字
约 7页
2018-10-13 发布于重庆
举报
版权申诉
保障服务

基于条件随机域的复杂最长名词短语识别.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于条件随机域的复杂最长名词短语识别

收稿日期:2005-02-23　基金项目:国家自然科学基金项助国家“八六三”基金项目2002AA11401资助.　作者简介:冯　冲男1977年生博士研究生主要研究方向为统计学习方法的信息抽取和机器翻译.基于条件随机域的复杂最长名词短语识别冯　冲12陈肇雄2黄河燕2张　亮23王江伟231中国科学技术大学计算机科学与技术系安徽合肥2300272中国科学院计算机语言信息工程研究中心北京1000833南京理工大学计算机系江苏南京210094E-mail:fengchongustc.edu摘　要:识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题本文采用条件随机域建立统计模型有针对性的研究了复杂最长名词短语的识别并给出了一种带置信度估计的解码算法提高了本文工作的实用性.关键词:最长名词短语条件随机域机器翻译中图分类号:TP391.1　　　　　文献标识码:A　　　　　　文章编号:1000-1220200606-1134-06RecognitionofComplexMaximalLengthNounPhraseUsingConditionalRandomFieldsFENG　Chong12CHEN　Zhao-xiong2HUANG　He-yan2ZHANG　Liang23WANG　Jiang-wei231DepartmentofComputerScienceampTechnologyUniversityofScienceandTechnologyofChinaHefei230027China2ResearchCenterofComputerampLanguageInformationEngineeringChineseAcademyofScienceBeijing100083China3DepartmentofComputerScienceNanjingUniversityofScienceandTechnologyNanjing210094ChinaAbstract:TherecognitionofChinesemaximal-lengthnounphraseisadifficulttaskwhichisvaluableformanyapplicationssuchasmachinetranslation.Toovercomethedeficiencyincapturingthelongdistancerelationshipbetweenwordsandlabelbiaswiththetraditionalmethodsastatisticalmodelbasedonconditionalrandomfieldisconstructedwiththefocusonthecomplexmaximallengthnounphrases.Andadecodingalgorithmwithconfidenceestimationisgivenwhichisprovedtobeef-fectiveforenhancingthepracticalusability.Keywords:maximal-lengthnounphraseconditionalrandomfieldsmachinetranslation1　引　言机器翻译中长句的处理是由来已久的难点.12等诸多研究指出机译系统的译文质量对于句子长度相当敏感.“当句子的字长超过50很难得到正确的分析结果当句子长度超过80几乎所有的分析方法都无能为力”3.我们在中文机译系统的研发中对这一问题也深有体会.一个可行的解决的思路是在提交翻译前识别并标注出长句中的复杂短语即把长句的翻译转化为短语的识别和短句的翻译.名词短语是最为常见的短语识别对象研究的也最为充分.基于以上考虑本文的研究目标是复杂的指所含词数大于等于5最长名词短语MNPmaximal-lengthNounPhrase的识别问题.本文工作对其他自然语言处理任务如信息抽取、自动问答等也都有重要实际意义.近年来研究人员对MNP的识别已做了大量有益探索.方法主要有基于规则和基于统计两类.4最早报告了基于规则的法语MNP抽取系统5利用两种有限状态分析机制开发了识别英文MNP的工具6使用了基于统计的浅层分析与基于规则的有限状态机制相结合的方法抽取英文句子中所有可能的MNP.汉语方面李文捷等在构造汉语MNP边界分布概率模型的基础上进行了实验7清华大学周强等研究了利用NP边界分布和内部结构知识的识别器8取得了较好效果.和这些工作相比本文的特点在于:第一针对现有MNP识别技术中的难点长度超过5的复杂名词短语的识别.第二基于机器学习的方法.前述各系统主要采用规