基于最大熵方法的中英文基本名词短语识别.pdfVIP

基于最大熵方法的中英文基本名词短语识别.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 第40卷第3期 计 算 机 研 究 与发 展 Vo1.40。No.3 2003年3月 JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENT Mar.2003 基于最大熵方法的中英文基本名词短语识别 周雅倩 郭以昆 黄萱菁 吴立德 (复旦大学计算机科学与工程系 上海 200433) (archzhou@yahoo.o0m) 摘 要 使用 了基于最大熵的方法识别中文基本名词短语.在开放语料 ChineseTreeBank上 ,只使用词性标注,达到 了 平均87.43%/88.09%的查全率催 确率.由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的 算法,尝试了英文的基本名词短语识别.在英文标准语料TREEBANK lI上,开放测试达到了93.31%/93.04%的查全率 /准确率,极为接近国际最优水平.这既证明了此算法的行之有效,又表明该方法的语言无关性. 关键词 最大熵 ;基本名词短语;自然语言处理 中图法分类号 TP391 ChineseandEnglishBaseNP RecognitionBased onaM aximum EntropyM odel ZHOUYa—Qian,GUO Yi—Kun,HUANGXuan—Jing,andWU Li—De (DepartmentofComputerScienceandEngineering,FudanUniversity,Shanghai200433) Abstract A maximum entropymodeIinChineseBaseNPrecognitionisusedinthispaper.Theopentest onChinees TreeBank,thepubliccorpus,indicatestheaveragerecallandprecisionof87.43% and88.09% respectivelywithlimitedknowledge(textiteslfanditsPOStag).BecauesoftheincomparabilityofChinese BaseNP recognitionresults,thesamealgorithm isapplied inEnglishBaseNP reocng ition.Theteston TREEBANK 1IshoWSthattherecallandprecisionare93.31%and93.04%,whichareclosetothestate ofthe art.This notonly proves the availability ofthe algorithm ,butalso indiactes itslanguage independence. Keywords maximum entropy;BaseNP;naturallanguageprocessing 文本,更能反映文本的语义. 1 引 言 在美国国家标准局召开的一年一度的文本检索 会议(TER C)中,专门研究了自然语言理解技术在 在 自然语言处理领域,名词短语对机器翻译、文 信息检索中的应用.权威的TER C会议的评测结果 本检索、信息抽取和文本分类等应用领域有重要作 表明,许多系统使用复合索引项 (短语)可以显著提 用.首先,短语具有更丰富的语义,而且它不能简单 高检索性能,所有系统的表现都超过作为基准的 地由短语的成分词来表示 ,例如英文中由动词和介 SMART系统.大多数系统运用了短语抽取技术,有 词 (小品词、副词)等组成的短语.其次,许多专有词 些还加入了句法分析.而改进的SMART系统也使 汇本身就是以短语的形式存在,如 “自然语言

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档