- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
第40卷第3期 计 算 机 研 究 与发 展 Vo1.40。No.3
2003年3月 JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENT Mar.2003
基于最大熵方法的中英文基本名词短语识别
周雅倩 郭以昆 黄萱菁 吴立德
(复旦大学计算机科学与工程系 上海 200433)
(archzhou@yahoo.o0m)
摘 要 使用 了基于最大熵的方法识别中文基本名词短语.在开放语料 ChineseTreeBank上 ,只使用词性标注,达到 了
平均87.43%/88.09%的查全率催 确率.由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的
算法,尝试了英文的基本名词短语识别.在英文标准语料TREEBANK lI上,开放测试达到了93.31%/93.04%的查全率
/准确率,极为接近国际最优水平.这既证明了此算法的行之有效,又表明该方法的语言无关性.
关键词 最大熵 ;基本名词短语;自然语言处理
中图法分类号 TP391
ChineseandEnglishBaseNP RecognitionBased onaM aximum EntropyM odel
ZHOUYa—Qian,GUO Yi—Kun,HUANGXuan—Jing,andWU Li—De
(DepartmentofComputerScienceandEngineering,FudanUniversity,Shanghai200433)
Abstract A maximum entropymodeIinChineseBaseNPrecognitionisusedinthispaper.Theopentest
onChinees TreeBank,thepubliccorpus,indicatestheaveragerecallandprecisionof87.43% and88.09%
respectivelywithlimitedknowledge(textiteslfanditsPOStag).BecauesoftheincomparabilityofChinese
BaseNP recognitionresults,thesamealgorithm isapplied inEnglishBaseNP reocng ition.Theteston
TREEBANK 1IshoWSthattherecallandprecisionare93.31%and93.04%,whichareclosetothestate
ofthe art.This notonly proves the availability ofthe algorithm ,butalso indiactes itslanguage
independence.
Keywords maximum entropy;BaseNP;naturallanguageprocessing
文本,更能反映文本的语义.
1 引 言 在美国国家标准局召开的一年一度的文本检索
会议(TER C)中,专门研究了自然语言理解技术在
在 自然语言处理领域,名词短语对机器翻译、文 信息检索中的应用.权威的TER C会议的评测结果
本检索、信息抽取和文本分类等应用领域有重要作 表明,许多系统使用复合索引项 (短语)可以显著提
用.首先,短语具有更丰富的语义,而且它不能简单 高检索性能,所有系统的表现都超过作为基准的
地由短语的成分词来表示 ,例如英文中由动词和介 SMART系统.大多数系统运用了短语抽取技术,有
词 (小品词、副词)等组成的短语.其次,许多专有词 些还加入了句法分析.而改进的SMART系统也使
汇本身就是以短语的形式存在,如 “自然语言
您可能关注的文档
最近下载
- 抗日战争暨世界反法西斯战争胜利80周年PPT课件.pptx VIP
- 2024金华市金婺资源开发集团有限公司招聘17人笔试备考试题及答案解析.docx VIP
- 小学体育教学课件:跳绳课件.pptx
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(标准困难).docx VIP
- 浙江金华市金婺资源开发有限公司招聘笔试题库2022.pdf VIP
- 入院和出院护理.ppt VIP
- 研发人员职称评定与晋升管理办法.doc VIP
- YDT5178-2017 通信管道人孔和手孔图集.docx VIP
- 部编版七上全册古文注释、翻译、简答.pdf VIP
- 厂房出租合同正规版范本(2025年最新版)5篇.docx
文档评论(0)