- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模语料库上Stanford和Berkeley句法分析器性能对比分析
大规模语料库上Stanford和Berkeley句法分析器性能对比分析 摘要:句法分析性能的高低对机器翻译、信息检索、语音识别等自然语言处理相关应用领域的发展有着很大的影响。该文基于LDC 14年的新华社语料,采用开源中文句法分析器Stanford parser和Berkeley parser,在内部分词系统和外部分词系统两种策略下对句法分析的性能进行对比分析,并就实验结果提出自己的分析和思考。 关键词:句法分析;性能;Stanford parser;Berkeley parser 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)08-1984-03 1 概述 句法分析判断输入的单词序列(一般为句子)的构成是否合乎给定的语法,并通过构造句法树来确定句子的结构以及各层次句法成分之间的关系,即确定一个句子中的哪些词构成一个短语,哪些词是动词的主语或宾语等问题。随着自然语言应用的日益广泛,特别是对文本处理需求的进一步增加,句法分析的作用愈加突出,它在机器翻译、信息检索与抽取、问答系统、语音识别等研究领域中都有重要的应用价值[1]。 现阶段,基于统计的方法是句法分析的主流技术。常见的概率句法分析模型包括概率上下文无关模型、基于历史的句法分析模型、层次化渐进式的句法分析模型和中心词驱动的句法分析模型。综合多种模型而实现的句法分析器种类繁多,该文实验使用的是目前在开源中文句法分析器中比较具有代表性的Stanford parser和Berkeley parser,。前者基于因子模型,后者基于非词汇化分析模型。 英文句法分析性能已经达到90%以上的水平,然而中文句法分析性能却停留在80%左右,如何提高中文句法分析的性能成为了一个关键问题。由于概率句法分析主要是由数据来驱动的一项任务,故用于训练分析器的树库规模的大小将直接决定该分析器的性能。事实上,当前中文句法分析性能确实在很大程度上受到了训练数据规模小的限制,此外,分词和词性标记的准确率对句法分析性能的影响也是十分显著的[2]。如果能引入一个高质量的外部词法分析器来辅助句法分析,将在一定程度上提高中文句法分析的性能。该文选取 LDC Chinese Gigaword Second Edition 中的14年新华社新闻语料(共计约12, 163, 828个句子),外部分词工具使用中科院计算技术研究所的ICTCLAS汉语分词系统(2011版),中文句法分析器使用Stanford parser和Berkeley parser,实验将基于两种句法分析器共4种分析模型下的分析结果,进而在分析速度、准确率、分词对句法分析质量的影响等方面进行性能对比。另外,实验中得到的句法分析结果数据也将为后续相关研究提供大规模的语料支持。 论文内容的安排如下:第2部分介绍Stanford parser、Berkeley parser和ICTCLAS;第3部分介绍实验结果与分析,第4部分是总结与未来工作展望。 2 分析器 目前支持中文的句法分析器越来越多,其中作为开源软件的Stanford parser和Berkeley parser受到了较为广泛的关注和应用,两者都基于统计句法分析模型并支持多种语言,用来训练分析器中文模型的训练数据和句法分析树格式都是源自宾州中文树库的相应规范。 2.1 Stanford parser Stanford parser是由斯坦福大学自然语言处理小组开发的开源句法分析器,是基于概率统计句法分析的一个JAVA实现,从2002年12月的Version 1.0 到2012年11月的Version 2.0.4,共历经了22个版本。分析器目前提供了5个中文文法[3],与传统的单一句法分析器相比,Stanford parser的设计更为合理和多样化: 1) 既是一个高度优化的概率上下文无关文法和词汇化依存分析器,也是一个词汇化上下文无关文法分析器。 2) 基于权威可靠的宾州树库作为分析器的训练数据,目前已面向英文、中文、德文、阿拉伯文、意大利文、保加利亚文、葡萄牙文等语种提供句法分析功能。 3) 提供了多样化的分析输出形式,除句法分析树输出外,还支持分词和词性标注文本输出、短语结构树输出、斯坦福依存关系输出等。 4) 分析器内置了分词工具、词性标注工具、基于自定义树库的分析器训练工具等句法分析辅助程序。 5) 通过设置不同的运行参数,可实现句法分析模型选择、自定义词性标记集、文本编码设置和转换、语法关系导入和导出等功能的定制。 2.2 Berkeley parser Berkeley parser是由伯克利大学自然语言处理小组开发的开源句法分析器,目前支持的语种主要有英文、中文、德文、阿拉伯文
您可能关注的文档
- 基于问卷调查法计算机仿真技术课程综合性实验效果分析评价.doc
- 基于问题教学法食品化学实验教学改革探讨.doc
- 基于闲暇教育视角高校网络文化建设探究.doc
- 基于院校商管理类专业人才培养模式研究.doc
- 基于隐马尔可夫预测非对称信息功率博弈机制.doc
- 基于集散控制系统空压机变频恒压供气改造.doc
- 基于隧道交换移动办公网络安全接入机制研究.doc
- 基于集权制下企业集团财务管理分析.doc
- 基于雇主品牌提升校园招聘流程再设计.doc
- 基于需求偏好相似理论浙江文化产业贸易发展研究.doc
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
原创力文档


文档评论(0)