基于分词性能的汉语语料库比较研究.pdfVIP

基于分词性能的汉语语料库比较研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分词性能的汉语语料库比较研究.pdf

基于分词性能的汉语语料库比较研究 张洁,孟遥,于浩 富士通研究开发中心有限公司,北京100016 卫琶曲啦嘻譬乳鱼也业:盟盟men2vao回一en,fujitsu.com皿噍控m也也出:£垒婴 摘要:语料库是计算语言学的基础资源,目前国内外许多单位都在积极地进行语言资源的加工建设,在汉 语语料库建设方面也取得了一些重要研究成果.例如,1998年人民臼报标注语料库、国家语委5000万标 注语料库、宾州大学中文树库等.但各语料库的组织结构不同,加之各家加工过程中所遵循原则的差异, 对同一语言现象的处理方式也存在分歧.因此,如何对各种语料库的特点进行比较研究.如何根据工作的 实际需要选择适合的语言资源将是一个很现实的问题。本文提出了一种基于分词性能的汉语语料库比较研 究的方法,用1998年人民日报语料,国家语委5000万字标注语料和宾州大学中文树库分别训练基于汉字 的隐马尔可夫分词模型,继而通过各自的训练系统进行自测和交叉测试.从本文的实验结果来看.人民l=I 撤语料以其过硬的质量和庞大的规模对新闻领域的语料有出色的表现,国家语蚕语科则表现}i:较强的稳定 性和对不同领域语料的适应力。 关键词:语料库比较研究基于字的隐马尔可夫模型分词 1引言 作为信息处理的基础之一,语料库的质量直接关系到信息处理的发展。国内外许多单位 都在积极地进行语料库资源的加工建设¨】。以中文语料库为例,1998年人民日报标注语料库、 宾州大学5.0版本中文树库、国家语委5000万标注语料库和台湾中央研究院平衡语料库和 树图语料库等,在语料的规模和加工深度上都给中文语料库的加工建设工作提供了很好的范 例。通过语料库的加工建设也取得了丰富的经验,见参考文献【2】.[4】。 然而各个语料库在规模、语料构成和加工原则上不免存在着这样或那样的差异.本文将 通过实验观察这些差异对实际应用所造成的影响。 本文提出了一种基于分词性能比较的语料库比较方法:首先构造一个基于汉字的隐马尔 可夫模型(character_BasedHMM),该模型是一个无词典的分词、词性标注模型。它以字为 基本分析单位,将汉语的分词和词性标注过程转化为字的属性标注过程。然后用人民日报语 料库,国家语委标注语料库和宾州大学中文树库训练该分词模型.由此获得三个基于不同训 练语料的分词系统,PD系统、GC系统和CTB系统,进而在各个测试集上对这三个分词系 统进行分词性能测试。 分词实验的测试结果显示,以人民日报语料为基础的训练系统对新闻领域的语料有出色 的表现,以国家语委标注语料为基础的训练系统则表现出较强的稳定性和对不同领域语料的 适应力。宾州中文树库由于规模和语料构成的限制,在分词性能上没有表现出优势。通过对 实验结果的进一步分析,发现并讨论了各语料库加工过程中在分词原则上存在的分歧。 本文第二节概括三个语料库的大致情况.第三节引介了基于汉字的HMM模型.第四节 和第五节分别是实验结果和实验结果的分析。 一220一 2实验语料介绍 2.11998年人民日报标注语料库 从1999年4月起,由富士通研究开发中心、北京大学计算语言学研究所和人民日报社 新闻信息中心三家共同合作.对2600万字的1998年人民日报语料进行了词语切分和词性标 上,进行了一些调整和补充,形成了具体的加工规范——《现代汉语语料库自D_T-规范——词 语切分与词性标注》16l。词性标注使用小标记集,根据北京大学已有研究成果《现代汉语语 法信息词典》进行词性标注。针对潜在的应用需求,对专有名词(人名、地名、团体机构名 称)进行了嵌套标注.例如:将“人民大会堂”标注为“【人民,n大会堂/n]ns”。经过多次 的手工校对,语料目前已达到了较高的一致性。目前.语料库1月份的语料已经免费公开, 上半年语料实行有偿公开。 2.2国家语委5000万字标注语料 国家语委语料库由国家语委授权语言文字应用研究所负责加工。该语料库的研制本着科 学反映现代汉语语言全貌为宗旨,十分注重语料组成的多元化和平衡性.为保证其语料构成 的科学合理性,曾组织专家委员会对语料构成方案进行论证。其语料时间跨度大(1912— 和综合类(9.36%)三类,语料在各个时期上的选取比例分布见下表 191919491950一1965 I 时间

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档