国家语言资源监测语料库介绍.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国家语言资源监测语料库介绍 何婷婷 杨尔弘 侯敏 华中师范大学计算机科学系 国家语言资源监测与研究中心网络媒体语言分中心 北京语言文化大学 国家语言资源监测与研究中心平面媒体语言分中心 中国传媒大学 国家语言资源监测与研究中心有声媒体语言分中心 2005 年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测 中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有 声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。这三个分中心分别建设了 平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家 语言资源监测语料库。语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做 了自动分词。欢迎各界同仁共同开发、建设使用该语料库。 1、语料库现状 1.1 平面媒体动态流通语料库(DCC ) 平面媒体语言分中心自 2001 年以来,每年根据“发行量、发行地域、发行周期、媒体 价值、阅读率”等因素,选择 15 种网络版报纸的内容,作为平面媒体动态流通语料库的语 料采集内容,目前,已经形成了近 30 亿字的语料库。语料进行了元数据的标注、自动分词 标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。 网址/ 。 根据网页栏目的分类体系,所有语料进行了分类。类别包括 15 类:娱乐,游戏,文艺, 体育,时政新闻_社会,时政新闻_军事,时政新闻_ 国内,时政新闻_ 国际,生活男女,汽车, 旅游,科技,经济,教育,房产。为实现语料库中的文本分类,建立了 60 万个文本的训练 语料,语料规模约 6 亿字次。 1.2 有声媒体监测语料库 有声媒体语言分中心自 2001 年开始语料库的建设。到目前为止,已建起一个多功能的、 跨媒体的汉语传媒有声语言语料库。每年以收视率为基本条件,综合考虑了“传播媒介(广 播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独 白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出 的有声节目的录音或录像及由其转写成的文本语料。 目前,文本语料库规模已达到6 万个文档,约 3 亿字。全部做了元数据标注;全部做 了自动分词标注;人工进行了句法、语义、语用、短语结构四层一体的句子层面标注,规模 为 2000 个句子,约 10 万字;尝试进行了篇章层面的标注。其中部分语料(包括生语料和熟 语料)已放到网上,实现语言资源共享,为社会服务。网址为:http///ylk 。 音视频语料库规模为 1 万 2 千个文件,约 6000 小时。全部做了元数据标注。人工进行 了语音和韵律不同层面的深层标注,规模为 300 个文件,近 20 小时。该语料库的预览版也 放到网上,实现语言资源共享。网址为:http///mmcpub 。 1.3 网络媒体监测语料库 网络媒体语言分中心从2005 年开始建设网络媒体监测语料库,语料包括网络新闻、博 克、论坛、网络文学,网络新闻包括新浪、网易、腾讯、Tom、搜狐等网络门户网站的新闻, 博克包括 、 、 、 、 、 等,论坛包括 7 家著名大学 BBS 论坛和社会 BBS 论坛。语料的基本元数据全 部作了标注 2 、语料库应用 基于该语料库,在教育部语言文字信息管理司的统一领导下,已经完成了 2005 年、2006 年、2007 年年度中国语言生活状况报告、年度流行语、年度新词。年度语言生活状况报告 的相关统计包括年度字表、词表,统计了频率、文本数、使用度等信息;还包括年度人名表、 地名表等数据,虽然其中不少数据没有公开发布。年度流行语和年度新词采用了机器提取、 人工部分干预的办法。同时,各分中心也独立开展了一些科学研究与服务。 2.1 基于平面媒体动态流通语料库开展的应用研究 基于平面媒体动态流通语料库,已经成功地发布了 10 次中国主流报纸流行语,并与有声 和网络监测语料库联合发布了 2 次中国媒体流行语。在此语料库的支持下已经完成的课题包 括: 2002 年主流报纸大规模真实文本字母词语考察 基于动态流通语料库的流行语释

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档