国家语委十五科研重大项目-现代汉语语料库的建设及深加.pdfVIP

国家语委十五科研重大项目-现代汉语语料库的建设及深加.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基 于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有 “大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字 信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建 立了大规模的语料库,如英国国家语料库 BNC 等。我国从 1990 年开始由国家语言文字工作 委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国 家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文 字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目 标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领 先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的 长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地 反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约 40 个小类组 成。具体类别如下: 1.人文与社会科学类划分为 8 个大类和 30 个小类:(1)政法:哲学、政治、宗教、法 律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、 新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美 术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、 体育;(8)生活。 1 2.自然科学划分为 6 类:数理、生化、天文地理、海洋气象、农林、医药卫生。 3.综合类语料由应用文和难于归类的其他语料两部分组成。应用文使用很广泛,主要 涉及以下 6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2) 章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩 护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪 辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申 请书、请愿书等。 国家语委语料库的语料样本包括 24 个详细信息: 数据项 名称 a13 版次(初版印数) a1 总号 a14 本版印数 a2 分类号 a15 总印数 a3 样本名称 a16 总页数 a4 类别 a17 开本 a5 作者 a18 选择方式 a6 写作时间 a19 起止页数 a7 书刊名称 a20 样本字数 a8 编著者 a21 样本总字数 a9 出版社 a22 文章总字数 a10 所在省 a23 简繁体 a11 出版日期 a24 抽样文章

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档