国内汉语语料库概况.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国内汉语语料库概况 0 引言 自 20 世纪 60 年代计算机问世, 计算机技术就迅速应用到了 以语料库为基础的语言学研究中,随着计算机技术的迅速发展, 世界各国在语料库的建设上成绩显著。不同语言、不同类型、不 同规模的语料库越来越多。 语料库的广度越来越大, 开发加工的 深也日益加深。 语料库在语言学研究和自然语言处理中发挥的作 用越来越大。 自第一代大型电子语料库 BROW建立至今,语料库语言学的 研究已经有 50 多年的历史。而国内的语料库研究也有 30 多年的 历史,并在上世纪 90 年代得到飞速发展,语言学与计算机技术 加速融合, 不同的学者和专家秉着不同的出发点, 在各种角度和 各种层次上进行了大量实证研究, 这使得我国的语料库语言学迅 速发展繁荣。 语料库和语料库语言学 语料库和语料库语言学的定义 语料库( corpus 或 corpora , corpuses[ 复 ] ) :是指按照 一定的语言学原则, 运用随机抽样方, 收集自然出现的连续语言 运用文本或话语片段而建成的具有一定容量的大型电子文本库。 语料库语言学: 在文本语料的基础上进行语言研究的一门学 科。语料库语言学通过语言现象出现的概率对语言材料进行研 究。这里的语言材料是真实的、可观存在的,因此,通过概率统 计手段在语料库语言学研究中得到的语言使用情况是真实客观 的,排除掉了语言学家的主观性,研究结果更加真实可靠。 语料库在语言学研究领域的应用 语料库应用对语言学研究的主要改进有: (1)保证了语料的客观真实性,排除了语言学家的主观性; (2)借助计算机的储存能力,提高了研究的广度和深度;( 3) 提高了工作效率,减少了人工误差;( 4)使语料资源具有共享 性。 语料库在语言学研究中主要的应用领域有: (1)词典编纂;( 2)语言统计;( 3)语言监控,包括新 词、新用法的发现;( 4)语言教学;( 5)语言信息处理;( 6) 语法、语义、词汇、语音等各种语言问题的研究;( 7)方言研 汉语语料库 我国汉语语料库的建设开始于 20世纪 80 年代,取得了不少 成果。这里简单介绍北京大学建设的三个语料库极其特点。 2.1 北京大学中国语言学研究中心 ccl 语料库 该语料库包含三个子语料库: 现代汉语语料库、 古代汉语语 料库和汉英双语语料库。 其中现代汉语语料库和古代汉语语料库主要是面向汉语研 究和教学使用的大规模语料库及其在线检索系统。 目前该语料库 收集了大约 4.77 亿字语料,现代汉语和古代汉语大体上各占一 半。现代汉语语料库,主要收录 1696部作品, 9711 字的查询。 古代汉语语料库,涉及从周代到民国时期, 22580 字的查询。语 料未经分词处理。 该语料库的检索系统可以提供比较方便的例句 查询功能,主要特色包括: A)可以查询不连续的词语,可以指 定词语之间的距离(比如“帮……忙”); B)可以查询标点符 号(比如查询“《》” 可以把书名都查出来);C)可以查询汉 语特有的重叠模式;D)支持对标点符号的查询(比如查询“?” 可以检索语料库中所有疑问句)等等。 汉英双语语料库目前规模已经超过 100 万句对。汉英双语语 料库对于汉英语言对比研究有直接的帮助。 该语料库还可以用于 汉英机器翻译。 目前北京大学在该语料库的基础上开发一个双语 词典编纂平台。 这个平台集成例句查找功能, 词语搭配分析功能, 多词翻译等价单位的自动识别功能, 等等。该语料库只对北大校 内用户开放。 人民日报切分和标注语料库 北大计算语言所对 1998年和 2000 年两个全年的人民日报语 料进行了切分和词性标注的加工。 该语料库可以用来训练统计模 型帮助计算机自动分词和词性标注处理。对于制订汉语高频词 表,定量研究词语的语法功能(比如兼类词、多义词各种用法的 分布情况),有直接的支持作用。 现代汉语树库 树库(Treebank)是对句子结构进行分析和标注的深加工语 料库。北京大学中文系自 2003 年开始逐步建设现代汉语句法树 库,目前已经达到百万汉字级的规模, 同时也形成了一系列的相 关工具软件,包括分词和词性标注、自动句法分析、辅助校对工 具、树库查询与知识抽取工具等等。此外还开发了一个基于 Web 的树库查询系统。 建成的树库一方面可以用来训练统计参数, 帮 助计算机进行自动句法分析, 另一方面也可以用于汉语研究和教 学,既可以方便地查找例子,也可以做定量分析。 国内语料库建设现状及发展方向 语料库建设现状 研究汉语的语料库比例小 由于受国外语料库语言学研究和发展的影响, 加上近年来我 国对英语教学的重视程度越来越高, 多数国内语料库的建设仍以 英语为主。 参考查找到的国内建设的语料库, 其中有大部分是与 英语相关的,只有少数语料库是完全用来研究汉语

文档评论(0)

niupai11 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档