俄语大型动态网络语料库建设与应用分析.docx

下载文档

1
0
约1.02万字
约 10页
2024-09-25 发布于湖北
举报
版权申诉
保障服务

俄语大型动态网络语料库建设与应用分析.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

俄语大型动态网络语料库建设与应用分析

???

原伟

摘要：网络语料库是大数据时代语料库发展的重要方向，GICR作为俄语大型动态网络语料库的最重要代表之一具有较高的研究价值与借鉴意义。通过对GICR语料库总体设计、语料采集方法、处理手段和标注体系的分析述评，深入讨论了该语料库的在语言信息处理及语言学研究领域的应用研究，论述了该语料库的特点与独特优势，对俄语网络语料库研究的深入开展奠定了初步基础。

关键词：网络语料库；俄语；GICR

TP391：A：1009-3044（2018）04-0212-04

ASurveyofBuildingandUsingGeneralInternetCorpusofRussian

YUANWei1，2

（1.ShanghaiInternationalStudiesUniversity，Shangha200083，China；2.InformationEngineeringUniversity，Luoyang471003，China）

Abstract：IntheeraoflargedataWebascorpusisanimportantresearchdirectionofcorpuslinguistics.AsoneofthemostimportantrepresentativesofRussianwebcorporaGeneralInternetCorpusofRussian（GIRC）hasasignificantresearchvalue.ThispaperdiscussesthemainmethodsofGIRCfortextscollection，cleaning，organizationandannotation，discussesthecharacteristicsanduniqueadvantagesofGIRC，analysesitsapplicationsinlinguisticstudiesandnaturallanguageprocessing.

Keywords：Webascorpus；Russian；GIRC

1概述

隨着大数据概念逐渐与语料库研究相融合，该领域的研究方法与范式已经产生了巨大变化。传统语料库的构建通常是需要消耗大量人工的缓慢进程，而这已无法适应学科发展对超大规模语料库的迫切需求，学者们纷纷将目光转向拥有海量语言数据的互联网。Kilgarriff[1]首次提出网络语料库（Webascorpus，WaC）的概念，讨论了基于网络数据驱动的语料库研究问题。2000年初名为WaCky！的学术团体成立，2006至2009年间构建了一系列网络语料库（deWaC，frWaC，itWaC，ukWaC），每个都包含了10-20亿词[2]。2011年启动的COW（COrporafromtheWeb）项目构建了面向英、德、法、荷、西和瑞典语的网络语料库，至2014年多数语料分库规模已经逼近100亿词[3]。在CLARIN项目框架内面向南斯拉夫语言的构建了一系列网络语料库（bsWaC，hrWaC，slWaC，srWaC），规模从4亿到20亿词不等[4]。与此同时，俄语网络语料库也得到了新发展，规模较大的如Aranea项目框架内构建的网络语料库包含近15种语言，其中俄语分库根据来源网页域名分为三个分库（RussicumRussicum、RussicumExternum和Russicum）每个分库按照语料规模都有Maius（大型）和Minus（小型）版本，如Russicum的大、小型语料分库分别包含8.5和0.9亿俄文词[5]；TenTen多语种网络语料库项目中每个语种分库都超过10亿词，俄语分库ruTenTen是最大的分库之一[6]；RussianWebcorpora通过500个检索词借助搜索引擎获取语料，总规模约1.47亿词[7]等。

一直以来，俄语国家语料库（НКРЯ）成为大部分学者研究俄语的标准配置，然而该语料库中当代俄语的现时数据占比较少，因此并不十分适应面向现代俄语的语言共时研究。上述网络语料库的构建成果是有目共睹，一定程度上丰富了研究者的语料选择，但都不同程度上存在缺陷，如上述Aranea、ruTenTen语料库旨在面向多个语种，缺乏对俄语的定制性标注与研究。除此之外，包括I-RU在内，这三个语料库规模可观但都缺乏元数据信息不易用于语言学研究，其他小型语料