- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Perl
Perl R在语料库语言学中应用
摘要:
语料库语言学需要从大规模文本提取语言特征,通过量化分析研究语言规律。现有语料库工具过于注重索引和检索功能,无法开展涉及?驮油臣频亩嘁蛩胤治觥Mü?3个基于语料库的研究实例,探讨编程语言Perl和R在研究方法层面的应用。结果表明,Perl和R能够处理大规模文本,进行多变量统计与可视化分析,可以弥补现有语料库软件的不足,帮助研究者分析数据与验证假设,为后续定性研究奠定基础。
关键词:
语料库语言学;语料库工具;Perl;R
DOIDOI:10.11907/rjdk.172822
中图分类号:TP312
文献标识码:A文章编号文章编号2018)001005303
Abstract:Corpus linguistics aims to find language patterns based on linguistic features extracted from largescale texts. However, current corpus tools are dedicated to developing concordance and search functions while lack of functions to perform multivariate statistical analysis. This paper illustrates with three case studies how programming languages such as Perl R can be used in corpusbased linguistic studies. It is found that Perl can extract linguistic features from texts and organize them in formats that are amenable to statistical analysis in R. When combined, these two kinds of software can help researchers explore the linguistic data and validate search hypothesis in a more flexible way and complement the functions of readymade corpus tools.
Key Words:corpus linguistics; corpus tools; Perl; R
0引言
基于语料库的语言学研究需要借助工具处理大量文本文件,提取其中的语言特征进行统计分析。目前,语料库工具已由第一代单机版进化到第四代网络版,界面更加友好,运行速度更快,可以帮助研究者开展基于词表、搭配和主题词等功能的研究[12]。但现有工具过于注重检索和索引功能,无法处理涉及复杂数据的多变量统计问题,研究者仍需编写程序满足特定的研究需求。本文探讨如何用编程语言Perl和R解决现有工具面临的技术问题,帮助研究者开展基于语料库的量化实证研究。
1Perl R简介
Perl的模式匹配功能强大,擅长从大规模语料中提取各种词汇和语法特征[3];R支持描述性、推论性和探索性统计以及数据可视化分析,在基于用法的语言学(usagebased linguistics)研究中应用广泛[4]。使用Perl R开展量化研究涉及以下3个步骤:①建立子语料库。语料库通常包括丰富的元信息,如国别、区域、年代和文本类型等。Perl可以根据元信息从大型通用语料库提取文本,构建面向特定研究问题的子语料库;②检索语言特征。Perl可以从经过词性或句法标注的语料中提取词汇语法特征,构建特征矩阵;③进行统计分析。用R处理步骤②得到的矩阵,分析特征变量间的关系,并以可视化方式呈现结果。
本文通过3个案例说明如何结合Perl和R开展基于语料库的语言学研究。
2案例分析
2.1短语框架
在语料库语言学中,短语框架是指由两个以上词语构成,反复出现的连续或非连续词语组合[5]。Sinclair[6]将语言中的短语化倾向称为习语原则,是意义研究的基本单位。短语并不是完全固定的,在具体语境中,其内部会产生变化,例如4词短语框架“as * as the”中的 “*” 可由不同单词替换,如“as well as the”、“as far as the”和“as soon as the”等。
本案例考察BNC语料库国际事务类文本中3~6词短语框架的分布情况,只
您可能关注的文档
最近下载
- 室外给水排水管道及设施安装-08SS523 建筑小区塑料排水检查井.pdf VIP
- ihi trx寿力离心空压机操作手册使用说明书.pdf
- 2024全新婴幼儿喂养ppt课件.pptx VIP
- 开幕式活动方案.docx VIP
- 冠脉介入治疗术后并发症护理及预防.doc VIP
- 中职语文拓展模块教学计划.docx VIP
- 中职《新时代劳动教育教程》课程标准.docx VIP
- 中国传媒大学-实用播音教程-普通话语音和播音发声(一)-课件.pptx VIP
- 人教版2025高中地理选择性必修一用“芯”解读青藏高原的时光变迁——自然环境的整体性 课件.pptx VIP
- 密闭式吸痰操作规范.docx VIP
文档评论(0)