基于语料库词汇特征分析.docVIP

基于语料库词汇特征分析.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语料库词汇特征分析

基于语料库词汇特征分析   摘 要:《爱玛》是英国女作家简?奥斯汀的经典作品之一。本文以FLOB语料库作为参照语料库,建立《爱玛》对比语料库,借助语料库检索工具Wordsmith5.0、AntConc3.2.1和自动词性赋码器Treetagger2,对比分析两个语料库的主题词、平均词长、词性分布、词频信息等层面的词汇特征,基于分析结果阐释《爱玛》的女性主义词汇特征。   关键词:语料库语言学 《爱玛》 词汇特征 女性主义   语料库语言学兴起于20世纪80年代,是一门新兴学科,它致力于文本的检索、取样、分析以及统计,可以为文本,尤其是具有情节性的文学文本的分析提供重要的理论依据。[1] 简?奥斯汀是英国历史上重要的女性小说家,在英国小说的发展史上具有承上启下的作用。长篇小说《爱玛》创作于1815年,是其艺术思想上最为成熟的一部,属于女性主义文学文本范畴。女性主义这一思想流派出现于19世纪70年代,恰为简?奥斯汀生活的时代,这一思想批判男性中心论,赞美女性本质。本文拟采用语料库语言学方法,从词频、词长、主题词、词类分析等角度,研究和揭示《爱玛》女性主义的词汇特征,为英国女性主义小说群体词汇特征研究提供更为科学、客观的数据支撑。   一、语料库建构与数据提取   (一)语料库建构   语料库的建构主要包括:文本收集、文本整理和清洁以及文本的标注等。[2]对比语料库《爱玛》由从网站下载的《爱玛》电子文档建立,[3]在文本处理中,删除所有冗余信息,只保留题目、作者、日期和正文。本文采用FLOB语料库(Freiburg- LOB Corpus of British English)作为参照语料库,FLOB语料库为LOB语料库的更新,收录了20世纪90年代英国英语语料,是英语本族语语料库。   (二)数据提取   本研究使用由英国利物浦大学Mike Scott研制的语料库文本分析软件Wordsmith Tools5.0,对参照语料库和对比语料库分别进行处理和分析。同时使用自动词性赋码器TreeTagger2对《爱玛》文本进行词性赋码的简单操作。之后使用由日本早稻田大学Laurence Anthony编写的文本检索软件Antconc3.2.1,用正则表达式提取不同词类,以分析《爱玛》文本的词类信息。   二、语料库词汇分析   (一)词???分析   运行Wordsmith5.0,分别载入《爱玛》和FLOB语料库,利用软件中WordList功能,分析《爱玛》和FLOB语料库的词频信息:   形符(tokens)是一个语言单位,文本有多少个词,就有多少个形符。总形符数是语料库容量的最常用的测量单位。统计结果显示:《爱玛》总形符数为164085、FLOB总形符数为1235264,因此这两个语料库从容量上来说相差近7.5倍。   类符(types)是一个统计单位,指不重复计算的形符数。一个文本的类符数就是该文本不同词形的数量。[4]统计结果显示:《爱玛》和FLOB的类符数分别为7456和45543。   类符/形符比(TTR)常用来衡量文本中词汇密度。词汇密度在一定程度上反映了文本的某种本质特征,即用词的多样性。[5]统计结果显示:《爱玛》的类符/形符比为4.55,而FLOB的类符/形符比为4.53。 但因两库容量相差悬殊,功能词等的存在使得得出的文本词汇密度显得很不合理,故采用标准化类符/形符比来计算词汇密度。   标准化类符/形符比(STTR)是将所得到的若干个类符/形符比进行均值处理,最终得到的数值。这两个语料库的STTR值分别为:《爱玛》为39.75、FLOB为39.03。由以上数据我们了解到《爱玛》的词汇使用更加灵活,词汇量更为丰富。而这与简?奥斯汀的写作背景有关,由于终生居住在乡村小镇,接触到的是中小地主、牧师等人物以及他们恬静、舒适的生活环境,因此她的作品里没有重大的社会矛盾。主要是描绘她在狭小生活圈子里所熟悉的中产阶级的家庭生活,相比于同时代其他作家关注实事变化、大气蓬勃的写作风格,她总是以女性特有的细致入微的观察力和活泼风趣的文字真实地描绘她周围世界的小天地,具有观察细致、人物刻画惟妙惟肖、评论尖刻等艺术特色。[6]而这也正是她的作品《爱玛》词汇密度大、词汇量丰富的原因。   (二)词长分析   平均词长(mean word length)是指语料库中单词所包含字母的平均数。一般而言,平均词长越长,文本越深奥复杂;词长越短,文本越浅显易懂。   WordList统计结果显示:《爱玛》语料库的平均词长为4.27,而参照语料库的平均词长为4.37。《爱玛》较多使用生活口语和简易词汇,是因为《爱玛》多为生活场景的描写、人物行为动作的刻画或人物心理的描绘,当然这与简?奥斯汀朴素无华、通俗易懂、形象生

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档