聚类分析方法在文学作品风格比较中应用.docVIP

下载本文档

69
0
约6.27千字
约 13页
2018-09-18 发布于福建
举报
版权申诉

聚类分析方法在文学作品风格比较中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析方法在文学作品风格比较中应用

聚类分析方法在文学作品风格比较中应用　　摘要：本文从毕飞宇和苏童两人的作品中分别选取了四本影响力比较大的小说组建成语料库来作为本次实验的语料来源，选取出50多个可量化统计且具有稳定性的语言特征，进行聚类分析，发现，若以语气词（啊、吗、呀等）、标点符号（逗号、句号、分号、问号、感叹号等）和实词词类（名词、动词、形容词、副词等）这些语言特征为基础的话得到的结果比较好，说明这些语言特征在区别毕飞宇和苏童的小说时具有区别性作用。　　关键词：计算风格学文本风格聚类分析 SPSS 　　1.引言　　计算风格学是使用统计、计算的方法来对特定文学作品风格进行精密的比较研究是一门学科，是一门交叉型学科，是数理语言学的一个分支，涉及到语言学、计算机、数理学等多个学科。其理论基础为认为文本的语言特征表现了作者个人在写作活动中的言语特征，是作者个人风格不自觉的深刻反映[1]，并且这些特征又可以在一定程度上通过数量特征来进行刻画，关于这一点，有学者进行了实验验证[2]。因此，相较于传统的内省式的研究文学作品风格的方法，计算风格?W的方法具有独特的优势，比如对已得出的定性结论的正确性进行验证，为已有的定性结论提供数据支撑，这样，不仅能够弥补传统的文学作品风格研究方法客观性不足的问题，而且能够使研究结论从模糊的定性判断走向了准确的数量展示，增加研究结论的科学性。因此，目前国内外已经有很多学者开始使用这样新的研究方法对文学作品的风格进行研究。　　因为计算风格学的方法是通过量化文本中的语言结构单位来刻画、研究语体、作品或作家的风格，所以，最重要的地方在于提取出能代表或区分不同风格的语言特征，并且这些特征一定是可被量化统计且能够稳定出现的。目前，已经提出、证实能够代表作家作品风格的、能够稳定出现的可量化统计语言特征主要是从词汇、句子、段落、语法、语义等五个方面来进行提取的，其中从词汇和句子两个层面来提取语言特征的情况最多，这主要是因为现在中文自动分词、词性标注、命名实体标注等技术相对来说比较成熟。同时，受限于现在语义标注技术的不成熟，计算风格分析中关于语义方面的语言特征的选取、分析目前还很少，同样的，在篇章层面进行计算风格分析的情况也很少。　　关于计算风格学的研究方法，经历了从简单地统计某些特定语言结构单位的出现频率，到引入t检验、卡方检验等假设检验统计量，再到使用典型相关分析、主成分分析、因子分析等多元统计方法的发展历程，目前最前沿的研究方法是利用机器学习领域中的文本聚类和文本分类模型来实现计算机基于作品风格的自动文本区分[3]。因此，聚类分析是目前文本风格研究中一种比较新颖、重要的研究方法。聚类分析是一种无监督的机器学习方法，所谓无监督的机器学习方法即无需预先对文本进行人工标注，也不需要训练过程，而是将文本之间的距离作为衡量之间相似度的标准，最终将文本集合分组成多个类或簇，使得同一个类中的文本具有较高的相似度，而不同类之间的文本内容差异较大。而本文将采用聚类的方法对毕飞宇和苏童两位作家小说的语言风格进行比较研究。　　从毕飞宇和苏童方面来看，这两位作家都是国内当代有分量的江苏籍男性作家，且两人年龄相近，在创作主题方面都比较关注女性的命运。在他们的作品中，既有先锋文学的创作，又有新写实的描摹，既有对历史的思考，又有对当下生活的关注。但是，目前对毕飞宇、苏童小说的风格研究大多属于“文艺风格学”，关注点主要放在作品思想情感、意象、艺术性等方面。本文将使用聚类分析的方法来对两位作家的语言风格进行比较研究。　　2.实验　　2.1语料选择　　本文选取毕飞宇与苏童各自最具有代表性的四部小说建立语料库，分别为毕飞宇的《玉米》、《推拿》、《青衣》、《平原》，共约53万字和苏童的《妻妾成群》、《米》、《黄雀记》、《河岸》，共约58万字。然后，对毕飞宇和苏童各自的语料进行自动分析、词性标注处理和人工校对。因为语料库的质量直接关系到最后实验结果的准确性，因此该部分任务很重要。　　表1 毕飞宇、苏童所选文本字数统计　　2.2语言特征的选择　　在前面引言中提到过，在使用计算风格学的方法对文学作品的风格进行比较分析时，无论采用何种具体的实验方法，都需要先进行语言特征的提取。语言特征的提取是真个实验最基础也是最重要的部分。在提取语言特征时，词汇层面包括词长分布、词长变化程度、词类的使用情况（实词、虚词）、高频词的使用、词语使用上的差异、词频统计、词性标记、词的位置、词序、单现词、N元属性等，句子层面的语言特征包括句子的平均长度、标点符号比、句类分布、句式分布和句型分布等。本文主要是从字符、词汇、句子等方面进行了语言特征的提取、统计，最后共提取到50多个语言特征，涵盖实词词类、虚词、高频词、句长等多个方面。但是，并不是所有的语言特征都