大数据分析和文学研究.docVIP

下载本文档

134
1
约7.81千字
约 16页
2018-10-08 发布于福建
举报
版权申诉

大数据分析和文学研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据分析和文学研究

大数据分析和文学研究　　“《莎士比亚》是一部专为人脑设计的戏剧，机器不太可能读得更好。” 　　-Denis Tenan，哥伦比亚大学英文系教授　　2011年《纽约时报》发表了一篇暗讽“远距离阅读”（distant reading）理念的文章。“远距离阅读”是由斯坦福意大利裔批评家弗朗哥?莫莱蒂（Franco Moretti）2000年首次提出的概念。他认为文学研究者只读现存书籍中极其微小的一部分是无法揭示文学史真正面貌的，必须使用大量人力来分工阅读不同文本，然后把他们的分析综合起来，得出世界文学中各类体裁发展的规律。这个理念10年后发展为使用机器来处理大量文本的实践，2010年莫莱蒂和马修?乔克思一起（Matthew Jockers）在斯坦福创立了“文学实验室”，研发用电脑算法对文学书籍进行分析的方法。《纽约时报》这篇文章的作者并不理解远距离阅读对深入理解像《哈姆雷特》这样的作品有什么意义，并嘲笑“文学实验室”不过是将剧中人物关系进行图像化分析，得出各人物之间的“距离”，从而证实“哈姆雷特”为《哈姆雷特》剧的主角。“呵呵（Duh）”，作者对这个结论发出了如是评价。　　但莫莱蒂领衔倡导的文学“大数据”分析实际上并不期望对《哈姆雷特》提出胜过人脑的新解。使用电脑算法来分析文本不是让电脑复制人脑的功能或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样，读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文学的时候也往往可以互为体用，互补短长，文学“大数据”分析和学者个人的 “小阅读” 之间存在着许多交融与合作的可能。正因为如此，借助电脑进行文本分析是近年来不断升温的“数字人文”（digital humanities）的一个重要分支。不能说它已经全然被文学研究界的主流所接受，但人们原先持有的误解和怀疑正在慢慢消散。　　一般来说，文学研究所说的“大数据”和商业或管理领域里采集的大数据不属于同一个数量级。斯坦福“文学实验室”建立了一个包含3500本19世纪小说的数据库，18世纪文献库（ECCO）目前已电子化的图书达18多万册，Hathitrust的文献超过了1000万册，而谷歌图书截至2013年已经扫描了超过3000万册图书，虽然这些图书只有少量内容能让公众查阅。相较于商业级别的大数据，比如Google的搜索数据，这些似乎小巫见大巫。但对于文学研究而言，它们代表的是革命性的数量级变化。当然，电子书库面临版权限制，而且由于电子化技术有限，扫描文本的识别也并非十全十美，但这并不影响我们认真考虑一下机器阅读的不同功用。　　一、什么是文学研究中的“大数据”分析　　乔克思在最近出版的著作《大分析》（Macroanalysis，伊利诺伊大学出版社，2013年）一书中解释了 “大数据”分析的基本含义。这是第一本概括介绍文学阐释中进行大数据分析的用途和方法的专著，系统而简明地讲述了使用电脑算法和统计工具来推动文学研究的各种可能性。这本书面向对这个领域不熟悉的传统文学学者，试图减缓他们对“计算文学与语言学”（literary and linguistic computing）的抗拒。乔克思的著作总体反响不错，不过也有统计学和计算语言学的学者对书中提到的具体算法和运算工具提出疑义，毕竟作者是研究爱尔兰文学出身，对统计学并不十分精通。但深入探究具体统计问题的堂奥并不是这本书的目的，其目的在于普及常识，使得数据统计成为文学研究普遍接受的必备手段。要进一步优化具体的统计模型和内在理路，就必须依靠各类研究者跨学科深度合作了。　　从根本上说，目前电脑对文本的分析主要基于词频的统计和词语搭配的分析，许多文学研究者对这样的量化信息并不很感冒，也不相信统计能够改变我们对文学的认识。但即使是起初怀有拒斥心理的传统学者也常常发现计算文学研究对传统的文学阐释法提供了必要的补充。　　人脑在阅读小说或诗歌的时候，不太会注意冠词、介词、代词等与“意义”并无直接联系的词，即使注意，也很少能够记住它们出现的方式或频率，更不要说理解它们在文学作品的语言结构中所起的作用了。人脑在进行文体分析（文笔风格）的时候力量是很微弱的。因此，语言学学者早就已经运用电脑来研究这些封闭类词（closed class words）。借助计算机的研究方法在语言学中逐渐壮大，从而成为了一个独立分支，即语料库语言学。近年来，语料库语言学已经逐渐成为一种能够为其他学科服务的工具。比如，我们可以利用语料库技术来进行文体分析，这就是语料库文体分析（corpus stylistic），这个领域里首屈一指的当属伯明翰大学的Michael Toolan教授。　　用电脑进行文体分析让我们有可能回答一连串与文学史休戚相关的问题，也能启发一些新型问题。比如，