用计算风格学证明“作者是谁”.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用计算风格学证明“作者是谁”

维普资讯 14 数 学通 讯 2005年第2,4期 用计算风格学证明“作者是谁 甘志国 (竹溪县一中,湖北 十堰 442300) 1 《红楼梦》是否一人所作 计算风格学可被应用来解决这种问题,我们 红《楼梦》成书迄今已逾200年,作为中 看两个例子. . 国最重要的小说之一,它不仅感动了中国人, 出现于 16世纪90年代的一部五幕剧 也得到其他民族的重视与喜爱,《红楼梦》有 《爱德华三世》,表现了14世纪英王爱德华三 各种不同的版本,数十种续书,流传到世界各 世统治时期勇武的骑士精神,但该剧作者究 国,被翻译成各种文字,透过不同的文字翻 竟是谁,戏剧界争论了几百年.不久前,通过 译,感动了不同民族的人民. 电脑对该剧的语言风格进行分析,莎翁作品 长期以来,人们普遍认为曹雪芹只写了 的权威机构——阿顿公司正式确认 3,《爱 红《楼梦》的前80回,后40回是高鄂续写,但 德华三世》是莎士比亚的一部早期作品.莎剧 数学统计进入文学领域后,这个定论遭到了 专家说,这部作品本身所表现出的深刻人性、 计算机的质疑.1981年,首届国际 《红楼梦》 博大精深和文辞语言的华丽无可辩驳地 “同 研究会在美国召开,美国威斯康星大学讲师 莎士比亚自己的声音”证明了它的来源. 陈藻独树一帜,宣读了题为 从《词汇上的统计 1964年,美国统计学家摩斯泰勒和瑕莱 论(红楼梦)作者的问题》的论文,首次借助计 斯考证了12篇署名 “联邦主义者”的文章作 算机进行 红《楼梦》研究,轰动了国际红学界. 者,可能的作者是两个人,一个是美国开国政 陈炳藻从字、词出现的频率人手,通过计算机 治家汉密尔顿,另一位是美国第四任总统麦 进行统计、处理、分析,对 红《楼梦》后40回系 迪逊.究竟是哪一位呢?统计学家在进行分 高鄂所作这一流行看法的提出异议,认为 析时发现汉密尔顿和麦迪逊在已有著作中的 120回均系曹雪芹所作. 平均句长几乎完全相同,这使得这一能反映 语体风格是人们在语言文字表达活动中 写作风格特征的数据此时失效了.于是统计 的个人言语特征,是人格在语言文字活动中 学家转而从用词习惯上来找出这两位作者的 的某种体现.这种风格可以在一定程序上通 有区别性的风格特征,最后终于找到了两位 过数量特征来刻画.例如,句长和词长可以代 作者在虚词的使用上有明显的不同,汉密尔 表作者造词句的风格,当然,反映作者风格的 顿已有的18篇文章中,有 14篇使用了 “e. 不是单个词的词长和单个句子的句长,而是 nough”一词,而麦迪逊在他的14篇文章中根 以一定数量的语料为基础的平均句长和平均 本未使用 “enough”一词.汉密尔顿喜欢用 词长;此外,字、词在作品中出现的频率也是 “while”,而麦迪逊总是用 “whilst”.汉密尔顿 个人风格的体现.利用计算机计算一部作品 喜欢用 “upon”,而麦迪逊很少用.然后,再把 或作者平均词长和平均句长,对作品或作者 两位可能的作者的上述风格特征指标,与未 使用的字、词、句的频率进行统计研究,从而 知的12篇署名 “联邦主义者”的文章中表现 了解作者的风格,这被称之为计算风格学.计 出来的相应的风格特征进行比较,结果发现 算风格学现在在社会科学领域成为一门饶有 那位署名 “联邦主义者”的作者就是美国第四 趣味的学科,尤其判断作者真伪,考证作者疑 任总统麦迪逊.这样就了结了这一考据学上 难方面更是大显身手.u.2 长期悬而未决的公案.两位统计学家所使用 2 让佚名作者现身 的数学方法也得到了学术界的认可. “作者考证”有时是一个很困难的问题。

文档评论(0)

shaofang00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档