15统计模型与统计实验第二篇第八章红楼梦与统计建模1.pptx

15统计模型与统计实验第二篇第八章红楼梦与统计建模1.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第八章《红楼梦》与统计建模

开篇不谈《红楼梦》,读尽诗书也枉然,曹公若懂概率论,不让马尔可夫链。——国际红学大会未入选论文;;用数理统计方法确定一部文学作品的作者,国外已有先例,《静静的顿河》一书是不是前苏联作家肖洛霍夫所写,这个问题曾经引起了很大的争议,战争名著《静静的顿河》可以说从它诞生起便没有平静过,围绕它的作者所引起的争议,就像它获得诺贝尔文学奖一样,撼动文坛,有人指控肖洛霍夫是个骗子,《静静的顿河》不是肖洛霍夫写的,真正的作者是费奥尔克鲁乌科夫,而肖洛霍夫只不过将已去世作家未出版的手稿重新改写了前两卷的5%,后两卷的30%,就改头换面地以他的名义发表,那么它的作者到底是谁?挪威奥斯陆大学的前苏联文学教授盖尔克其萨用电子计算机对该文学作品进行了分析研究,其别具一格的论文曾发表在世界知名的权威杂志《计算机与人文科学》上,轰动一时,那么,他是怎样把数理统计引入这本名著的研究的呢?;克其萨教授与他的挪威、瑞典同事,使用乌普沙拉大学的一台IBM370/155电子计算机,对《静静的顿河》的文章风格与其他一些特点与克鲁科夫的提供作品进行了统计分析:抽取样品,编制程序,测定句子长度,计算词类的分布与组合情况,力求得出一个客观的结论。他们主要研究了三个重要参数,为了对比,把肖洛霍夫的无可争议的作品作为第一组,《静静的顿河》作为第二组,克鲁乌科夫的作品作为第三组,第一个参数是一部作品中不同的词汇量与总词汇量的百分比统计,结果表明:第一组为65.5%,第二组为64.6%,两者非常接近,而第三组却只有58.9%,明显低于前两个数据,这说明,克鲁乌科夫在他的作品中,更喜欢经常重复使用同样的词汇。

第二个参数是词汇分布频率,学者们选取了20个俄文中常见的词汇,来研究比较他们占作品中的全部词汇的百分比,分别是:第一组22.8%第二组23.3%第三组26.2%,第一组与第二组比较接近。;最后一个参数是作品中出现过一次的词汇所占的百分比,对此肖洛霍夫的作品为80.9%,《静静的顿河》为81.9%,克鲁乌科夫的作品则只有76.9%。

研究表明,所有参数都存在一致的趋势,即克鲁乌科夫的作品与《静静的顿河》之间,存在着显著的统计差异,由此可见,这部杰作的真正作者很难说是克鲁乌科夫,相比之下,肖洛霍夫更像是《静静的顿河》的原作者了。

我们知道,每个人写作的风格都有所不同,古人也不例外,有的喜欢用“之”“乎”,有的喜欢用“者”“也”,根据常用字在文中出现的次数多少(数学上称为频率),就可以看出风格上的差别,文章的作者就不言就明了;根据这样的原理,我国学者李贤平运用47个虚字在《红楼梦》中的每一回出现的频率,通过计算距离等各种统计方法,探索了这部书各回写作风格的接近程度,发现红学家们的意见是正确的??红学家们的说法第一次用数学方法得到了证明。这一成果以“《红楼梦》成书新说”为题刊载于1987年《复旦学报》社科版第三期,是我国文学史上用数学方法研究文学最成功和最轰动的一次。;可以预见,文学的研究中将会越来越多用到数学方法。

运用统计科学是如何鉴定《红楼梦》的作者?

过去我们对《红楼梦》的作者持有异议,多数是从人文和历史角度去分析和鉴定,我们也曾经沿着这样的路子去思考过这个问题,近日恰巧发现原来不少学者对通过统计方法计算得出的《红》的作者这个问题上也很有兴趣,而且有些学者的研究过程和研究成果很让我们敬佩。

从“数理语言学”到“语言统计学”,从中国到国外,不论是研究的人数还是机构组织,总的来说还不少,我们就举“语言统计学”对《红》研究说起。

语言统计学,顾名思义就是根据作者的写作特点,规定一定范围的有效词语作为最高使用概率进行计算。

1954年瑞典的汉学家高本汉对《红》前80回和后40回的38个字的考察得出结论是前后为一个作者,这个结论看来可以初步推论这位汉学家的汉学水平可能还是不够高的,可能是选字上出了问题。;在中国,有一对夫妇赵冈和陈钟毅用了“了”“的”“若”“在”

“儿”五个字的出现频率分别作均值T的检验,得出前80回和后40回明显不同,但是没有更具体的结论。

1981年美国威斯康辛大学的讲师陈炳藻首次借助计算机从字词出现的频率进行统计处理,得出《红》的120回均属曹雪芹所作。

1983年华东师范大学的陈大康对全书的字词句做了详尽的统计分析,并发现了一些专用词如“端性”“索性”“越性”在各回中的出现情况得出前80回为曹雪芹一人所为,后40回作者

文档评论(0)

医药前沿 + 关注
实名认证
内容提供者

专业医药相关文档服务

1亿VIP精品文档

相关文档