基于相对熵作品作者判定方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于相对熵作品作者判定方法

基于相对熵作品作者判定方法   摘 要: 本文提出了一种新的、较为简便的、即基于字层面的文本风格判定方法,即使用两篇文本中的相同字做相对熵来计算两篇文本在用字方面的差异。通过对《红楼梦》前80回和后40回的内部相对熵比较,证明了其方法的可行性。又通过对李伯元的《官场现形记》、《活地狱》和《文明小史》与存在作者争议的《海上繁华梦》做文本间的相对熵比较,得出了《海上繁华梦》确实不为李伯元所作的结论。   关键词: 相对熵 作者判定 《红楼梦》 李伯元 《海上繁华梦》   1.引言   近年来随着语言研究的现代化,运用计算机和统计学的知识来分析文学作品的问题,已经引起了社会科学和计算机科学界的普遍关注(李国强,李瑞芳,2006)。西方文体学界从20世纪30年代就开始关注定量分析,“人们开始利用这种方法去研究圣经书籍的著作权以及柏拉图等古典作家的著作年代,这其实就是在对作家个人风格或时代风格等进行科学的描写分析的基础上进行的,”这种研究经历了从最初的由手工计算到运用具有高速的运算能力计算机辅助计算,以实现更大规模、更加精确的定量分析。   而关于汉语风格的研究应始于20世纪七八十年代,黎运汉认为分析综合法、比较法和统计法是语言风格研究中常用的三种方法①,国内最早正式倡导建立“计算风格学”的是钱锋和陈光磊两位学者,他们主张将计算机技术和数学方法相结合应用到风格学的研究当中。当然,语言风格研究的应用之一便是对文本作者的考证,如曾受到广泛关注的《红楼梦》作者问题等,也有不少的学者从定量分析的角度提出了自己的看法,这在下文会有详细介绍。   本文提出了一种新的计算文本风格的方法,即借助计算机和统计学的方法,来计算两篇文本间相同字的相对熵。本文在验证同一篇文本内部相对熵差异程度的同时,也对不同文本间的相对熵进行了比较,发现也具有可行性。   2.相对熵   相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence,简称KLD),用以表示两个概率分布的距离。对一个离散随机变量的两个概率分布p和q来说,他们的KL散度定义为:D(p||q)=■(p(x))*log(p(x)/q(x)))。其中p(x)和q(x)为两个概率分布,相对熵不是严格意义上的距离,典型情况下,p表示数据的真实分布,q表示数据的理论分布、模型分布或p的近似分布。相对熵具有非负性(即D(p||q)≥0)和不对称性(即D(p||q)≠D(q||p),除非对于所有的x,有p(x)=q(x))。   在自然语言处理时,可以利用相对熵进行分类或者是利用相对熵来衡量两个随机分布的差距,当两个随机分布相同时,其相对熵为0,当两个随机分布的差别增加时,其相对熵也增加。在这里我们使用相同字作为随机分布的量,首先把一部文本中的相同字的随机分布作为其真实分布,来分别计算与其他文本中的相同字的分布的距离,其结果越接近,则我们认为这两篇文本的用字风格越相近,反之,结果越大,则其用字风格越有差距,即提出相对熵越小,则两篇文本的用字风格越相近,反之,相对熵越大,则其用字风格越有差距的假设。   3.《红楼梦》的作者判定研究   比较早的用统计的方法来研究《红楼梦》语言的可以算是瑞典汉学家高本汉(1954),他取了《红楼梦》中的24个语词进行统计并得出了前80回和后40回为曹雪芹一人所写的结论。持同样观点的还有美国威斯康星大学的陈炳藻先生,他在1980年6月的首届国际《红楼梦》讨论会上发表了《从词汇统计论证红楼梦的作者》一文,并在1986年发表了《电脑在文学上的应用:〈红楼梦〉与〈儿女英雄传〉两书作者用词的比较》一文,后又出版了《电脑红学:论〈红楼梦〉作者》的专著。陈炳藻先生利用计算机对《红楼梦》前80回和后40回的用字进行了测定,并从数理统计学的观点出发,探讨《红楼梦》前后用字的相关程度,由此推断出后40回也出自曹雪芹之笔的结论(吕光明,2008)。   对此,持不同观点的学者有蒋文野、王世华、刘钧杰、陈大康、张卫东、刘丽川、严安政、俞敏、晁继周、郑庆山、黄晓惠等(汪维辉,2010)。陈大康(1987)结合《红楼梦》各个版本间的比较,采用数理统计的方法,分别从词、字、句的角度否定了陈炳藻的说法。他分别对27个专用词、46个字和89758个句子的句长分布及平均句长等共88个项目进行了考察,不仅否定了前80回和后40回为同一作者的说法,也得出了后四十回的前半部分中含有曹雪芹的少量残稿。同样,李贤平(1987)也对陈炳藻的观点做出了驳斥,他发表的《lt;红楼梦gt;成书新说》一文中将《红楼梦》120回看成是120个样本,以与情节无关的47个虚词作为变量,统计出每一回里变量出现的次数,用多元统计中的聚类分析法进

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档