- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【精选】红楼梦的文本分析探索人物之间的关系
《红楼梦》的文本分析
摘要
《红楼梦》作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究《红楼梦》中的人物关系疏密度具有重要意义。
本文以所选《红楼梦》文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。
首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。
关键词
人物关系 疏密度 数理统计方法 绝对值距离 幂律分布
问题重述
文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。基于数理统计的方法对文本进行分析一直以来是一个热点。对于《红楼梦》的文本分析,目前已有很多人从不同的角度提出了分析方法。如运用聚类分析对虚词分析(1987,[1]),运用独立样本检验动词和名词的搭配(2009,[2])以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。
问题分析
每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。可用绝对值距离来反映两人物的出现的位置的邻近程度,可认为绝对值距离与两人物的邻近程度近似成反比关系。因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。基于此来建立我们的数学模型。
模型假设
假设人物名字出现的频数与人物的主次成正相关,出现次数越多,越是主要人物。
假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时,可认为人物A与人物B的关系较为密切(这里的关系指两人间的关联,而非带有感情色彩的关系);反之,可认为人物A与人物B的关系较为疏远。
符号说明
:选取的文字去除停用词后的样本;
:选取的文字去除停用词后的样本1;
:选取的文字去除停用词后的样本2;
:选取的文字去除停用词后的样本3;
: 样本的总字数;
:样本的总字数;
:样本的总字数;
:样本的总字数;
:从样本中提取的人物;
:从样本中提取的人物1;
:从样本中提取的人物2;
… …
:从样本中提取的人物n;
:人物出现位置的相对数值;
:人物第1次出现的相对位置;
:人物第2次出现的相对位置;
… …
:人物第m次出现的相对位置;
:人物与人物关系疏密度;
模型建立与求解
模型的建立
记从《红楼梦》中选取的某段文字去除停用词后记为样本,所选的三段文字去除停用词后分别记为,对于样本,它的总字数为,三个样本的总字数分别记为,从样本中提取的某人物记为,提取的n个人物分别记为,人物某次出现的相对位置记为,m次出现的相对位置分别记为,的定义为
上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小,在使用Matlab处理时会出现较大误差。
人物()m次出现的相对位置组成的一维向量用表示。
定义样本中人物与人物关系疏密度如下:
;
;
;
其中,如果,则令;
的定义:
将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为。
引入r的意义:
由于可能出现特别小的情况,当特别小时,会特别大,为了避免过大而引起出现较大误差,故引入r,当时,令;r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为,可使上述误差大大降低,而且所得结果与事实符合的较好。
模型的意义:
当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时,可认为人物与人物的关系较为密切;反之,可认为人物与人物的关系较为疏远。
我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。
观察,我们可以看到当有多个出现位置
您可能关注的文档
最近下载
- 成都市金牛区2020-2021学年下学期一年级期末考试语文试卷(部编版).pdf VIP
- 儿科“一科一品”之做有温度的护理人.pptx VIP
- 2025年广州数学中考试题及答案.doc VIP
- 中文释义 PASS图解速记高中词汇正序版.xlsx VIP
- 辅警招聘考试公安基础知识(情景分析题)模拟试卷3(题后含答案及解析).pdf VIP
- 工程质量风险分级管控清单 .pdf VIP
- 生物医学工程先进制造:第一章 绪论-2015.ppt VIP
- 培养员工归属感培养员工归属感.ppt VIP
- 古方上篇后八方.张志峰老师讲解和答疑2016.3.5.doc VIP
- JingChaDaXue《灭火救援指挥》期末试卷(A)参考答案.docx VIP
文档评论(0)