- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文案
精彩文档
《红楼梦》的文本分析
摘要
《红楼梦》作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究《红楼梦》中的人物关系疏密度具有重要意义。
本文以所选《红楼梦》文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。
首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。
关键词
人物关系 疏密度 数理统计方法 绝对值距离 幂律分布
问题重述
文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。基于数理统计的方法对文本进行分析一直以来是一个热点。对于《红楼梦》的文本分析,目前已有很多人从不同的角度提出了分析方法。如运用聚类分析对虚词分析(1987,[1]),运用独立样本检验动词和名词的搭配(2009,[2])以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。
问题分析
每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。可用绝对值距离来反映两人物的出现的位置的邻近程度,可认为绝对值距离与两人物的邻近程度近似成反比关系。因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。基于此来建立我们的数学模型。
模型假设
假设人物名字出现的频数与人物的主次成正相关,出现次数越多,越是主要人物。
假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时,可认为人物A与人物B的关系较为密切(这里的关系指两人间的关联,而非带有感情色彩的关系);反之,可认为人物A与人物B的关系较为疏远。
符号说明
:选取的文字去除停用词后的样本;
:选取的文字去除停用词后的样本1;
:选取的文字去除停用词后的样本2;
:选取的文字去除停用词后的样本3;
: 样本的总字数;
:样本的总字数;
:样本的总字数;
:样本的总字数;
:从样本中提取的人物;
:从样本中提取的人物1;
:从样本中提取的人物2;
… …
:从样本中提取的人物n;
:人物出现位置的相对数值;
:人物第1次出现的相对位置;
:人物第2次出现的相对位置;
… …
:人物第m次出现的相对位置;
:人物与人物关系疏密度;
模型建立与求解
模型的建立
记从《红楼梦》中选取的某段文字去除停用词后记为样本,所选的三段文字去除停用词后分别记为,对于样本,它的总字数为,三个样本的总字数分别记为,从样本中提取的某人物记为,提取的n个人物分别记为,人物某次出现的相对位置记为,m次出现的相对位置分别记为,的定义为
上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小,在使用Matlab处理时会出现较大误差。
人物()m次出现的相对位置组成的一维向量用表示。
定义样本中人物与人物关系疏密度如下:
;
;
;
其中,如果,则令;
的定义:
将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为。
引入r的意义:
由于可能出现特别小的情况,当特别小时,会特别大,为了避免过大而引起出现较大误差,故引入r,当时,令;r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为,可使上述误差大大降低,而且所得结果与事实符合的较好。
模型的意义:
当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时,可认为人物与人物的关系较为密切;反之,可认为人物与人物的关系较为疏远。
我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。
观察,我
您可能关注的文档
- 北大天线理论的课件第一章基本振子天线.doc
- 饱与性黄土隧道施工工法.doc
- 北海旅游项目的考察报告材料.doc
- 北京市东城区2007—2008学年度第一学期期末高三化学的教学目标检测.doc
- 北京市东城区普通高中的示范校2018年度届高三3月联考综合练习二理综试地的题目.doc
- 北京鼎汉通技术有限的公司的无线的测温说明书13.7.10.doc
- 工业的园污水的处理厂全套施工图.doc
- 北洋系列打印机驱动程序安装手册簿簿.doc
- 公交网络的最佳路径研究的.doc
- 公司的培训体系管理系统规章规章制度.doc
- DB12 046.89-2011 产品单位产量综合电耗计算方法及限额 第89部分:手机 .docx
- DB12 046.88-2011 产品单位产量综合电耗计算方法及限额 第88部分:晶振 .docx
- DB12T 419-2010 无公害农产品 核桃栽培管理技术规范 .docx
- DB12T 417-2010 沙化和荒漠化监测技术规程.docx
- DB12T 449-2011 民用建筑四防门通用技术条件.docx
- DB12 046.100-2011 产品单位产量综合能耗计算方法及限额 第100部分: 果汁饮料 .docx
- DB12T 427-2010 葱姜蒜中205种农药多残留测定方法-GCMS法.docx
- DB12T 421-2010 有机农产品 甘薯有机栽培技术规范.docx
- DB12T 426-2010 蔬菜水果中205种农药多残留测定方法-GCMS法 .docx
- 《老年人身体康复》精品课件——项目6 中国传统康复技术.pptx
最近下载
- 心理健康教育三年级上册.pdf
- 人教版三年级上册数学期末试卷及答案.docx VIP
- 广东省深圳市2023-2024学年高一上学期期末英语试题(含答案)6.docx VIP
- 案件线索初步核实培训课件.pptx VIP
- 福建省厦门双十中学2025届物理高二第一学期期末检测模拟试题含解析.doc
- 智慧农业整体解决方案的智能灌溉系统.pptx
- 标准 电动缝纫机 一体式直驱平缝机 GC6880F样张 使用说明.pdf
- 2023年重庆对外经贸学院公共课《思想道德基础与法律修养》科目期末试卷A(有答案).docx VIP
- 《急性阑尾炎》PPT课件-2024鲜版.ppt
- 2020-2021学年济南市历城二中高一(上)期末化学试卷(含答案解析).docx
文档评论(0)