红楼梦文本分析.docxVIP

下载本文档

159
0
约2.54万字
约 32页
2020-11-22 发布于天津
举报
版权申诉

红楼梦文本分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2013 2013高教社杯全国大学生数学建模竞赛（选拔赛）承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则 ? 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括、电子、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们参赛选择的题号是（从 A/B/C/D中选择一项填写）：我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：参赛队员（打印并签名）：1. 2. 3. 指导教师或指导教师组负责人（打印并签名）：日期：年—月—日赛区评阅编号（由赛区组委会评阅前进行编号）：队员信息表（必须如实填写）学号所属院专业年级指导教师是否有笔记本 7 周怡数学与统计学院统计学 2011 未选定 7 段熙玉数学与统计学院统计学 2011 未选定 8 林阳机电与信息工程软件工程 2010 未选定注：如未选定指导教师可不填写“指导教师”一栏编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：赛区评阅记录（可供赛区评阅时使用）：评阅人评分 □ □ □ □ □ □ 备注 □ 全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）对《红楼梦》文本的计算机识别方法的研究与设计本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。针对问题一，我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本，我们提取文本中和文本标题中的人名作为特征项，用matlab编程分别统计每个人名在各个段落中的频数。通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关，因此不需要采取主成分回归分析。通过系统聚类分析，我们得到了聚类图，从中得出了主演人物之间的关系。通过层次划分，我们将样本一划分为两层，样本二划分为两层，样本三划分为两层。最后通过matlab编程统计样本中虚词的频数，并且分别对样本中虚词总体和各个虚词进行统计，运用计算风格学理论，我们得出前八十回与后四十回作者的行文风格存在差异。针对问题二，我们对聚类分析、层次划分、行文风格进行了检验。对于聚类分析的结果，我们与从对文本概述的文学概括分析得到的人物关系进行比较检验，验证了聚类分析结果是可靠性。对于层次分析，我们通过用 Excel对数据做出折线图，对图形进行分析，得出与用层次分析算法得出的相同的人物关系结论。针对问题三，我们计算了各个样本中主要人物的比重，做出了折线图，从图中我们得出了文本结构一致性的结论，体现了三个样本的相同性。通过计算同一个人物在不同样本中的频数（以黛玉为例），我们得出各个样本由于主题思想的不同主要人物也有差异。最后说明模型的优缺点及需要改进的地方。关键字：系统聚类计算风格学文本层次分析一、问题重述文本（text ）,与讯息（message的意义大致相同,是有一定的符号或符码组成的信息结构体，这种结构体可采用不同的表现形态，如语言的、文字的、影像的等等。文本是由特定的人制作的，文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此，由文本容分析，可以推断文本提供者的表述方式，意图和目的。文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据，要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。在分析问题是我们了解到目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性：（1）特征项要能够确实标识文本容；（2）特征项具有将目标文本与其他文本相区分的能力；（3）特征项的个数不能太多；（4）特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。因