- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
参赛队号:#1760
第十五届“SPSSPRO杯”数学中国
数学建模网络挑战赛
承诺书
我们仔细阅读了第十五届“SPSSPRO杯”数学中国数学建模网络挑战赛的竞赛规则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网
上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的
资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参
考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规
则的行为,我们接受相应处理结果。
我们允许数学中国网站()公布论文,以供网友之间学习交流,数学中
国网站以非商业目的的论文交流不需要提前取得我们的同意。
我们的参赛队号为:1760
参赛队员(签名):
队员1:
队员2:
队员3:
参赛队教练员(签名):
参赛队伍组别(例如本科组):研究生组
参赛队号:#1760
第十五届“SPSSPRO杯”数学中国
数学建模网络挑战赛
编号专用页
参赛队伍的参赛队号:(请各个参赛队提前填写好):
1760
竞赛统一编号(由竞赛组委会送至评委团前编号):
竞赛评阅编号(由竞赛评委团评阅前进行编号):
参赛队号:#1760
2022年第十五届“SPSSPRO杯”数学中国
数学建模网络挑战赛第二阶段论文
题目基于Albert-TextCNN与DBSCAN文本聚类的唐宋诗分析
关键词唐宋诗;Albert-TextCNN;DBSCAN文本聚类;正向最大匹配
摘要:
唐诗和宋诗是中华文化的优秀瑰宝,是中国文学界的骄傲,深受大众喜爱。对于唐
宋诗的研究一直层出不穷,本文通过定量分析研究唐诗和宋诗之间的差异。
针对问题一,对附件给出的《全唐诗》中5万余首诗和《全宋诗》中26万余首诗
进行分析。首先对文本数据进行化繁为简和去重处理,利用Python里的Jieba中文分词
包对给出的文本数据进行预处理,将每首诗中的字和词划分开,通过去除停用词(助词、
介词、作者名、标点等)来优化分词结果,提高统计效率。然后应用神经网络模型对特
征进行选择和训练,将提取出的高频字词间关联性作为特征进行训练,选择AIBERT-
TextCNN模型作为训练模型,通过迭代卷积计算对文本数据进行标记学习,将转化后的
数据输入分类器,进行分类。最终通过特征识别,将数据分为训练集,测试集及验证集
进行模型数据的迭代训练,从而确定不同的朝代。例如白居易是唐朝诗人,田太竫是宋
朝诗人。
针对问题二,在问题一所得结果的基础上,选用DBSCAN聚类方法以文本特征作
为标准进行聚类。唐宋诗经去停用词,繁简体转换等数据清洗操作后,通过TF-IDF法
对文本进行向量化处理并赋予权值。在DBSCAN聚类过程中对所有诗句计算杰卡德系
数,并将其保存在杰卡德系数矩阵中,进行PCA降维处理,接着将每句诗的杰卡德系
数与范围值作比较,计算杰卡德系数大于范围值的节点数目,即可判断该诗句是否能够
成为核心点,是否有簇形成,从而得到聚类结果。最终依据字词之间的关联性和聚类结
果的分析,得到了情爱悼亡、咏史怀古、山水田园、贬谪流放、边塞战争、赠别思归、
忧民伤乱、言志咏怀8个子类。
您可能关注的文档
最近下载
- 初一育才期末数学试卷.docx VIP
- IEC60364554-2021(翻译稿)低压电气装置第554部分电气设备的选择和安装接地配置.pdf VIP
- 11水平五 高一 田径单元18课时计划-《田径:跨栏跑—跨栏步》教案.docx VIP
- 乌兰察布市2025年初中学业水平考试一分一段人数统计表.xlsx VIP
- 职业健康管理要求.docx VIP
- NOK骨架油封样本.pdf VIP
- NB_T 42088-2016继电保护信息系统子站技术规范.pdf
- 抗菌药物临床应用实行分级管理.ppt VIP
- 验房表格精装修详细版.doc VIP
- DB44_T 2746-2025 骨质疏松高风险人群中医健康管理指南.pdf VIP
原创力文档


文档评论(0)