《大数据分析技术》_鲍鱼年龄预测问题.docxVIP

《大数据分析技术》_鲍鱼年龄预测问题.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE

PAGE2

学号

组长

成员1

成员2

成员3

大数据分析技术

课程设计

课题

鲍鱼年龄预测问题

学生姓名

组长

成员1

成员2

成员3

院部

数学与计算机学院

专业班级

指导教师

二○二三年六月

PAGE3

目录

TOC\o1-3\h\z\u摘要 3

一.问题描述 1

二.数学建模 2

2.1问题分析 2

2.2符号系统 2

2.3合理的简化的假设 2

2.4模型建立 2

三.系统开发 3

3.1系统设计 3

3.1.1系统参数说明 3

3.1.2系统架构 3

3.2系统实现 3

3.3系统使用说明 4

四.结论 5

参考文献 6

摘要

从总体上阐述文章要解决的问题、分析问题的主要思路、针对问题建立的模型以及最终的计算结果,摘要内容不少于500字。

关键词:列出文章中出现的关键词汇及数学用语。

PAGE7

一.问题描述

鲍鱼数据集(AbaloneDataset)有4177条信息,8个输入变量和1个输出变量。数据集中自第1列至第8列是输入变量,是对鲍鱼8个特征的描述,依次是性别(M,F,I)、长度、直径、高度、总重量、剥壳重量、内脏重量、壳重;第9列是输出变量—鲍鱼的年龄,用环的数量来描述。具体见“鲍鱼数据集.xlsx”中“样本”表。

本设计根据所附数据集研究鲍鱼年龄的预测问题。

按如下步骤对数据进行预处理:

(1)对数据先进行描述性统计分析;

(2)对定量变量识别其中的奇异值,并删除所发现的奇异值;

(3)对定量变量进行标准化;

(4)对定性变量进行独热编码。

完成预处理。

应用预处理后的数据建立鲍鱼年龄的下述预测模型:

(1)线性回归模型

(2)一次有理模型

(3)logistic模型

对上述模型的精度进行评估。

将上述解决问题的过程封装为一个pythonapi,用于鲍鱼年龄的识别。

注:需附使用说明。

二.数学建模

2.1问题分析

2.2符号系统

2.3合理的简化的假设

2.4模型建立

2.5模型求解

三.系统开发

将前面研究结果集成为一个系统。

3.1系统设计

3.1.1系统参数说明

一、输入参数

二、输出参数

3.1.2系统架构

AppSVM

建模SVC

训练fit

评估内预测准确率accuracy_score

预测

3.2系统实现

#集成开始

#〇、导库

fromsklearn.svmimportSVC

#导入数据分割函数:将数据分割为训练集和测试集

fromsklearn.model_selectionimporttrain_test_split

#导入模型评估函数

fromsklearn.metricsimportaccuracy_score

#一、算法集成

defAppSVM(X,y,data,c=1,kernel=rbf,gamma=2,test_size=0.3):

#输入参数说明~~~~~~~~~

#1.X,y=对象在其特征上的观测数据及其对应的类别,都是数据框,是已经完成预处理的数据。

#2.data=待识别对象在其特征上的观测值,是一个数据框,是已经完成预处理的数据。

#3.支持向量机参数设置

#c=惩罚因子,应用于SVC;默认参数,默认值为1。

#kernel=指定支持向量机的核函数;默认参数,默认值为“rbf”(高斯核函数)。

#gamma=仅当核函数为“rbf”时有效,是平衡支持向量个数的参数:

#gamma越大,支持向量越少,gamma值越小,支持向量越多;

#默认参数,默认值为1。

#4.test_size=X,y中数据用于测试的比例,默认参数,默认值为0.3。

#输出参数说明~~~~~~~~~

#1.results=字典型数据,其键为:

#labels=对应的预测结果

#accuracy=模型的识别准确率,包含回代准确率和测试准确率

#套路开始

#1.建模

model=SVC(C=c,kernel=kernel,gamma=gamma)

#2.训练

#2.1分割训练集和测试集

X_train,X_test,y_train,y_test=train_test_split(X,y,

文档评论(0)

酱酱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档