- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据导论小组分析报告xxxxxx
-1.数据来源01目录Content
11.数据来源
1.数据来源1近六年的入学测试以及招生数据:着重分析近三年即2021,2022,2023年的数据入学测试文件内容:涵盖学生总成绩及各模块入学成绩,既有具体至每到小题的成绩,也有汇总的各模块成绩2
1.数据来源招生文件内容:包含考生来源省份以及高考总成绩、各科成绩2.数据预处理数据表中有众多缺失数据2018年入学测试共有7257条记录:完整记录数为6718条,缺失记录数为539条2021年招生数据共有8781条记录:完整记录数为8235条,缺失记录数为546条2022年招生数据共有8561条记录:完整记录数为8471条,缺失记录数为90条
1.数据来源2023年招生数据共有8566条记录完整记录数为8412条,缺失记录数为154条在处理入学成绩时将试卷编号为空的作为缺失数据,在数据中找到筛选,筛选出缺失数据后全部选中删除在处理招生数据时发现有部分学院的成绩有缺失,通篇浏览找出数据缺失部分,选中并删除。农村发展学院的成绩几乎全为0或是无数据,作为缺失数据,筛选后处理删除
1.数据来源5.通过以下操作,或者复制粘贴,将数据导入合并到一个excel文件中,以方便处理数据3.数据分析
1.数据来源(一)参数分析利用各种函数进行计算分析可得到图左的数据参数分析:其中,平均值—average函数
1.数据来源中值—,模式(众数)—求和—sum函数计数—countA函数偏斜值—峰值—区域—最大值—max函数,最小值—min函数标准偏差—标准方差—
1.数据来源(二)统计分析分析成绩分布的标准是大于90分的是优秀:80分-89分为良好,70分-79分为中等,60-69分为及格,60分以下为差等用数据透:视表以均值为指标分析学院间的差距
1.数据来源用怎样的方法:获得所有学生练习中的及格率(不及格率)?成绩的中间分数段频数最多:两边分数段频数较少,成绩成正态分布从模块成绩的得分率来看:中文打字模块和windows基础较好,excel模块和ppt模块基础较差
1.数据来源给出平均成绩排名前十名的专业和排名后10名专业:观察这些专业的各模块掌握情况按照招生学院:统计6年中各学院、各专业的最高分、最低分、平均分根据招生数据:统计全校男女生人数、信息学院各专业的男女生人数
1.数据来源(三)相关预测分析高考成绩:与生源所在地之间是否有关系?高考科目:成绩与生源所在地之间是否有关系?计算机入:学测试是否存在各地区的差异?
1.数据来源计算机入:学测试成绩与高考成绩有关系吗?计算机入:学测试成绩是否存在各地区的差异(由于数据主要为省内建议以市为单位)?近6年的入学测试成绩:选取不同的指标计算,观察大学生计算机水平是否有规律性变化,如逐年提高,尝试预测今年入学测试的结果?近6年的招生数据:制作学校或感兴趣的学院的最大值、最小值、平均值的趋势图,观察专业或者学院的招生变化趋势?每年录取人数的变化图
1.数据来源01025.分析体会4.数据可视化
1.数据来源(一)反思总结通过深入学习大数据导论这门课:我们深刻的认识到了大数据导论是一门涉及大规模数据处理、分析和应用的学科。在完成本次大作业的过程中,运用到了以下知识以及手法进行分析数据收集和清洗:选择一个具有足够规模和丰富特征(即能体现出应用与参考价值)的数据集,并使用适当的方法收集和清洗数据,比如整理并删除缺失数据数据存储和处理:将清洗后的数据合并存储到适当的数据库或分布式存储系统中,并使用合适的技术处理和管理数据数据分析和挖掘:运用统计学和数据透视表等方法,对数据进行分析和挖掘,发现其中的模式、关联或趋势
1.数据来源可视化与展示:使用合适的工具和技术,将分析结果创立柱形图,折线图,雷达图等,以可视化控制面板的方式展示,帮助更好地理解和利用数据(二)联想与应用利用所学的知识和技术进行数据收集、清洗、存储、处理、分析和可视化:以下是一些示例联想和未来应用的领域
1.数据来源健康医疗领域金融领域城市规划与交通管理利用大规模的医疗数据集,进行疾病预测、诊断支持和个性化治疗等方面的研究。通过分析患者的病历、生理指标和基因组数据,可以为医生提供更准确的诊断和治疗建议利用大量的金融数据,如交易记录、市场行情和客户信息等,进行风险评估、投资策略优化和欺诈检测等方面的应用。通过分析数据,可以帮助金融机构更好地管理风险、制定有效的投资决策和及时发现异常交易利用城市各种传感器和交通数据,进行交通流量预测、交通拥堵分析、智能交通信号优化等方面的研究。通过分析数据,可以提供城市规划者和交通管理者更好的决策支持,提升城市交通效率和减少拥堵
1.数据来源社交媒体分析:基于大规模的社交媒体数据,进行舆情分析、用
文档评论(0)