- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据与数据挖掘实验系统大数据的特点来源复杂,数据质量差异较大数据关系复杂,难以用传统的关系型数据库描述数据量大,达到PB级别大数据分析的基石 大数据实验系统所支撑的学科与课程大数据与数据挖掘实验类别大数据实验系统整体框架大数据与数据挖掘实验基础软件数据挖掘基础语言环境——R语言最为流行的开源统计与数据挖掘软件可跨平台运行,高效的脚本语言为数据分析和显示提供的强大图形功能丰富的高质量的开源第三方算法软件包大数据分析环境——Hadoop开源大数据分析的事实标准大量的互联网公司作为实际生产平台方便的Java开发环境不断演进的良好生态环境大数据实验平台网络拓扑服务器端R计算服务Hadoop集群学生端开发环境(R和Hadoop)测试环境(微型Hadoop集群)大数据实验系统实验内容(1)数据挖掘展示性实验用于展示常用数据挖掘算法的作用,使用者通过实验系统所提供数据集,直观理解数据挖掘算法的输出结果实验类型实验名称数据挖掘展示性实验数据基础统计实验数据预处理实验组合算法分析实验分类算法实验聚类算法实验离群检测实验时间序列分析实验大数据实验系统实验内容(2)数据挖掘R语言开发实验利用实验系统提供的R语言环境,针对提供的数据集,开发实现常用的数据挖掘算法实验类型实验名称数据挖掘R语言开发实验数据基础统计实验数据预处理实验组合算法分析实验分类算法实验聚类算法实验离群检测实验时间序列分析实验大数据实验系统实验内容(3)大数据基础实验利用实验所提供的Hadoop环境,完成从系统搭建到基本的MapReduce算法的实验,其数据集为实验用小数据集实验类型实验名称大数据基础实验Hadoop环境的搭建实验基础MapReduce开发实验迭代式MapReduce程序和计数器实验分区、排序和合并算法实验Hive的使用实验大数据实验系统实验内容(4)综合性实验利用实验所提供的Hadoop环境以及真实数据集,完成大数据开放性分析实验,单个实验数据集大小在500MB与2GB之间。实验类型实验名称大数据基础实验超市零售数据分析实验NetFlix电影数据分析实验新浪微博消息分析实验带有情感标签的微博数据分析实验网络安全日志分析实验出租车GPS位置分析实验社交资源共享站点用户行为分析实验实验平台管理方式B/S架构的管理体系,系统分为管理员、教师与学生三种角色管理员管理实验内容以及教师用户注册,教师管理实验开放、实验流程以及学生打分学生用户完成实验内容,提交实验报告虚实结合的实验平台以虚拟机的方式提供实验开发环境以学生端虚拟化的方式提供本地Hadoop环境以后台服务方式提供R语言自动运行服务以Shell方式提供支持大数据的Hadoop运行环境自动化实验管理平台学生端实验环境自动启动与环境恢复服务端资源自动分配与调度实验数据集自动化准备与初始化实验过程说明(1)数据挖掘展示性实验实验过程说明(2)数据挖掘R语言开发实验实验过程说明(3)大数据基础实验实验过程说明(4)综合性实验大数据实验平台硬件环境设备性能指标备注主管理节点2U机架式服务器Windows Server操作系统数量 2台CPU:双至强处理器 (E5-2660或以上)内存:4*16G DDR3 (可扩充至24*16G)硬盘: 2TB*4 SAS 120G*2 SSD (支持RAID5)网口:2个或以上千兆网卡计算节点机架式服务器Windows Server操作系统数量可选(0~4)CPU:强处理器 (E5-2660或以上)内存:4*8G DDR3 (可扩充至24*8G)硬盘: 2TB*4 SAS 120G*2 SSD (支持RAID5)网口:2个或以上千兆网卡谢谢
文档评论(0)