- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据与数据挖掘实验系统v2-复件剖析
大数据与数据挖掘实验系统
大数据的特点
数据量大,达到PB级别
来源复杂,数据质量差异较大
数据关系复杂,难以用传统的关系型数据库描述
大数据分析的基石
大数据实验系统所支撑的学科与课程
大数据与数据挖掘实验类别
数据挖掘验证类实验
数据挖掘算法设计类实验
大数据分析基础类实验
大数据分析实战分析实验
大数据实验系统整体框架
大数据与数据挖掘实验基础软件
数据挖掘基础语言环境——R语言
最为流行的开源统计与数据挖掘软件
可跨平台运行,高效的脚本语言
为数据分析和显示提供的强大图形功能
丰富的高质量的开源第三方算法软件包
大数据分析环境——Hadoop
开源大数据分析的事实标准
大量的互联网公司作为实际生产平台
方便的Java开发环境
不断演进的良好生态环境
大数据实验平台网络拓扑
服务器端
R计算服务
Hadoop集群
学生端
开发环境(R和Hadoop)
测试环境(微型Hadoop集群)
大数据实验系统实验内容(1)
数据挖掘展示性实验
用于展示常用数据挖掘算法的作用,使用者通过实验系统所提供数据集,直观理解数据挖掘算法的输出结果
实验类型
实验名称
数据挖掘展示性实验
数据基础统计实验
数据预处理实验
组合算法分析实验
分类算法实验
聚类算法实验
离群检测实验
时间序列分析实验
大数据实验系统实验内容(2)
数据挖掘R语言开发实验
利用实验系统提供的R语言环境,针对提供的数据集,开发实现常用的数据挖掘算法
实验类型
实验名称
数据挖掘R语言开发实验
数据基础统计实验
数据预处理实验
组合算法分析实验
分类算法实验
聚类算法实验
离群检测实验
时间序列分析实验
大数据实验系统实验内容(3)
大数据基础实验
利用实验所提供的Hadoop环境,完成从系统搭建到基本的MapReduce算法的实验,其数据集为实验用小数据集
实验类型
实验名称
大数据基础实验
Hadoop环境的搭建实验
基础MapReduce开发实验
迭代式MapReduce程序和计数器实验
分区、排序和合并算法实验
Hive的使用实验
大数据实验系统实验内容(4)
综合性实验
利用实验所提供的Hadoop环境以及真实数据集,完成大数据开放性分析实验,单个实验数据集大小在500MB与2GB之间。
实验类型
实验名称
大数据基础实验
超市零售数据分析实验
NetFlix电影数据分析实验
新浪微博消息分析实验
带有情感标签的微博数据分析实验
网络安全日志分析实验
出租车GPS位置分析实验
社交资源共享站点用户行为分析实验
实验平台管理方式
B/S架构的管理体系,系统分为管理员、教师与学生三种角色
管理员管理实验内容以及教师用户注册,教师管理实验开放、实验流程以及学生打分
学生用户完成实验内容,提交实验报告
虚实结合的实验平台
以虚拟机的方式提供实验开发环境
以学生端虚拟化的方式提供本地Hadoop环境
以后台服务方式提供R语言自动运行服务
以Shell方式提供支持大数据的Hadoop运行环境
自动化实验管理平台
学生端实验环境自动启动与环境恢复
服务端资源自动分配与调度
实验数据集自动化准备与初始化
实验过程说明(1)
数据挖掘展示性实验
实验过程说明(2)
数据挖掘R语言开发实验
实验过程说明(3)
大数据基础实验
实验过程说明(4)
综合性实验
大数据实验平台硬件环境
设备
性能指标
备注
主管理节点
2U机架式服务器
Windows Server
操作系统
数量 2台
CPU:双至强处理器 (E5-2660或以上)
内存:4*16G DDR3 (可扩充至24*16G)
硬盘: 2TB*4 SAS
120G*2 SSD (支持RAID5)
网口:2个或以上千兆网卡
计算节点
机架式服务器
Windows Server
操作系统
数量可选(0~4)
CPU:强处理器 (E5-2660或以上)
内存:4*8G DDR3 (可扩充至24*8G)
硬盘: 2TB*4 SAS
120G*2 SSD (支持RAID5)
网口:2个或以上千兆网卡
谢谢
文档评论(0)