- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                大数据创新课程总结报告
                    *******************
创新课程
*******************
  
 兰州理工大学
 
计算机与通信学院
 
2015年秋季学期
  
  学习总结报告  
    
专业班级:    计算机科学与技术13级4班 
姓    名:            尚 锞                  
学    号:                        
指导教师:           王 艳                
成    绩:                        
摘  要	1
一、数据分析与处理概述	2
1.1数据分析	2
1.2 数据处理	3
二、算法理论	4
2.1 随机森林算法	4
2.2 高斯混合模型	5
三、算法实现	5
3.1随机森林算法	5
3.2高斯混合模型	6
四、仿真试验结果及分析	7
4.1随机森林算法	7
4.2高斯混合模型	8
五、结束语	8
参考文献	9
   
摘  要
 数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。
本文介绍了多种数据分析与处理的方法,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
关键词:数据处理、数据采集、存储、检索
    
一、数据分析与处理概述
越来越多的应用涉及到大数据,这些数据的属性,包括数量,速度,多样性等等都是呈现了数据不断增长的复杂性,所以,数据的分析方法在数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,数据分析的方法理论有哪些呢?
   1.1数据分析
PredictiveAnalyticCapabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
数据处理时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
采集
数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的
                您可能关注的文档
- 外国教育史试题.doc
- 外国教育史复习题+名词解释.doc
- 夏季高温施工作业注意事项.doc
- 外发五金模具的验收标准.doc
- 复杂动态性.doc
- 外国新闻传播史重点笔记.doc
- 外墙弹性涂料施工方案(东花岗八工区).doc
- 外墙涂料工程合同书(精典)201676.doc
- 外墙弹性涂料招标舟荣招2010()号.doc
- 外墙保温维修施工方案.doc
- 2025-2026普通高中英语学业水平考试复习手册专题04 动词语态(原卷版).doc
- 2025-2026普通高中英语学业水平考试复习手册专题05 非谓语动词(原卷版).doc
- 2025-2026普通高中英语学业水平考试复习手册专题08 名词性从句(原卷版).doc
- 2026年广东高考数学总复习:专题08 立体几何初步(知识梳理+考点精讲)(原卷版).doc
- 2026年广东省春季高考语文试卷试题及答案详解(精校打印版).doc
- 2026年广东高考数学总复习:专题07 解三角形和复数(知识梳理+考点精讲)(原卷版).doc
- 2026年广东高考数学总复习:专题01 集合与常用逻辑用语(知识梳理+考点精讲)(原卷版).doc
- 2026年广东高考数学总复习:专题02 不等式(知识梳理+考点精讲)(原卷版).doc
- 5年(2021-2025)上海高考数学真题分类汇编:专题06 解三角形 原卷版.doc
- 5年(2021-2025)上海高考数学真题分类汇编:专题07 函数的应用 原卷版.doc
最近下载
- 全氟化合物污染:我国重点流域和地区的饮用水安全新挑战.docx VIP
- 搭配中的学问 教案 2025北师大版数学三年级上册.doc
- DB14T-道地中药材生态种植技术通则及编制说明.pdf VIP
- 基于对等架构的虚拟电厂.docx VIP
- 2025及未来5年中国化妆品展柜市场分析及数据监测研究报告.docx
- 小学-英语-外研版(三起)-外研版(三起)小学英语三年级上册期中考试模拟试卷(一).docx VIP
- 关于成立广东省护士协会全科医学专委会的申请.docx VIP
- (高清版)B-T 24353-2022 风险管理 指南.pdf VIP
- 第八单元习作:友好相处(素材积累)-2023-2024学年二年级语文上册单元作文能力提升(统编版).docx VIP
- 部编版七年级上册语文期中检测试卷(含答案).doc VIP
 原创力文档
原创力文档 
                        

文档评论(0)