大数据课程总结报告.doc

下载文档 降价啦

6886
0
约4.71千字
约 11页
2017-05-30 发布于湖北
举报
版权申诉
保障服务

大数据课程总结报告.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据创新课程总结报告创新

******************* 创新课程 ******************* 兰州理工大学计算机与通信学院 2015年秋季学期学习总结报告专业班级：计算机科学与技术13级4班姓名：尚锞学号：指导教师：王艳成绩：摘要 1 一、数据分析与处理概述 2 1.1数据分析 2 1.2　数据处理 3 二、算法理论 4 2.1　随机森林算法 4 2.2　高斯混合模型 5 三、算法实现 5 3.1随机森林算法 5 3.2高斯混合模型 6 四、仿真试验结果及分析 7 4.1随机森林算法 7 4.2高斯混合模型 8 五、结束语 8 参考文献 9 摘要数据(Data)是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。本文介绍了多种数据分析与处理的方法，数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。关键词：数据处理、数据采集、存储、检索一、数据分析与处理概述越来越多的应用涉及到大数据，这些数据的属性，包括数量，速度，多样性等等都是呈现了数据不断增长的复杂性，所以，数据的分析方法在数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。基于此，数据分析的方法理论有哪些呢？ 1.1数据分析 PredictiveAnalyticCapabilities（预测性分析能力）数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。我们知道由于非结构化数据的多样性带来了数据分析的新的挑战，我们需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。可视化是给人看的，数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。假如大数据真的是下一个重要的技术革新的话，我们最好把精力关注在大数据能给我们带来的好处，而不仅仅是挑战。数据处理时代理念的三大转变：要全体不要抽样，要效率不要绝对精确，要相关不要因果。具体的大数据处理方法其实有很多，但是根据长时间的实践，笔者总结了一个基本的大数据处理流程整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，以及挖掘。采集数据的采集是指利用多个数据库来接收发自客户端的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。统计/分析统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。导入/预处理虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中