大数据创新课程总结报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
******************* 创新课程 ^^4 ^^4 ^^4 ^^4 f f 兰州理工大学 计算机与通信学院 2015年秋季学期 摩习总穡報告 专业班级: 计算机科学与技术13级4班 姓 名: 学 号:指导教师: 卫變 成 绩: TOC \o 1-5 \h \z 摘要 1 \o Current Document 一、 数据分析与处理概述 2 \o Current Document 1.1数据分析 2 \o Current Document 1.2数据处理 3 \o Current Document 二、 算法理论 4 \o Current Document 2.1随机森林算法 4 \o Current Document 2.2高斯混合模型 5 \o Current Document 三、 算法实现 5 \o Current Document 3」随机森林算法 5 \o Current Document 3.2高斯混合模型 6 \o Current Document 四、 仿真试验结果及分析 7 \o Current Document 4.1随机森林算法 7 \o Current Document 4.2高斯混合模型 8 \o Current Document 五、 结束语 8 \o Current Document 参考文献 9 数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置 进行处理。数据经过解释并赋予一定的意义Z后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。 木文介绍了多种数据分析与处理的方法,数据分析是指用适当的统计分析方 法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研 究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据 分析可帮助人们作出判断,以便采取适当行动。数据处理的基本冃的是从大量的、 口J能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们來说是 有价值、有意义的数据。 关键词:数据处理、数据采集、存储、检索 、数据分析与处理概述 越来越多的应用涉及到大数据,这些数据的屈性,包括数量,速度,多样性 等等都是呈现了数据不断增长的复朵性,所以,数据的分析方法在数据领域就显 得尤为重要,可以说是决定最终信息是否有价值的决定性因索。基于此,数据分 析的方法理论有哪些呢? 1?1数据分析 Predict!veAnalyticCapabi 1 ities (预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可 视化分析和数据挖掘的结果做出一些预测性的判断。 DataQualit^^andMasterDataManagement (数据质量和数据管理) 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具 对数据进行处理可以保证一个预先定义好的高质量的分析结果。 AnalyticVisualizations (可视化分析) 不管是对数据分析专家述是普通用户,数据可视化是数据分析工具最基本的 要求。可视化可以直观的展示数据,让数据口己说话,让观众听到结果。 ScmanticEngincs (语义引擎) 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要 一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档” 屮智能捉取信息。 DataMiningAlgorithms (数据挖掘算法) 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还 有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量, 也要处理大数据的速度。 假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数 据能给我们带来的好处,而不仅仅是挑战。 1.2数据处理 数据处理时代理念的三人转变:要全体不要抽样,要效率不要绝对精确,要 相关不要因果。具体的大数据处理方法其实有很多,但是根据长吋间的实践,笔 者总结了一个基本的大数据处理流程,整个处理流程可以概描为四步,分别是采 集、导入和预处理、统计和分析,以及挖掘。 采集 数据的采集是指利用多个数据库來接收发自客户端的数据,并且用户可以通 过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数 拯库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这 样的NoSQL数据库也常用于数据的采集。 在数据的采集过程中,其主要特:点和挑战是并发数高,因为同时有可能会有 成千上万的用户來进行访问和操作,比如火车票售票网站和淘宝,它们并

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档