大数据营销 课件 1.大数据概论.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.3 传统样本与大数据 1.3.1 传统样本与大数据研究的比较 1.3.2 传统样本与大数据研究的处理 1.3.3 大数据的数据质量 1.3.4 数据校正的方法和案例 1.3.1 传统样本与大数据研究的比较 添加您的文字信息 文本 文本 文本 文本 1. 传统样本研究与大数据研究的特点 1.3.1 传统样本与大数据研究的比较 添加您的文字信息 文本 文本 文本 文本 2. 大数据研究与传统样本研究之间的互补 大数据研究与传统样本研究不同的特点,产生了不一样的差异,然而这些差异通过有效的结合,会产生互补作用。 1.3.2 传统样本与大数据研究的处理 1.3.3 大数据的数据质量 1 6 数据质量评估由四个指标组成 1.3.3 大数据的数据质量 ETL,即抽取(Extraction)、转换(Transformation)和装载(Load), ETL过程的作用是数据过滤,或者说是数据清洗,将原始数据处理成用户直接能用的数据。原始数据之所以要进行ETL处理,主要目的是为了保证数据的正确性,防止错进错出(Garbage In.Garbage Out,GIGO)。GIGO是指如果输入数据存在问题,那么输出数据也肯定存在问题,分析结论可能是错的,失去了数据分析的意义。 ETL需要处理的数据如下。 1.3.3 大数据的数据质量-数据质量评估 (1)完整性(Completeness):完整性用于度量哪些数据丢失了或者哪些数据不可用。 (2)规范性(Conformity):规范性用于度量哪些数据未按统一格式存储。 (3)一致性(Consistency):一致性用于度量哪些数据的值在信息含义上是冲突的。 (4)准确性(Accuracy):准确性用于度量哪些数据和信息是不正确的,或者是超期的。 1.3.3 大数据的数据质量-数据质量保证 介绍一个数据清洗过程 — ETL 过程。ETL,即抽取(Extraction)、转换(Transformation)和装载(Load),ETL 过程的作用是数据过滤,或者说是数据清洗,即将原始数据处理成用户直接能用的数据。原始数据之所以要进行 ETL 处理,主要目的是为了保证数据的正确性,防止错进错出(Garbage In, Garbage Out,GIGO)。ETL 是 BI(商业智能)项目重要的一个环节,处理过程如图。 1.3.3 大数据的数据质量-数据质量保证 (2)数据整合。大数据整合需要具备三个基本要素,分别为保持一致性、保证质量和整合有效。 1)保持一致性。必须要保持各个数据源之间的一致性和相容性,因为不一致的大数据很难做出一个很好的整合。大数据的整合技术中怎么能够找到有效的连接是较为重要的,不同的数据源之间可比较、可连接,是对大数据整合最基本的要求。 2)保证质量。保证每个数据源本身的数据质量过关,才能保障数据没有失真。 3)整合有效。验证数据整合是否有效可以通过一些方法去测试整合后的数据的准确度,比如可以用分离样本法把大数据分成若干子样本,然后进行不同方法的整合确认结果与信息保持一致,这样的整合就是有效的。 1.3.4 数据校正的方法和案例 1.3.4 数据校正的方法和案例 本节小结 1.4 大数据处理应用与分析 1.4.1 大数据的处理与应用 1.4.2 大数据的学习方式 1.4.3 大数据分析技术 1.4.4 大数据建模及算法 1.4.1 大数据的处理与应用 (1)大数据的处理技术 大数据采集、大数据预处理、大数据存储、大数据分析和挖掘、大数据展示等。 ①大数据采集技术 大数据采集技术是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化及非结构化的海量数据技术。常用的数据采集工具有日志采集工具Flume;网络爬虫工具Nutch、Crawler4j、Scrapy。 ②大数据预处理技术 大数据预处理技术就是完成对已接收数据的辨析、抽取、清洗等操作。目前常用的ETL工具有商业软件Informatica和开源软件Kettle。 ③大数据存储与管理技术 大数据存储与管理技术是指将采集到的海量的复杂结构化、半结构化和非结构化大数据存储起来,并进行管理和处理的技术。谷歌公司开发了GFS、MapReduce、Big Table为代表的一系列大数据处理技术被广泛应用。同时涌现出以Hadoop为代表的一系列大数据开源工具。 ④大数据分析与挖掘技术 数据分析与挖掘是大数据处理流程中最为关键的步骤。大数据分析的理论核心就是数据挖掘算法。数据挖掘的算法包括遗传算法、神经网络方法、决策树方法和模糊集方法等。该部分在接下来的内容里会详细介绍。 ⑤大数据展示技术 大数据展示技术解决的是如何将大数据分析的结果直观的展示处理。目

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档