大数据应用案例分析-1.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[就业工作培训资料[就业工作培训资料[就业工作培训资料

大数据应用案例分析 目录 大数据概念 1 大数据处理办法 2 大数据应用案例 3 1 大数据概念 大 数 据 时 代 到 来 随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。 地球上至今总共的数据量: 在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据; 据IDC研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)! 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节 GB 在2011 年,这个数字达到了1.8ZB。 TB PB EB ZB 01 大 数 据 的 构 成 大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案 海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。 海量交互数据: 源于Facebook、Twitter、微博、及其他来源的社交媒 体数据构成。它包括了呼叫详细记录CDR、设备和传感 器信息、GPS和地理定位映射数据、通过管理文件传输 Manage File Transfer协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。可以告 诉我们未来会发生什么。 海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的 架构。例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。 注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂 想驾驭这庞大的数据,我们必 须了解大数据的特征。 02 大 数 据 4V 特 征 03 结构化数据、半结构化数据和非结构化 数据 如今的数据类型早已不是单一的文本形式,网络日志、 音频、视频、图片、地理位置信息等,对数据的处理 能力提出了更高要求 实时获取需要的信息 比如:在客户每次浏览页面,每次下订单过程中都会 对用户进行实时的推荐,决策已经变得实时 数据量巨大 全球在2010 年正式进入ZB 时代,IDC预计到 2020 年,全球将总共拥有35ZB 的数据量 沙里淘金,价值密度低 虽然数据量很大,但是价值密度较低,如何通过强大 的机器算法更迅速地完成数据价值“提纯”,是目前 大数据亟待解决的难题 大数据 产品 市场价值 解决方案 转化 1. 海量(Volume) 3.速度( Velocity) 4. 价值(value) 2. 多样(Variety) 2 大数据处理办法 用 户 画 像 体 系 01 每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。 产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进 行精准投放。 活跃程度如何? 年龄分布、区域分布是什么样的? 消费习惯和特征是什么? 公司在哪? 对什么感兴趣? 常去的商圈是哪儿? 赢利点在哪? 职业是什么? 常住地在哪儿? 购买能力如何? 基本特征? 用 户 画 像 体 系 02 驾驶行为数据将构建精准的车险用户画像 性别 年龄 国籍 地理位置 开车地点 职业 驾照类别 开车频率 开车原因 健庩状况 医疗条件 感知力 学习周期 消费习惯 民族特征 教育水平 婚姻状态 共用车辆情况 生活方式 使用药物情况 酒驾经历 疲劳驾驶 收入情况 碰撞事故 车辆维修 犯罪记录 违章驾驶记录 驾驶时间 通过对用户不同维度的大数据分析,最终得出可执行的业务决策。 基本 属性 行为 习惯 购买 能力 心理 特征 社交 网络 兴趌 爱好 基于机器学习的数据挖掘及分类基本识别流程 03 训练样本 数据源 分词 特征选择 特征权重计算 模型训练 是 模型评估 是否通过 待预测 类别文 本库 文本打 上类别 标签 否 训 练 及 测 试 过 程 预 测 过 程 训练生成 的模型 训练生成 的模型 待预测类 别文本原 始库 数据预处理 训练样本 库 数据预处理 a.去除营销博文干扰 b.去除提及人的干扰(@) c.去除如门户的作者的干扰 大 数 据 的 处 理 04 数据 去重 空值 处理 数据 去噪 格式 统一 对齐融合 融合信息 数据库 融合信息 数据库 里程数据 工况数据 充电数据 行驶轨迹 车辆信息 将空值更改为 对应的默认值 使用UGC算法去除无用数据 使用基于密度的聚类去除异常数据 将多源异构数据转换 为统一数据表达形式 去除异

文档评论(0)

wendan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档