- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据应用案例分析
目录大数据概念1大数据处理办法2大数据应用案例3
1大数据概念
大数据时代到来随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;据IDC研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB=2^50字节1EB=2^60字节1ZB=2^70字节GB在2011年,这个数字达到了1.8ZB。TBPBEB ZB01
大数据的构成大数据=海量数据(交易数据、交互数据)+针对海量数据处理的解决方案海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。注:大数据不仅仅指的是数据量庞大,更为重要的是数据类型复杂想驾驭这庞大的数据,我们必须了解大数据的特征。02
大数据4V特征03结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求实时获取需要的信息比如:在客户每次浏览页面,每次下订单过程中都会对用户进行实时的推荐,决策已经变得实时数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量沙里淘金,价值密度低虽然数据量很大,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题大数据产品市场价值解决方案转化1.海量(Volume)3.速度(Velocity)4.价值(value)2.多样(Variety)
2大数据处理办法
用户画像体系01每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进行精准投放。活跃程度如何?年龄分布、区域分布是什么样的?消费习惯和特征是什么?公司在哪?对什么感兴趣?常去的商圈是哪儿?赢利点在哪?职业是什么?常住地在哪儿?购买能力如何?基本特征?
用户画像体系02驾驶行为数据将构建精准的车险用户画像性别年龄国籍地理位置开车地点职业驾照类别开车频率开车原因健庩状况医疗条件感知力学习周期消费习惯民族特征教育水平婚姻状态共用车辆情况生活方式使用药物情况酒驾经历疲劳驾驶收入情况碰撞事故车辆维修犯罪记录违章驾驶记录驾驶时间通过对用户不同维度的大数据分析,最终得出可执行的业务决策。基本属性行为习惯购买能力心理特征社交网络兴趌爱好
基于机器学习的数据挖掘及分类基本识别流程03训练样本数据源分词特征选择特征权重计算模型训练是模型评估是否通过待预测类别文本库文本打上类别标签否训练及测试过程预测过程训练生成的模型训练生成的模型待预测类别文本原始库数据预处理训练样本库数据预处理a.去除营销博文干扰b.去除提及人的干扰(@)c.去除如门户的作者的干扰
大数据的处理04数据去重空值处理数据去噪格式统一对齐融合融合信息数据库融合信息数据库里程数据工况数据充电数据行驶轨迹车辆信息将空值更改为对应的默认值使用UGC算法去除无用数据使用基于密度的聚类去除异常数据将多源异构数据转换为统一数据表达形式去除异常的数据项汇聚多源异构数据中的一致部分数据挖掘分类的过程
3大数据应用案例
大数据是做好音乐平台的一把利器01爽歪的麻雀,在电线杆上裸睡削个椰子皮,你却TM给个梨撒
文档评论(0)