- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用案例分析
目录大数据概念1大数据处理措施2大数据应用案例3
1大数据概念
大 数 据 时 代 到 来伴随智能手机的普及,网民参加互联网产品和使用多种手机应用的程度越来越深,顾客的行为、 位置、甚至身体生理等每一点变化都成为了可被统计和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:在2023 年,个人顾客才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;据IDC研究机构预测:到2023 年,整个世界的数据总量将会增长44 倍,达成35.2ZB(1ZB=10 亿TB)!1PB = 2^50字节1EB = 2^60字节1ZB = 2^70字节GB在2023 年,这个数字达成了1.8ZB。TBPBEB ZB01
大 数 据 的 构 成大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的处理方案海量交易数据: 企业内部的经营交易信息主要涉及联机交易数据和联机 分析数据,是构造化的、经过关系数据库进行管理和访 问的静态、历史数据。经过这些数据,我们能了解过去 发生了什么。海量交互数据: 源于Facebook、Twitter、微博、及其他起源的社交媒 体数据构成。它涉及了呼喊详细统计CDR、设备和传感 器信息、GPS和地理定位映射数据、经过管理文件传播 Manage File Transfer协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。能够告 诉我们将来会发生什么。海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的 架构。例如具有开放源码、在商品硬件群中运营的 Apache Hadoop。注:大数据 不但仅指的是数据量庞大,更为主要的是数据类型复杂想驾驭这庞大的数据,我们必 须了解大数据的特征。02
大 数 据 4V 特 征03构造化数据、半构造化数据和非构造化 数据如今的数据类型早已不是单一的文本形式,网络日志、 音频、视频、图片、地理位置信息等,对数据的处理 能力提出了更高要求实时获取需要的信息例如:在客户每次浏览页面,每次下订单过程中都会 对顾客进行实时的推荐,决策已经变得实时数据量巨大全球在2023 年正式进入ZB 时代,IDC估计到 2023 年,全球将总共拥有35ZB 的数据量沙里淘金,价值密度低虽然数据量很大,但是价值密度较低,怎样经过强大 的机器算法更迅速地完毕数据价值“提纯”,是目前 大数据亟待处理的难题大数据产品市场价值处理方案转化1. 海量(Volume)3.速度( Velocity)4. 价值(value)2. 多样(Variety)
2大数据处理措施
用 户 画 像 体 系01每个企业都不能够防止的要对顾客进行画像,顾客画像的提出,根本上是源于企业对顾客认知的需求。 产品经理,需要了解顾客的特征,对产品进行功能的完善。内容运营人员,需要筛选目的顾客,对内容进 行精确投放。活跃程度怎样?年龄分布、区域分布是什么样的?消费习惯和特征是什么?企业在哪?对什么感爱好?常去的商圈是哪儿?获利点在哪?职业是什么?常住地在哪儿?购置能力怎样?基本特征?
用 户 画 像 体 系02驾驶行为数据将构建精确的车险顾客画像性别年龄国籍地理位置开车地点职业驾照类别开车频率开车原因健庩情况医疗条件感知力学习周期消费习惯民族特征教育水平婚姻状态共用车辆情况生活方式使用药物情况酒驾经历疲劳驾驶收入情况碰撞事故车辆维修犯罪统计违章驾驶统计 驾驶时间经过对顾客不同维度的大数据分析,最终得出可执行的业务决策。基本属性行为习惯购置 能力心理 特征社交 网络兴趌 爱好
基于机器学习的数据挖掘及分类基本辨认流程03训练样本 数据源分词特征选择特征权重计算模型训练是模型评估是否经过待预测 类别文 本库文本打 上类别 标签否训 练 及 测 试 过 程预 测 过 程训练生成 的模型训练生成 的模型待预测类 别文本原 始库数据预处理训练样本库数据预处理a.清除营销博文干扰 b.清除提及人的干扰(@) c.清除如门户的作者的干扰
大 数 据 的 处 理04数据 去重空值 处理数据 去噪格式 统一对齐融合融合信息 数据库融合信息 数据库里程数据工况数据充电数据行驶轨迹车辆信息将空值更改为 相应的默认值使用UGC算法清除无用数据 使用基于密度的聚类清除异常数据将多源异构数据转换 为统一数据体现形式清除异常的数据项汇聚多源异构数据 中的一致部分数据挖掘分类的过程
3大数据应用案例
大数据是做好音乐平台的一把利器01爽歪的麻雀,在电线杆上裸睡削个椰子皮,你却TM给个梨撒米拉带带,哇嘎哇嘎哎哟想听的歌记不起名字???呀马大叔与小舅舅四斤大豆,三根皮带艾薇,莎啦啦,艾瑞噢喔噢喔,手
您可能关注的文档
最近下载
- 《我的鞋带我会系》小学一年级劳动教育PPT课件.ppt VIP
- 语文三年级上册默写通关训练.pdf VIP
- 2025年大学试题(艺术学)-艺术概论考试近5年真题集锦(频考类试题)带答案.docx
- 空调支吊架工艺2.docx
- NB∕T 32037-2017 光伏发电建设项目文件归档与档案整理规范.pdf VIP
- 人教版二年级下册数学精品教学课件 第7单元 7.2.1计数单位“万” (3).ppt VIP
- 一种钢质管道周围环境杂散电流的收集利用装置及方法.pdf VIP
- 4-铁路运输客运杂费.pptx VIP
- (统编版2024)语文七年级上册 第二单元 专题学习活动《 有朋自远方来》 教学设计(新教材).docx
- 2025《我国辽西地区体育旅游资源现状调查及可持续发展对策》8500字.docx VIP
文档评论(0)