大数据-课程介绍_68400868391.pptVIP

下载本文档

39
0
约1.99万字
约 91页
2017-03-30 发布于贵州
举报
版权申诉

大数据-课程介绍_68400868391.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据-课程介绍_68400868391大数据-课程介绍_68400868391

人物画像挖掘大数据实体分析与挖掘实体信息抽取例如用户、商品实体属性挖掘例如性别、年龄、位置等？？人物画像挖掘显式属性 - 抽取系统、屏幕、重量隐式属性 - 挖掘性别，年龄段，职业，位置隐式属性挖掘方法属性特征抽取特征训练与分类属性特征匹配提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核 * * 课程内容分布式文件系统：GFS、HDFS 分布式处理系统：Hadoop，Hive，MapReduce 内存计算系统：Spark，Shark，SAP HANA 流数据管理系统：Storm，S4 新型数据库系统：NoSQL、CAP理论、图系统新型介质上的数据管理：SSD、PCM 分布式数据挖掘时空数据处理技术海量数据融合技术群智计算做研究的一些经验和技巧 * 课程考核 2个大作业：60% Hadoop上实现数据挖掘算法 Spark上算法实现 1个论文报告：20% 论文读后感论文存在问题、新想法、新应用 1个课堂Presentation：20% 自己阅读文献，然后总结例如NoSQL数据库实战比较、图系统优劣分析等。 * 谢谢！全球每秒钟发送 2.9 百万封电子邮件，一分钟读一篇的话，足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube，足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息，假设10 秒钟浏览一条信息，这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟，被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据… * “大数据”起源于2008年《Nature》杂志刊登的“Big Data”专刊。2011 年《科学》杂志也推出大数据专刊。美国出资2亿美元支持《大数据研究与发展计划》，“全面推动信息化”也成为我国十二五计划的重要内容。图灵奖获得者jim gray 预测“大数据探索式”科研将成为继实验、理论、计算之后的第四个科学研究方式。 * 大数据在自然科学与社会科学的各研究领域发挥着越来越广泛的作用。大数据能够辅助社会管理，例如2009年美国爆发甲型 H1N1流感, 美国国家疾控中心收集到的数据与流感实际传播的情况有1-2周的延迟。针对这一情况,谷歌的工程师分析每天数十亿条查询日志,测试了4.5 亿个数学模型,建立较为准确的预测模型, 比疾控中心更加及时准确的获知全球流感传播趋势。大数据还能够推动科技进步、支持商业决策、促进民生改善 * 下面我们以CPI为例讨论大数据研究的意义。考虑居民关心的消费价格指数CPI，它指的是居民购买一篮子生活消费品和服务项目的价格。目前的计算法是：对31各省500个市县6.3万家调查点进行统计分析。目前计算CPI的数据量不足，而与CPI相关的数据是非常庞大的。其实然而这种方法存在如下问题：1 严重滞后1-2周；2不科学，应该计算全国网点的价格，采样的方式是不准确的。 3 和居民物价满意程度相差甚远。据中国人民银行统计，2013年第1季度，居民物价满意指数仅有20% 计算与预测CPI有着广泛的意义，首先能够反映通货膨胀率与居民幸福指数，其次能够辅助CPI统计标准的指定那么如何准确预测CPI呢，这就需要大数据处理的技术。主要是由于与CPI相关的数据非常巨大，例如每天淘宝产生50tb的交易数据下面我先介绍大数据的特点 * 大数据目前还没有公认的定义。维基百科是这样定义的：大数据是传统数据库或数据处理技术不能处理的既大又复杂的数据集合。目前一般用4个V来描述大数据的特点。我们以预测CPI为例，介绍这4个V 1 大规模，计算CPI需要商品信息，淘宝网有5亿用户8亿商品，每分钟5万订单 2 速度高，计算CPI需要关心居民评论，新浪微博每秒产生3万条微博 3 价值稀疏，计算CPI需要居民对商品价格的评论，但是1万条评论中只有1小部分和价格有关 4 形式多样，计算CPI需要使用国家信息中心的经济数据、淘宝商品价格、股票交易等结构化数据，也需要评论等非结构化数据因此预测CPI使用的数据满足大数据的特点，我们需要大数据计算技术来支持CPI的预测 * 数据增长速度与it界的摩尔定律很类似，社交网络、物联网、电子商务，35ZB 的数据全部刻录到容量为9GB 的光盘上，其叠加的高度将达到233 万公里，相当于在地球与月球之间往返三次，全球在2010 年正式进入ZB 时代，预计到2020 年，全球将总共拥有35ZB 的数据量。我们正处于大