- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据是什么?
1 大数据的v3定义
1.1 volume:数量
在2000 年,全球存储了800,000 PB 的数据。我们预计到2020 年,这一数字会达到35 ZB。单单Twitter 每天就会生成超过7 TB 的数据,Facebook 为10 TB,一些企业在一年中每一天的每一小时就会产生数TB 的数据。
2005年,全球共产生了 1300亿 GB 的数据 ,预计到 2020年将增至 40万亿 GB 的水平。
1.2 variety:种类
随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、Web 日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。而且,传统系统可能很难存储和执行必要的分析,以理解这些日志的内容,因为所生成的许多信息并不适合传统的数据库技术。在我们的经验中,尽管一些公司正在朝大数据方向大力发展,但总体而言,大部分公司只是刚开始理解大数据的机会。
1.3 velocity:速度
就像我们收集和存储的数据量和种类发生了变化一样,生成和需要处理数据的速度也在变化。对速度的传统理解通常考虑数据多快到达并进行存储,及其相关的检索速率。要理解速度,一种思考问题的新方式必须从数据产生的时刻开始。不要将速度的概念限定为与您的数据存储库相关的增长速率,我们建议动态地将此定义应用到数据:数据流动的速度(产生到分析的速度)。
2大数据的应用
你知道吗,在篮球比赛中,投篮地点和拿下前场篮板的几率存在着一个固定的关系:球员每远离篮板一英尺,拿下前场篮板的几率就会降低1%,但到三分线时,几率又突然变大;此外,90%投丢的球都可以在距离篮板11英尺的范围内拿下。
这不是编出来的数据,也不是老教练的经验之谈,而是南加州大学(USC)的两位教授Rajiv Maheswaran和Yu-Han Chang的论文结论。
而这一切,也都要归功于那个已经被用滥了的词——大数据。
早在2010-2011赛季,联盟就开始给一些球队,诸如小牛、凯尔特人、马刺和火箭等的场馆内装上了内置芯片的摄像头。这些摄像头分布在场馆的六个角落,会以每秒25次的频率对球员和裁判还有球进行动作追踪,并进行数据反馈。等到上个赛季,使用这些摄像头的球队已经达到了15支。
“我们可以捕捉球员场上的移动数据,做出最好的决策、打法、球员安排等。”Yu-Han说。通过扩大大数据算法、机器学习技术的应用和新视觉呈现方法的设计,来把数据转化为有价值的信息,让教练甚至普通的观众都能够看懂,最后“帮助优秀的团队获得胜利。”
当然大数据的应用不仅仅用于体育运动
2.1 医疗大数据 看病更高效
除了较早前就开始利用大数据的互联网公司,医疗行业是让大数据分析最先发扬光大的传统行业之一。医疗行业拥有大量的病例,病理报告,治愈方案,药物报告等等。如果这些数据可以被整理和应用将会极大地帮助医生和病人。我们面对的数目及种类众多的病菌、病毒,以及肿瘤细胞,其都处于不断的进化的过程中。在发现诊断疾病时,疾病的确诊和治疗方案的确定是最困难的。
在未来,借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助更多人及时进行治疗。同时这些数据也有利于医药行业开发出更加有效的药物和医疗器械。
医疗行业的数据应用一直在进行,但是数据没有打通,都是孤岛数据,没有办法进行大规模应用。未来需要将这些数据统一收集起来,纳入统一的大数据平台,为人类健康造福。政府和医疗行业是推动这一趋势的重要动力。
2.2 生物大数据 改良基因
自人类基因组计划完成以来,以美国为代表,世界主要发达国家纷纷启动了生命科学基础研究计划,如国际千人基因组计划、DNA百科全书计划、英国十万人基因组计划等。这些计划引领生物数据呈爆炸式增长,目前每年全球产生的生物数据总量已达EB级,生命科学领域正在爆发一次数据革命,生命科学某种程度上已经成为大数据科学。
我们来看看今天的准妈妈们,除了要准备尿布、奶瓶和婴儿装,她们还会把基因测试列入计划单。基因测试能让未来的父母对于他们未出生的baby的健康有更多的了解。对基因携带者筛查和胚胎植入前诊断,使一个家庭孕育小孩的过程产生了巨大改变。
当下,我们所说的生物大数据技术主要是指大数据技术在基因分析上的应用,通
文档评论(0)