大数据癌症——我们如何对抗什么样的“药”副作用最小.docVIP

大数据癌症——我们如何对抗什么样的“药”副作用最小.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据癌症——我们如何对抗什么样的“药”副作用最小

大数据癌症——我们如何对抗?什么样的“药”副作用最小? 摘要:经过多少年努力,癌症治愈率仅提升了不到8%。羁 Bernard Marr 是大数据布道者,著名科技作家,顶级商业数据专家。本文只有一小部分编译于Bernard Marr写的文章,编译者又扩写了70%的内容。 为什么要编译这篇文章,一方面是讲述大数据在生活中的应用,另一方面,作者则写了一些话: 通过编译与癌症有关的文献得知,有近90%的癌症患病风险与人们的生活方式密切相关,而程序员群体的生活方式,很多都处于不健康或亚健康状态,如熬夜、加班、抽烟、缺乏运动,都是很多程序员的日常生活状态。我们与其用寄希望于用最先进的技术(如大数据)来诊断和治疗癌症,远远不如用良好的生活方式将癌症“扼杀于摇篮当中”。 2015年7月初,李开复先生在癌症医治康复后,在其微博上解嘲自己:大家以后不要叫我李开复,叫我李康复就好了。如果生命可以后退30年,或许李先生会重新选择自己的生活方式。有句话说得好:健康是前面的1、事业、财富、名利等都是其后的0,失去前面的1、一切皆为零! 知易行难,共勉之! 以下是正文:1.什么是大数据? 图1 旧石器时代晚期的伊桑戈骨头(Ishango Bone)(图片来源:由译者根据维基百科图片二次绘制而成) 旧石器时代的部落成员(特别是首领),通常会在树棍或者动物骨头上刻下凹槽,用以记录日常的交易活动或物品供应。通过比较树棍或骨头上凹痕的多少与变化,来进行基本的数据运算,从而可使部落首领够对一些事情进行预测,如山洞里食物还可维持几天,何时再去打几只野兔等。 在本质上,数据代表的是已发生的事实,其核心的作用则是对未来的预测。 数据的发明,对人类文明的进步,发挥了举足轻重的作用。传统意义上的“数据”,可视为“有依据的数字”。数字之所以诞生,就是因为人类在长期的实践过程中体会到,难以仅仅用语言、文字和图像,来精确描绘自己身边的世界。例如,由于每个人对“很”、“非常”这类虚词理解不一样,当有人问“今天天气有多热”,如果回答说“很热”、“非常热”,别人听到后,也只能获取一个大致的抽象印象。但如果用数字描述“今天40摄氏度”,就会毫不含糊,一清二楚。 把视野拉回当下。当人类社会进入信息时代以后,“数据”的内涵大大地被延展了,数据不仅是指“有根据的数字”,还包括存储在计算机中的信息,如表格、文本、图片、音频和视频等。 图2 1986年~2007年这30年的全球信息存储容量变化(图片来源:) 有研究资料显示,自1980年以来,全球信息总量每24个月就可以翻一番。当时间迈过21世纪,自2002年数字时代开启以来,数据呈现海量增长趋势(如图2所示)。特别是在2004年社交媒体产生后,人人都是数据的生产者,数据更是呈现爆炸性增长趋势,大数据开始迈入大众的视野。 由于处于计算机科学的前沿,大数据并没有公认的定义。世界著名咨询机构麦肯锡(McKinsey)公司于2011年5月发布《大数据:下一个创新、竞争和生产力的前沿》的研究报告,报告认为:“大数据是指,大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。” 麦肯锡的这个定义有意地带有主观性,对于“究竟多大才算大数据”,其标准是可以调整的。脸谱(Facebook)的工程总监Parikh认为,“大数据”要有“大价值”。“大数据的意义在于,能从数据中挖掘出能对商业有价值的决策力和洞察力。如果不能好好利用自己收集到的数据,那么空有一堆数据,即使体量再大,也不能称之为大数据。”2.癌症从哪里来?2.1外在因素 图4 烟草消费类于肺癌发病率高度相关(图片来源:) 换句话说,20岁的你,年轻任性,“一枝梨花压海棠”,潇洒地抽了一口烟,就为人到中年、事业有成40岁左右的你,培养了一个可能突变的癌细胞。但正因为这个巨大的滞后时间间隔——20年,“麻痹”了很多人:抽支烟,解解乏,也没有什么大不了的。殊不知,这种烟草消耗量和肺癌发病率的巨大的相关性,不得不让人们侧目、反省、深思。 当然,也会有人会站在学术层面表态:“相关性”不代表“因果性!” 的确,从严格意义上讲,统计学无法检验逻辑上的因果关系。根据统计结果,可以说“抽烟人群的肺癌发病率,会比不抽烟人群的发病率,高好几倍”,但统计结果无法得出“抽烟致癌”的逻辑结论。 中国概率统计领域的奠基人、国际著名数理统计学家陈希孺院士,生前常用这个例子来说明统计学的特点(案例来源:李国杰院士《大数据研究的科学价值》)。 但话说回来,大数据布道师维克托?迈尔-舍恩伯格在其著作《大数据时代》中提到的核心观点:“要相关,不要因果”。也就是说,大数据关注事物间的相关性(correlation),而非紧盯事物之间的因果关系(causal relation)。 也许正是因为统计方法并不致力于追寻事物间的因果关系,才促使数据

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档