- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1
大数据时代的中医药信息学
中国中医科学院中医药信息研究所
崔蒙
超过100年的时间中医发展缓慢,其原因之一是未能与现代科学技术紧密结合:
二十世纪中医学发展遇到的问题(还原论:纳米、基因、单体)
小数据时代中医学发展遇到的问题(精确性:RCT、数据清洗、结构化、经验挖掘)
大数据时代中医学发展的机遇(三大特点:与中医学理论吻合)
大数据时代中医学发展机遇与中医药信息学的关系(仍然缺乏资源、方法与工具)
引言
一、大数据时代
二、中医药信息学
三、发展机遇
四、小结
内容
大数据时代
2008年,《自然》“Big Data ”,从互联网技术、互联网经济学、
环境科学、生物医药等多个方面介绍了大数据应用所带
来的技术挑战以及可以预见的未来的发展方向
2011年,《科学》“Dealing with Data”专刊,主要针对多个学科
相关科研数据的膨胀问题,以更好地应对大数据带来的数
据组织与访问挑战
2011年, 企业界和学术界共同面对“大数据”的机遇和挑战:概念、
组成、关键技术、服务模式、管理方式,
2011年, e-Science、数据密集型科学促成大数据
大数据时代
通过提高从大型复杂的数字数据集中提取知识和观点的能力,加快在科学与工程中的步伐,加强国家安全,改变科学研究……
六个联邦政府部门和机构2亿美元的投入,用于提高大量数据的访问、组织、收集、发现信息的工具和技术水平,解决大数据带来的机遇和挑战
官方的行动
2012年3月29日,美国奥巴马政府发布了“Big Data Big Deal”
与工业界、研究界、非盈利机构与管理者合作
开设一门全新的研究型课程,培养下一代的“数据科学家”
建立大数据论坛,对公益性的数据进行采集、分析和可视化等
2.大数据特点
大数据时代
数量:海量,数十TB以上
多样性:数据类型多样
速度:快速处理需求
1秒定律
价值:沙里淘金
或者Vitality(活力)
图注:大数据的4V属性
2.大数据特点
大数据时代
Volume:海量数据
Velocity:快速处理需求
Variety:多样性分析处理
Complexity:结构复杂性
Complexity
3.处理数据的工具
大数据时代
Complexity
谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加
更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列,这使得互联网公司顺理成章地成为了最新处理技术的领头实践者
4.大数据的特点
大数据时代
精确性
因果关系
随机采样
整体性
混杂性
相关关系
大数据特点之一:关注“整体”而非“抽样”
不再依赖于随机采样,这样能更快更容易地发现问题,从而能够更多地关注到小数据研究所不能发现的细节
谷歌预测流感:唯一关注的是特定检索词条的使用频率与流感在时间和空间传播之间的关系;4.5亿个模型,与2007、2008美国CDC记录的实际流感病例进行对比,发现45条检索词的组合,用于特定的数学模型后,他们的预测与官方数据的相关性达到97%,并且非常及时
大数据的“大”不是绝对意义
上的大
大数据是指不用随机分析法
这样的捷径,而是采用所有
数据的方法
人们认识和理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设,只要掌握大体的发展方向即可
适当忽略微观层面上的精确度会在宏观层面拥有更好的洞察力
大数据的特点之一:混杂性
谷歌语料库的内容来自于未经过滤的网页内容,包含一些不完整的句子、拼写错误、语法错误以及其他各种错误,并且没有人工纠正后的注解,但它是布朗语料库的好几百万倍,这样优势压到了缺点
怎样看待使用所有数据与部分数据的差别,怎样选择放松要求并取代严格的精确性,应该开始从一个比以前更全面的角度来理解事物,将样本等于总体
植入脑中;每个问题只有一个答案是
不成立的,一旦承认了这个事实,我们
离真相又近了一步
“大数据”精髓之三是不再热衷于寻找因果关系,转而将注意力放在相关关系的发现和使用上
相关关系通过识别有用的关联物来帮助人们分析一个现象,而不是通过揭示其内部的运作机制。建立在相关关系分析法基础上的预测是大数据的核心
大数据的特点之一:相关性
美国折扣零售商塔吉尔与怀孕预测
相关关系提示的是“是什么”,而不是“为什么”;相关关系可以帮助我们捕捉现在和预测未来
整体性:人体自身、人与自然社会
混杂性:证候及疗效的模糊性
与中医学的相似性
相关关系性:治病求因与个体化诊疗;捕捉现在和预测未来(平衡与和谐)
大数据可以在开放环境下通过整体、模糊、相关的数据的分析发现近似真实的结果
中医学可
原创力文档


文档评论(0)