- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医疗健康大数的据的种类、性质及有关问题
医疗健康大数据的种类、性质及有关问题
俞国培① 包小源① 黄新霆② 刘徽① 许蓓蓓① 于娜① 张俊①
① 北京大学医学信息学中心
② 北大医疗信息技术有限公司
摘 要 本文从数据角度描述讨论了医疗健康大数据。按照不同来源医疗健康大数据可以分
成医院医疗大数据、区域服务平台医疗健康大数据 、疾病监测大数据、自我量化大数据、
网络大数据和生物大数据等六大类。这些不同种类数据具有不同的性质、医学价值及问题。
关键词 医疗健康 大数据 数据类型 数据可利用性
中国与西方发达国家一样,正在步入医疗健康大数据时代,现在,每时每刻都有大量新
的有关疾病、医疗和健康的信息在产生和流动,并储存于某个地方,等待着被挖掘、分析和
应用。由于中国是接近于 14 亿人口的大国,人数占全世界总人数的 1/5,所以产生积累的
医学数据量,世界各国无法比拟。截止 2013 年 11 月底,全国医疗机构总数为 96.2 万个(其
中医院为 2.4 万个,其他医疗机构为 92.3 万个),2012 年全国诊疗人数达 69 亿人次[1]。目
前,中国的互联网上也正在实时产生大量难以计数的关于疾病和健康的信息。特有的巨量医
疗和健康数据,赋予了中国一个能接触并深入了解更多疾病、诊疗和健康信息的好机会,但
同时也给数据使用者带来了更严峻的应用挑战。
本文描述和讨论了医疗健康大数据的基本概念、种类、性质及有关问题,以便读者能迅
速了解有关知识,正确利用医疗健康大数据,避免出错,真正能使有关各方从大数据应用中
获益。
1 医疗健康大数据的基本概念
医疗健康大数据泛指所有与医疗和生命健康相关的数字化的极大量数据。数据究竟大到
何种程度才可称为大数据,早在九十年代中期,世界著名统计学家休伯(Huber PJ)就对此
进行过专门讨论[2]。当时,休伯建议可按以 10 为底 2 为指数递增的数据存储单位字节大小
来进行划分,即微小数据为 10(2 100 字节),小数据为 10(4 10K 字节),中数据为 10(6 977K),
大数据为 108(95MB),巨大数据为 1010(9.3GB),和非常巨大数据为 1012(932GB≈1TB)。
这种数据大小按物理存储单位划分,虽然属于人为主观界定,但显示了一定合理性,有助于
对数据源大小的认识。现在,人们对大数据有了更深层次的认识。狭义上,它被定义为难以
用现有的一般技术管理的大量数据的集合;广义上,它的数据量(Volume)含义可以延伸至
数据的产生速度(Velocity)、多样性(Variety)和价值(Value)。扩展的大数据定义符
合于当前信息时代的特点,体现了数据的更新速度、复杂性和有用性。
现在有一种说法,似乎只有太字节那样大的数据才可称为大数据,但从实际应用角度,
大数据的大应该为相对的大,特别是当数据还同时具备产生速度、多样性或价值等其它特征。
理论上,医疗健康大数据可以是涉及一个国家或地区全部医院或所有人群的数据,具有几个、
几十个或更多 TB 甚至 PB 级的数据量,但其实也可以只是一个地区几家医院或一部分健康人
群的数据,甚至更可以只是一个医院的全部临床医疗数据。关键是,目前一个中型医院 1
年医疗数据包括影像数据等加起来,就可达到几十个 TB 数据量,剔除主要的影像数据量后,
仍有大概数百 G 级以上数据量。而且,医院很多年份或很多临床科室数据都已可以相互关联,
使单一医院的数据性质和应用价值获得突破性提升,完全不同于以往单一年份或单独临床科
室的数据。所以,不能机械地光是从数据量来界定什么是大数据,什么不是大数据,而应该
同时考虑是否数据性质等方面已经发生了根本的变化。
2 医疗健康大数据的种类、性质及有关问题
医疗健康大数据只是一个笼统的称呼,有时候也简称为医疗大数据或医学大数据。按照
不同来源,医疗健康大数据可以分成医院医疗大数据、区域服务平台医疗健康大数据、疾病
监测大数据、自我量化大数据、网络大数据和生物大数据等六大类。这些不同种类数据具有
不同的性质、医学价值及问题。
2.1 医院的医疗大数据 通常所说的医疗大数据
文档评论(0)