- 1、本文档共703页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;;大数据的概念;2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。
2014年3月18日,“大数据”首次写入政府工作报告。
关于促进大数据发展的行动纲要(国务院2015年9月5日);大数据的概念;是指其规模、多样性和复杂性需要新的架构、技术、算法和分析方法来管理并从中提取有价值的、隐藏的知识的数据。;基本知识:字节大小
字节最小的基本单位是Byte(B),按照进率1024(即2的十次方)计算,顺序给出为:
1B=8bit(位),一个英文字符
1KB=1024B,一个句子
1MB=1024KB,一个20页的幻灯片演示文稿或一本小书
1GB=1024MB,书架上9米长的书
1TB=1024GB,300小时的优质视频、美国国会图书馆存储容量的十分之一(TB,terabyte)
1PB=1024TB,35万张数字照片太字节拍字节(PB)
1EB=1024PB,1999年全世界生成的信息的一半艾字节(EB)
1ZB=1024EB,暂时无法想象泽它字节(ZB)
1YB=1024ZB尧它字节(YB)
……;;;谷歌数据中心;;;数据类型多样化;价值高;;;;;;临床决策支持;药物研发;临床研究;公共卫生;健康管理;个性化医疗;;医学数据的收集、使用和保存等等,都会涉及数据主体(包括个人和群体)的相关权益。
数据的收集是否基于个人自愿?
数据主体是否知晓并允许这些数据基于特定的目的被收集和使用?
他们是否同意将数据保存起来进行二次利用?
基于哪些目的可以使用医学数据?;;将所有使用医学数据开展的研究都纳入伦理委员会的监管范围。我国的《涉及人的生物医学研究伦理审查办法》(2016)则是采用了这种策略。
与此同时,在设置这个基本伦理审查要求的基础上,考虑到伦理审查的质量和效率,还应对涉及医学数据的研究做进一步分类管理,包括考虑研究涉及的数据内容和敏感性特征,可能的风险,对公众健康和公共利益可能的影响等等,做到具体问题具体分析,并进一步采取恰当的伦理审查形式。;免除审查;;;;;;Hadoop主要架构;;Hive是一个数据仓库,并提供了一套查询语言以帮助熟悉SQL编程的用户操作查询Hadoop上的数据;可靠性;;;;;;;;免费开源;;区域2;数值(numeric)变量:代表一个实数
字符(character)变量:代表一个字符串
逻辑(logical)变量:只有TRUE(真)和FALSE(假)两种取值;向量是R语言中基本的数据对象,一个向量只能由相同数据类型的分量组成;因子是用于对数据进行分类并存储其类别的数据类型,可以记录一组数据中的类别名称和数目;二维数组称为矩阵,矩阵也需由相同数据类型的分量组成;二维数组称为矩阵,矩阵也需由相同数据类型的分量组成;数据框与Excel表格类似,由行和列组成,每一列有一个列名,每一行有一个序号。与矩阵不同的是,数据框可存储不同的数据类型;列表可以包含类型的对象组成,列表中的元素可以是向量、矩阵、数据框,甚至是其他列表;列表可以包含类型的对象组成,列表中的元素可以是向量、矩阵、数据框,甚至是其他列表;;;;功能强大;区域2;;;;;;;;;;;医学大数据的来源;;以MySQL数据库为例,导出数据有三种方式:
SQL语句导出数据
SQL语句导出一个表到指定文件的命令为:
select*from表名intooutfile导出文件名
mysqldump导出数据
Mysql提供的导出数据和表结构的命令为:
mysqldump-u用户名-p密码数据库名数据库名.sql
数据库管理工具Navicat导出数据
NavicatforMySQL是一款为数据库管理、开发和维护的图形界面前端工具,借助Navicat可以直接导出数据。;
信息系统为了和外界进行数据交换,通常提供API(应用程序编程接口)程序接口,一个API接口就是系统定义好的去完成某项任务的一个功能。
API通过接口允许外部程序远程连接到该系统,并程序化地完成某任务,例如自动化执行指定数据的导入导出。;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用数据采集工具;;
网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
实现方式
编写爬虫程序
使用采集工具,如八爪鱼;网页文件下载数据;
例如:新浪微博的API开放了微博转发数、阅读
您可能关注的文档
- Geology Applied to Civil Engineering 土木工程地质 英文课件 第八章 Deris flow.pptx
- 医学大数据分析 课件 第1、2章 医学大数据概述、常用大数据工具.pptx
- 医学大数据分析 课件 第5、6章回归分析、 数据降维.pptx
- 医学大数据分析 课件 第9、10章 聚类方法、 时间序列分析.pptx
- 《电机与电气控制技术》 课件 第1次课-变压器用途分类结构.pptx
- 《电机与电气控制技术》 课件 第2次课-单相变压器的运行原理.pptx
- 《电机与电气控制技术》 课件 第3次课-三相电力变压器.pptx
- 《电机与电气控制技术》 课件 第4次课-常用变压器.pptx
- 第6次课-三相异步电动机的工作原理-1.pptx
- 《电机与电气控制技术》 课件 第7次课-三相异步电动机的结构-1.pptx
最近下载
- 煤矿安全管理经验交流(第二版).ppt VIP
- 一级消防工程师《消防安全技术实务》精讲讲义.pdf
- (适用于课堂教学的背景图.ppt VIP
- 天津大学论文答辩PPT模板.pptx VIP
- 生物化学与分子生物学:第13章 真核基因与基因组.ppt VIP
- 2025形势与政策-加快建设社会主义文化强国.pptx
- 人教版(2025)七年级下册Unit1Animal FriendsSection B How are animals part of our lives Section B 1a~2b课件+音频(共3.pptx VIP
- 110kv变电站继电保护毕业设计.doc VIP
- 公路隧道工程施工.pptx
- 电信行业运营商业务连续性保障方案.doc VIP
文档评论(0)