- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;;大数据的概念;2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。
2014年3月18日,“大数据”首次写入政府工作报告。
关于促进大数据发展的行动纲要(国务院2015年9月5日);大数据的概念;是指其规模、多样性和复杂性需要新的架构、技术、算法和分析方法来管理并从中提取有价值的、隐藏的知识的数据。;基本知识:字节大小
字节最小的基本单位是Byte(B),按照进率1024(即2的十次方)计算,顺序给出为:
1B=8bit(位),一个英文字符
1KB=1024B,一个句子
1MB=1024KB,一个20页的幻灯片演示文稿或一本小书
1GB=1024MB,书架上9米长的书
1TB=1024GB,300小时的优质视频、美国国会图书馆存储容量的十分之一(TB,terabyte)
1PB=1024TB,35万张数字照片太字节拍字节(PB)
1EB=1024PB,1999年全世界生成的信息的一半艾字节(EB)
1ZB=1024EB,暂时无法想象泽它字节(ZB)
1YB=1024ZB尧它字节(YB)
……;;;谷歌数据中心;;;数据类型多样化;价值高;;;;;;临床决策支持;药物研发;临床研究;公共卫生;健康管理;个性化医疗;;医学数据的收集、使用和保存等等,都会涉及数据主体(包括个人和群体)的相关权益。
数据的收集是否基于个人自愿?
数据主体是否知晓并允许这些数据基于特定的目的被收集和使用?
他们是否同意将数据保存起来进行二次利用?
基于哪些目的可以使用医学数据?;;将所有使用医学数据开展的研究都纳入伦理委员会的监管范围。我国的《涉及人的生物医学研究伦理审查办法》(2016)则是采用了这种策略。
与此同时,在设置这个基本伦理审查要求的基础上,考虑到伦理审查的质量和效率,还应对涉及医学数据的研究做进一步分类管理,包括考虑研究涉及的数据内容和敏感性特征,可能的风险,对公众健康和公共利益可能的影响等等,做到具体问题具体分析,并进一步采取恰当的伦理审查形式。;免除审查;;;;;;Hadoop主要架构;;Hive是一个数据仓库,并提供了一套查询语言以帮助熟悉SQL编程的用户操作查询Hadoop上的数据;可靠性;;;;;;;;免费开源;;区域2;数值(numeric)变量:代表一个实数
字符(character)变量:代表一个字符串
逻辑(logical)变量:只有TRUE(真)和FALSE(假)两种取值;向量是R语言中基本的数据对象,一个向量只能由相同数据类型的分量组成;因子是用于对数据进行分类并存储其类别的数据类型,可以记录一组数据中的类别名称和数目;二维数组称为矩阵,矩阵也需由相同数据类型的分量组成;二维数组称为矩阵,矩阵也需由相同数据类型的分量组成;数据框与Excel表格类似,由行和列组成,每一列有一个列名,每一行有一个序号。与矩阵不同的是,数据框可存储不同的数据类型;列表可以包含类型的对象组成,列表中的元素可以是向量、矩阵、数据框,甚至是其他列表;列表可以包含类型的对象组成,列表中的元素可以是向量、矩阵、数据框,甚至是其他列表;;;;功能强大;区域2;;;;;;;;;;;医学大数据的来源;;以MySQL数据库为例,导出数据有三种方式:
SQL语句导出数据
SQL语句导出一个表到指定文件的命令为:
select*from表名intooutfile导出文件名
mysqldump导出数据
Mysql提供的导出数据和表结构的命令为:
mysqldump-u用户名-p密码数据库名数据库名.sql
数据库管理工具Navicat导出数据
NavicatforMySQL是一款为数据库管理、开发和维护的图形界面前端工具,借助Navicat可以直接导出数据。;
信息系统为了和外界进行数据交换,通常提供API(应用程序编程接口)程序接口,一个API接口就是系统定义好的去完成某项任务的一个功能。
API通过接口允许外部程序远程连接到该系统,并程序化地完成某任务,例如自动化执行指定数据的导入导出。;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用系统的导出功能;利用数据采集工具;;
网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
实现方式
编写爬虫程序
使用采集工具,如八爪鱼;网页文件下载数据;
例如:新浪微博的API开放了微博转发数、阅读
您可能关注的文档
最近下载
- 交通银行真题及答案(可下载).doc VIP
- 《建筑节能与可再生能源利用通用规范》.pdf VIP
- GZ067 智能节水系统设计与安装赛项正式赛卷模块A 评分标准-2023年全国职业院校技能大赛赛项正式赛卷.docx VIP
- 高标准农田建设项目施工组织设计 .pdf VIP
- TPM课件完整版本.ppt VIP
- 河北秦皇岛职业技术学院选聘专任教师考试真题2024.docx VIP
- 学堂在线《临床中成药应用》作业单元考核答案.docx VIP
- 三国两晋南北朝的政权更迭与民族交融ppt课件.pptx VIP
- 围墙护栏制作与安装工程检验批质量验收记录.docx VIP
- 2025年甘肃省张掖市辅警考试题库(附答案).docx VIP
文档评论(0)