- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第一章大数据概论
1.大数据的基本概念:大数据(BigData),数量极其庞大的数据资料。通俗地讲大数据就是貌似毫无意义,但存在着的数据,其中包括结构化,半结构化和非结构化的所有数据。经过处理后的大数据就是大数据信息。1ZB=1024EB=1024PB=1024TB=1024GB
2.大数据的数据来源:管理信息系统,网络信息系统,物联网络系统,科学实验系统
3、生产数据的三个阶段:被动式生成数据(数据库技术),主动式生成数据,感知式生成数据
4、大数据的特点
传统方式
大数据时代
数据产生方式
被动采集数据
主动生成数据
数据采集密度
采样密度较低,采样数据有限
利用大数据平台,可对需要分析的事件的数据进行密集采样,精确获取事件全局数据
数据源
获取较为孤立,不同数据源之间的数据整合难度较大
利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。
数据处理方式
大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析。
较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;
对于响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并通过对历史数据的分析进行预测分析
5、大数据的特性(四V一O):Volume,Variety,Value,Velocity,On-Line
6、大数据时代的数据格式特性:结构化信息(数据库,联机事务处理系统(OLTP0),可排序和查询),半结构化信息(XML、HTML,电子邮件,网络上的信息,数据结构和内容混杂在一起),非结构化信息(文档、图片、视频/音频,映射数据,可感知的形式中,其庞大规模和复杂性需要高级分析工具来创建或利用一种易于人们感知和交互的结构)
7、大数据的应用领域:医疗记录,天文学,生物、基因组学,军事侦察,社会网络、数据。。。
8、主要的大数据处理系统;数据查询分析计算系统,批处理系统,,流式计算系统,迭代计算系统,图计算系统,内存计算系统
9、大数据处理的基本流程:数据抽取与集成,,数据分析(核心),数据解释
10、大数据三个重要的技术问题
利用信息技术等手段处理非结构化和半结构化数据
探索大数据复杂性、不确定性特征描述的方法及大数据的系统建模
数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响
11、几个典型大数据技术应用平台(典型工具):
Hadoop:分布式文件系统(HDFS),实现和分布式计算框架(MapReduce)
HPCC:高性能计算与通信
Storm:开源软件,分布式的、容错的实时计算系统,处理庞大的数据流实时分析,在线机器学习,不停顿计算,分布式RPC(RemoteProcedureCall,远程过程调用
ApacheDrill
RapidMiner
12、大数据技术构架
13、大数据整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等
大数据关键技术:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)
14、大数据未来发展趋势:数据资源化,数据科学和数据联盟的成立,大数据隐私和安全问题(结合专业知识及翻转课堂过程中的资料论述)
第二章大数据的采集与预处理
1.
2.数据采集DAQ
3.数据采集系统:用于数据采集的成套设备(DAS,包括硬件部分和软件部分,硬件部分又分为模拟部分和数字部分
流程:采集传感器-模拟信号-数字信号-计算机-显示或打印
目标和特点:精度和速度,实现动态测试
3.临床试验电子数据采集系统(EDC)通过互联网从试验中心直接远程收集临床试验数据的一种数据采集系统。(在国内应用较少)
基本功能:数据录入数据导出,试验设计,编辑检查,操作痕迹,系统安全,在线交流
,医学编码,支持多语
优点:提高了临床研究的效率,缩短了临床研究周期
通过逻辑检验和录入数据检查提高了数据质量
对研究质量的监测更加方便
对临床研究的影响:改变了传统意义上的数据管理模式,EDC的应用是临床研究的必然趋势,加快新药研发和上市的进度。
4.大数据采集的数据来源:结构化数据(数据库);半结构化和非结构化数据(90%)
信息数据采集需要考虑:采集量,采集速度,采集范围
商业数据:企业ERP
互联网数据:社交网络数据,Facebook,Google
传感器数据:物联网
5.大数据采集的技术方法:系统日志采集方法,.网络数据采集方法(对非结构化,网络爬虫或网站公开API)
其他数据采集方法:保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
6.大数据处理:
文档评论(0)