大数据课堂测验2.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

.

.

1、简述大数据的来源与数据类型

大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括构造化

数据、半构造化数据和非构造化数据。

2、大数据产生的三个阶段

〔1〕被动式生成数据

〔2〕主动式生成数据

(3)感知式生成数据

3、大数据处理的根本流程

1.数据抽取与集成

2.数据分析

3.数据解释

4、大数据的特征

4V1OVolume,Variety,Value,Velocity,On-Line

5、适合大数据的四层堆栈式技术架构

6、大数据的整体技术和关键技术

大数据的整体技术一般包括:数据采集、数据存取、根底架构、数据处理、统计分析、数据挖掘、模型预测和结

果呈现等。

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据平安大数据分析及

挖掘、大数据展现和应用〔大数据检索、大数据可视化、大数据应用、大数据平安等〕。

7、新一代数据体系的分类

新一代数据体系中,将传统数据体系中没有考虑过的新数据源进展归纳与分类,可将其归纳到线上行为数据与内

容数据两大类别。

8、EDC系统的定义

临床试验电子数据采集〔ElectricDataCapture,EDC〕系统,在临床试验中的应用可以有效解决纸质CRF存在的

问题。EDC是通过互联网从试验中心〔Sites〕直接远程收集临床试验数据的一种数据采集系统。

9、EDC系统的根本功能

数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统平安、在线交流、医学编码和支持多语言。

10、EDC系统的优点

〔1〕提高了临床研究的效率,缩短了临床研究周期

..word.zl.

.

.

〔2〕通过逻辑检查提高了数据质量

〔3〕对研究质量的监测更加方便

11、大数据采集的数据来源

大数据的三大主要来源为商业数据、互联网数据与传感器数据。

12、网络数据采集和处理的四个主要模块

网络爬虫〔Spider〕、数据处理〔DataProcess〕、URL队列〔URLQueue〕和数据〔Data〕。

13、大数据集成

在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封

不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请

求后,需要整合并返回结果。

14、数据集成时应解决的问题

数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非构造化数据中抽取信息和将数

据处理移动到数据端。

15、网络数据处理的四个模块及主要功能

分词〔WordsAnalyze〕、排重〔ContentDeduplicate〕、整合〔Integrate〕和数据,如图2-17所示。

这四个模块的主要功能如下。

1〕分词:对抓取到的网页内容进展切词处理。

2〕排重:对众多的网页内容进展排重。

3〕整合:对不同来源的数据内容进展格式上的整合。

4〕数据:包含两方面的数据,SpiderData和DpData。

16、大数据建模概念

大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。

17、大数据分析模式分类

根据实时性,可分为在线分析和离线分析

根据数据规模,可分为内存级、BI级和海量级

根据算法复杂度的分类

18、大数据建模流程

定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。

19、大数据建模应遵循的规律

以业务目标作为实现目标

业务知识是每一步的核心

做好数据预处理

试验对寻找解决方案是必要的

数据中总含

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地江苏
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档