大数据基础 单元6 单元测试(答案).docx

大数据基础 单元6 单元测试(答案).docx

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据基础

大数据

基础

单元6

测试答案

第PAGE\*Arabic1页/共NUMPAGES\*Arabic1页

单元6数据分析与挖掘

单元测试

单元4

单元4

测试答案

1

2

3

4

5

D

B

A

D

D

6

7

8

9

10

C

A

D

D

C

二、填空题

1.有用信息、形成结论

2.数据清洗、数据转化

3.训练、测试

4.特征、标签

5.离散值、连续值

三、简答题

1. 数据分析一般都要遵循一定的步骤,主要包括6个既相对独立又互有联系的阶段,分别是:明确目的和思路、数据收集、数据处理、数据分析、数据展现和报告撰写。

2. 相同点:数据分析与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识、有价值的信息,从而帮助业务运营、改进产品以及帮助企业做更好的决策。

不同点:可以从目的的不同、方法的不同和结果的不同三个方面来分别描述。在目的的不同方面,数据分析有明确的目标,先假设数据存在某种模型,然后通过统计分析方法来验证假设是否正确,或者有明确的统计指标,使用统计分析方法来得到这些指标值,从而结合业务得出结论,而数据挖掘是事先对于数据中的模型难以假设,通过数据挖掘算法寻找未知的模型。在方法的不同方面,数据分析会采用对比分析、分组分析、交叉分析、回归分析等常用统计分析方法,而数据挖掘会采用决策树、关联规则、聚类、分类、神经网络等统计学、人工智能算法、机器学习算法等方法。在结果的不同方面,数据分析一般都得到一些统计量结果,如总和、平均值等,这些数据都需要与业务结合进行解读,才能发挥出数据的价值,而数据挖掘会输出挖掘到的模型,这个模型会被应用到对新的数据的预测上。

3.模型训练:在模型训练之前,一般会把数据集拆分为训练数据集和和测试数据集,其中训练数据用于模型训练,测试数据集用于后续步骤的模型评价,同时,我们也需要有一批数据挖掘算法可供选择。现在进入“模型训练”阶段,模型是由特定的数据挖掘算法来指定的,通过选择一个算法来处理训练数据集,就能构建出模型。

模型评价:通过模型训练得到的模型好不好呢?这就是进入到“模型评价”阶段,我们会用测试数据集输入到模型中,评判模型对数据的预测能力是否够好。如果模型不够好,我们就会回到“模型训练”阶段,对数据挖掘算法进行调整,重新用测试数据集得到一个新的模型。如果模型效果足够好,那么,该模型就可以进入到“模型发布”阶段。

模型发布:当模型发布后,如果在数据集之外,有了新的数据出现,就可以用该模型进行预测。

4. 数据挖掘一般可以分为有监督学习、无监督学习和半监督学习等三大类的算法。且有监督学习可以分为分类算法和回归算法、无监督学习可以分为聚类算法和降维算法、半监督学习包括半监督分类、半监督回归、半监督聚类、半监督降维算法。

5. 有监督学习有决策树算法、KNN算法、线性回归算法等。

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档