数据挖掘期末考试知识点复习.pptVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘期末考试知识点复习.ppt

Data Mining: Concepts and Techniques * Data Mining: Concepts and Techniques * 医学数据仓库与数据挖掘 * 数据挖掘 数据挖掘知识点(考点)复习 期考知识点 第6章的知识点 1.哪些学科和数据挖掘有密切联系? (P68 数据挖掘关系图) 2.数据挖掘的定义(P69) 第7章的知识点 1.数据挖掘步骤(P74) 2.数据选择的内容(包括哪两部分)(P75) 3.数据清理的方法(P75) 了解小规模数据、大数据集的清理方法。 4.常见的模式有哪些(P78) 尤其是分类、回归、聚类模式之间的分析比较。 * 期考知识点 5.模式的精确度(P79) 训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。 6.数据预处理的任务有哪些?(P83-89) 7.空缺值的处理方法(P83-84) 8.分箱技术(P84-86) 分箱之前要做的工作?P84 (1)要求能描述出常见的分箱方法和数据平滑方法(简答)。 (2) 要求会用等深分箱法和等宽分箱法对数据进行分箱,并对分箱后的数据按指定的平滑技术来平滑。(详见PPT) * 期考知识点 9.数据规范化方法(最小-最大规范化)P88 第8章的知识点 关联规则部分 1.理解什么是关联规则?P90 给定案例,能判断该案例是否属于关联规则挖掘问题。 2.关联规则的分类(P92-93) 3.掌握项集或规则的支持度和置信度的计算方法 (P91)详见ppt * 期考知识点 4.项集频率、频繁项集的定义,项集频率与项集支持度之间的关系(简答)。(P92) 5.掌握Apriori算法(P93-98)(综合计算题) 5.1 掌握Apriori算法的基本思想和执行步骤。 5.2 理解Apriori性质 5.3 能将算法应用到数据进行计算 给定支持度,能判断哪些项集需要剪枝? 掌握从频繁项集生成候选项集的计算过程。 会计算项集的支持度。能将整个算法流程对指定数据集完成关联规则的挖掘过程。 6. 能根据排好序的事务集构造FP树(P100) * 期考知识点 7. 能比较FP树算法和Apriori算法的异同点 分类与预测部分 1.训练集与验证集的定义,以及二者的用途。P104-105 2.类标号属性与训练属性的定义,以及二者区别。P105 3.学过的决策树分类算法有哪些?P108 决策树包括哪些结点?P106-107 4.决策树递归划分终止的条件有哪些?(3点)P109 * 期考知识点 5.对于决策树递归过程需要注意哪两种情况?P109 6.什么是过适应问题?如何解决过适应问题?(简答)P110 7.决策树分类规则的生成方法?(简答)P111-112或见PPT 8.决策树构造过程中当前结点的训练属性是如何选择的?P109 9.k-最临近算法的基本思想?P119 k-最临近算法的两个基本步骤?P119 k-最临近算法中参数k的大小对分类结果的影响?P120 * 期考知识点 聚类分析部分 1.什么是聚类?聚类与分类的比较或异同点?(简答)P130 2.聚类分析常用的两种数据结构?P130-131 3.数据矩阵与相异度矩阵的比较,以及二者每行每列表示的意义?P130-131 4.相异度矩阵中各个元素d(i,j)的大小(趋于0或者值很大)表示的意义?P131 5.数据的属性类型有哪些?(5种)P131-135 6.属于定量的数据属性类型?P131 * 期考知识点 7.非对称二元变量的相异度计算公式及其应用?(综合计算题)P133-134 8.在聚类算法研究和应用过程中,对其能力有哪几种典型要求?P136-137 9.聚类分析算法有哪几类?每类的大体思想是什么?P137-143 (4类) 10.基于划分思想的聚类算法有哪些?P137-138 11.层次聚类算法分类哪两种?基于层次法的聚类算法有哪些?P139 12.基于密度方法的聚类算法有哪些?P142 13.基于网格方法的聚类算法有哪些?P143 * 期考知识点 14.k-平均算法的输入、输出及聚类过程(流程)?(简答)P138 15. k-平均算法与k-中心点算法的比较或异同点?P137-138 16.DBSCAN算法中涉及的一些概念:对象的r-领域、核心对象、直接密度可达、密度可达、密度相连。P142-143 (要求理解) 第9章的知识点(以选择题形式来考)

您可能关注的文档

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档