(最新完整版)数据挖掘概念课后习题答案.docVIP

(最新完整版)数据挖掘概念课后习题答案.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 1 章 1.6 定义下列 数据挖掘功能: 特征化、区分、关 联和相关分析、 预测 聚 类和演 变分析。 使用你熟悉的 现实 生活的数据 库,给出每种数据挖掘功 能的例子。 ? 特征化 是一个目 标类 数据的一般特性或特性的 汇总 。例如,学生的特征 可被提出,形成所 有大学的 计算机科学 专业 一年 级学生的 轮廓,这些特 征包括作 为一种高的年 级 平均成 绩(GPA:Grade point aversge)的信息, 还有所修的 课程的最大数量。 ? 区 分 是将 目标 类数 据对 象的 一般 特性 与一个 或多 个对 比类 对 象 的一 般 特性 进 行比 较。例 如,具有高 GPA 的学生 的一般特性 可被用来与 具有 低 GPA 的一般 特性比 较。 最 终的描述 可能是学生 的一个一般 可比 较的 轮廓,就像具有高 GPA 的学生的 75% 是四年 级 计算机科学 专业 的学生 ,而具有低 GPA 的学生的 65% 不是。 ? 关联是指 发现 关联规则 ,这些规则 表示一起 频繁发生在 给定数据集的特 征 值 的 条 件 。 例 如 , 一 个 数 据 挖 掘 系 统 可 能 发 现 的 关 联 规 则 为 : major(X, “ computing science”) ? owns(X, “ personalcomputer ” ) [support=12%,confidence=98%] 其中, X 是一个表示学生的 变量。 这个规则 指出正在学 习的学生, 12%(支持度) 主修 计算机科学并且 拥有一台个人 计算机。这个组一个学生 拥有一台个人 电脑 的概率是 98%(置信度,或确定度)。 ? 分类与预测 不同,因为前者的作用是构造一系列能描述和区分数据 类型 或概念的 模型(或 功能 ),而后者 是建立一个模型 去预测 缺失的或无 效 的、并且通常是数字的数据 值。它 们的 相似性是他 们都是 预测 的工具 : 分类被用作 预测 目标数据的 类的标签 ,而预测 典型的 应用是 预测 缺失的 数字型数据的 值。 ? 聚类分析 的数据 对象不考 虑已知的 类标 号。对象根据最大花蕾内部的相似性、 最小化 类之间的相似性的原 则进 行聚 类或分 组。形成的每一簇可 以被看作一个 对象类。聚类也便于分 类法组织 形式,将观测组织 成类分 层结 构,把 类似的事件 组织 在一起。 ? 数据延 边分析 描述和模型化随 时间变 化的 对象的 规律或 趋势 ,尽管 这可 能包括 时间 相关数据的特征化、 区分、关联和相关分析、 分类、或预测 ,这种分析的明确特征包括 时间 序列数据分 析、序列或周期模式匹配、 和 基于相似性的数据分析 1.9 列举并描述 说明数据挖掘任 务的五种原 语。 五种原 语是: ? 任务相关数据 :这种原 语指明 给定挖掘所 处理的数据。它包括指明数据 库、数据 库表、或 数据 仓库 ,其中包括包含关系数据、 选择 关系数据的 条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分 组。 ? 挖掘的数据 类型 :这种原 语指明了所要 执行的特定数据挖掘功能  ,如特 征化、区分、 关 联、分 类、聚 类、或演化分析。同 样,用 户的要求可能 更特殊, 并可能提供所 发现 的模式必 须匹配的模版。 这些模版或超模式(也被称 为超规则 )能被用来指 导发现过 程。 ? 背景知 识:这种原 语允许用户指定已有的关于挖掘 领域的知 识。这样 的 知识能被用来指 导 知识发现过 程,并且 评估发现 的模式。 关于数据中关 系的概念分 层和用 户信念是背景知 识的 形式。 ? 模式 兴趣度度量 :这种原 语允许用户指定功能,用于从知 识中分割不感 兴趣的模式, 并且 被用来指 导挖掘 过程,也可 评估发现 的模式。 这样 就 允许用户限制在挖掘 过程返回的不感 兴趣的模式的数量, 因 为一种数据 挖掘系 统可能 产生大量的模式。 兴趣度 测量能被指定 为简 易 性、确定性 、适用性、和新 颖性的特征。 ? 发现模式的可 视化 :这种原 语述及 发现 的模式 应该 被显示出来 。为了使 数据挖掘能有效地 将知 识传给 用户,数据挖掘系 统应该 能将 发现 的各种 形式的模式展示出来,正如 规 则、表格、 饼或条形 图、决策 树、立方体或其它 视觉 的表示。 1.4 1.13 描述以下数据挖掘系 统与数据 库或数据 仓库 集成方法的

您可能关注的文档

文档评论(0)

冬天一把火 + 关注
实名认证
文档贡献者

夏天的一块冰

1亿VIP精品文档

相关文档