- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 1 章
1.6 定义下列 数据挖掘功能: 特征化、区分、关 联和相关分析、 预测 聚 类和演 变分析。
使用你熟悉的 现实 生活的数据 库,给出每种数据挖掘功 能的例子。
? 特征化 是一个目 标类 数据的一般特性或特性的 汇总 。例如,学生的特征 可被提出,形成所
有大学的 计算机科学 专业 一年 级学生的 轮廓,这些特 征包括作 为一种高的年 级 平均成 绩(GPA:Grade point aversge)的信息, 还有所修的 课程的最大数量。
? 区 分 是将 目标 类数 据对 象的 一般 特性 与一个 或多 个对 比类 对 象 的一 般 特性 进 行比
较。例 如,具有高 GPA 的学生 的一般特性 可被用来与 具有 低 GPA 的一般 特性比 较。 最
终的描述 可能是学生 的一个一般 可比 较的 轮廓,就像具有高 GPA 的学生的 75% 是四年 级
计算机科学 专业 的学生 ,而具有低 GPA 的学生的 65% 不是。
? 关联是指 发现 关联规则 ,这些规则 表示一起 频繁发生在 给定数据集的特 征 值 的 条 件 。
例 如 , 一 个 数 据 挖 掘 系 统 可 能 发 现 的 关 联 规 则 为 :
major(X, “ computing science”) ? owns(X, “ personalcomputer ” )
[support=12%,confidence=98%]
其中, X 是一个表示学生的 变量。 这个规则 指出正在学 习的学生, 12%(支持度) 主修 计算机科学并且 拥有一台个人 计算机。这个组一个学生 拥有一台个人 电脑 的概率是 98%(置信度,或确定度)。
? 分类与预测 不同,因为前者的作用是构造一系列能描述和区分数据 类型 或概念的 模型(或
功能 ),而后者 是建立一个模型 去预测 缺失的或无 效 的、并且通常是数字的数据 值。它 们的
相似性是他 们都是 预测 的工具 : 分类被用作 预测 目标数据的 类的标签 ,而预测 典型的 应用是
预测 缺失的 数字型数据的 值。
? 聚类分析 的数据 对象不考 虑已知的 类标 号。对象根据最大花蕾内部的相似性、 最小化 类之间的相似性的原 则进
行聚 类或分 组。形成的每一簇可 以被看作一个 对象类。聚类也便于分 类法组织 形式,将观测组织 成类分 层结
构,把 类似的事件 组织 在一起。
? 数据延 边分析 描述和模型化随 时间变 化的 对象的 规律或 趋势 ,尽管 这可 能包括 时间 相关数据的特征化、 区分、关联和相关分析、 分类、或预测 ,这种分析的明确特征包括 时间 序列数据分
析、序列或周期模式匹配、 和 基于相似性的数据分析
1.9 列举并描述 说明数据挖掘任 务的五种原 语。
五种原 语是:
? 任务相关数据 :这种原 语指明 给定挖掘所 处理的数据。它包括指明数据 库、数据 库表、或
数据 仓库 ,其中包括包含关系数据、 选择 关系数据的 条件、用于探索的关系数据的属性或
维、关于修复的数据排序和分 组。
? 挖掘的数据 类型 :这种原 语指明了所要 执行的特定数据挖掘功能
,如特 征化、区分、 关
联、分 类、聚 类、或演化分析。同 样,用 户的要求可能 更特殊, 并可能提供所 发现 的模式必
须匹配的模版。 这些模版或超模式(也被称 为超规则 )能被用来指 导发现过 程。
? 背景知 识:这种原 语允许用户指定已有的关于挖掘 领域的知 识。这样 的 知识能被用来指 导
知识发现过 程,并且 评估发现 的模式。 关于数据中关 系的概念分 层和用 户信念是背景知 识的
形式。
? 模式 兴趣度度量 :这种原 语允许用户指定功能,用于从知 识中分割不感 兴趣的模式, 并且
被用来指 导挖掘 过程,也可 评估发现 的模式。 这样 就 允许用户限制在挖掘 过程返回的不感 兴趣的模式的数量, 因 为一种数据 挖掘系 统可能 产生大量的模式。 兴趣度 测量能被指定 为简 易
性、确定性 、适用性、和新 颖性的特征。
? 发现模式的可 视化 :这种原 语述及 发现 的模式 应该 被显示出来 。为了使 数据挖掘能有效地
将知 识传给 用户,数据挖掘系 统应该 能将 发现 的各种 形式的模式展示出来,正如 规
则、表格、 饼或条形 图、决策 树、立方体或其它 视觉 的表示。
1.4 1.13 描述以下数据挖掘系 统与数据 库或数据 仓库 集成方法的
您可能关注的文档
- (最新完整版)人教版七年级英语下七单元教案.doc
- (最新完整版)人教版三年级数学下册第七单元测试题.doc
- (最新完整版)人教版三年级下册第二单元《一位数除三位数笔算除法》教学设计.doc
- (最新完整版)人教版三年级下册语文教学进度表.doc
- (最新完整版)人教版三年级下册语文期中考试试卷.doc
- (最新完整版)人教版三年级下学期解决问题专项练习.doc
- (最新完整版)人教版五年级上册语文第一单元导读课.doc
- (最新完整版)人教版五年级数学上册期末复习试卷(含答案).doc
- (最新完整版)人教版五年级数学下册教案-单元教案-第4单元-最小公倍数.doc
- (最新完整版)人教版五年级数学下册期中测试题.doc
- (最新完整版)数据与计算机通信+data+and+computer+communication+课后习题答案.doc
- (最新完整版)数列单元测试卷含答案.doc
- (最新完整版)数列全部题型归纳(非常全面,经典).doc
- (最新完整版)数列题型及解题方法归纳总结.doc
- (最新完整版)数列证明题型总结(教师版)附答案.doc
- (最新完整版)数列知识点总结(经典).doc
- (最新完整版)数学:13.4二元一次方程组的图象解法教案(沪科版八年级上).doc
- (最新完整版)数学北师大版五年级下册《分数乘法(三)试一试》.doc
- (最新完整版)数学笔记知识点汇总.doc
- (最新完整版)数学二年级下册《表内除法(二)》练习题(2).doc
最近下载
- 大作业:如何理解“作风建设永远在路上,永远没有休止符”?我们应如何加强作风建设?.docx VIP
- 教师实习心得:教育反思与教师实习心得:有效的教学离不开有效的反思合集.doc VIP
- 《中华人民共和国基本医疗卫生与健康促进法》全文.pdf VIP
- 代数式的值-新浙教版-七上数学.pptx VIP
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(困难).docx VIP
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(标准困难).docx VIP
- 村两委换届调研报告大全一.doc VIP
- 2024-2030年中国面食行业市场深度分析及前景趋势与投资研究报告.docx
- 《护士条例》落实情况监督检查表.docx VIP
- 中国宠物行业2025年宠物医疗市场发展趋势与挑战分析报告.docx
文档评论(0)