- 42
- 0
- 约1.48万字
- 约 21页
- 2020-11-30 发布于山东
- 举报
实用标准文案
数据挖掘——概念概念与技术
Jiawei Han Micheline Kamber 著
范明 孟晓峰 译
第1章引
言
1.1 什么是数据挖掘?在你的回答中,针对以下问题:
1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子。
解答:
特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征 可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,
这 些 特 征 包 括 作 为 一 种 高 的 年级 平 均 成 绩 (GPA: Grade point
aversge) 的信息, 还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一
般 特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与
具有 低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可
比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专
业的学生 ,而具有低 GPA 的学生的 65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的
特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为 :
major(X, “ computing science ” ) ? owns(X, “ personal
computer ” ) [support=12%, confid
ence=98%]
其中, X 是一个表示学生的变量。这个规则指出正在学习的学生, 12%
(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学
生 拥有一台个人电脑的概率是 98%(置信度,或确定度) 。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类
型 或概念的模型(或功能) ,而后者是建立一个模型去预测缺失的或无效 的、并且通常是数字的数据值。它们的相似性是他们都是预
测的工具 : 分类被用作预测目标数据的类的标签, 而预测典型的应用
是预测缺失的 数字型数据的值。
精彩文档
实用标准文案
聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
? 数据延边分析描述和模型化随时间变化的对象的规律或趋势, 尽管这可
能包括时间相关数据的特征化、 区分、 关联和相关分析、 分类、或预测 ,
这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和
基于相似性的数据分析
1.3 1.9 列举并描述说明数据挖掘任务的五种原
语。 解答:
用于指定数据挖掘任务的五种原语是:
任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。
背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。
模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一种数据
挖掘系统可能产生大量的模式。 兴趣度测量能被指定为简易性、 确定性 、
适用性、和新颖性的特征。
发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体
精彩文档
实用标准文案
或其它视觉的表示。
1.4 1.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别: 不
耦 合、松散耦合、 半紧耦合和紧密耦合。 你认为哪种方法最流行, 为什
么?
解答: 数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。
不耦合:数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集,因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。因此,这种构架是一种糟糕的设计。
松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘的初始数据集的源数据和存储挖掘结果。这样,这种构架能得到数据库和数据仓库提供的灵活、高效、和特征的优点。但是,
您可能关注的文档
- 备用钥匙管理方案计划规定.docx
- 复合函数知识总结及例题(1).docx
- 外墙保温旁站监理记录(1).docx
- 外墙真石漆工程验收要求.docx
- 外小花钟(1x群文阅读)教学设计课题.docx
- 外研版六年级下册单词表.docx
- 外研版英语必修1、2词汇检测.docx
- 多学科会诊文本记录本.docx
- 多学科综合诊疗会诊制度流程及记录.docx
- 多彩社团校本教材朗诵社团童海丽.docx
- G681线阿勒泰至禾木喀纳斯公路建设项目增补观景停车区等服务设施项目环境影响报告表.pdf
- 来宾韦文林建材年产100万吨机制砂项目环境影响报告表.pdf
- 合山市高端环保免漆生态板加工项目环境影响报告表.pdf
- 3.5万吨_年生物基丁二酸及衍生物高端制造项目(重新报批)报告书.pdf
- G631淮阳区王店至周西路口段新建工程报告书.pdf
- 年产12万吨装配式智能钢结构、50万套钢结构工程机械配件智能自动化生产线项目环境影响报告书.doc
- 2024年新疆维吾尔自治区福海县渔业绿色循环发展试点-生态型活鱼育肥箱系统采购项目环境影响报告表.pdf
- 广西1828大健康产业园项目环境影响报告表.pdf
- 220千伏金秀站扩建工程环境影响报告表.pdf
- 20万吨_年聚苯乙烯产品优化提升项目报告书.pdf
原创力文档

文档评论(0)