数据挖掘功能.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘功能——可以挖掘什么类型的模式?

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般

地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数

据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以

进行预测。

在某些情况下,用户不知道他们的数据中什么类型的模式是有趣

的,因此可能想并行地搜索多种不同的模式。这样,重要的是,数据

挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同

的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽

象层)的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有

趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通

常每个被发现的模式带上一个确定性或“可信性”度量。

数据挖掘功能以及它们可以发现的模式类型介绍如下。

1概念/类描述:特征和区分

数据可以及类或概念相关联。例如,在AllElectronics商店,

销售的商品类包括计算机和打印机,顾客概念包括bigSpenders和

budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念

可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以

通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为

目标类)的数据,或(2)数据区分,将目标类及一个或多个比较类(通

常称为对比类)进行比较,或(3)数据特征化和比较。

数据特征是目标类数据的一般特征或特性的汇总。通常,用户指

1/8

定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%

的软件产品的特征,可以通过执行一个SQL查询收集关于这些产品的

数据。有许多有效的方法,将数据特征化和汇总。例如,

基于数据方的OLAP上卷操作(1.3.2小节)可以用来执行用户控制

的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据

的泛化和特征化,而不必一步步地及用户交互。

数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、

多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系

或规则(称作特征规则)形式提供。

例1.4数据挖掘系统应当能够产生一年之内在AllElectronics

花费$1000以上的顾客汇总特征的描述。结果可能是顾客的一般轮廓,

如年龄在40-50、有工作、有很好的信誉度。系统将允许用户在任意维

下钻,如在occupation下钻,以便根据他们的职业来观察这些顾客。

数据区分是将目标类对象的一般特性及一个或多个对比类对象

的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数

据库查询提取。例如,你可能希望将上一年销售增加10%的软件产品及

同一时期销售至少下降30%的那些进行比较。用于数据区分的方法及用

于数据特征的那些类似。

“区分描述如何输出?”输出的形式类似于特征描述,但区分描

述应当包括比较度量,帮助区分目标类和对比类。用规则表示的区分

描述称为区分规则。用户应当能够对特征和区分描述的输出进行操作。

例1.5数据挖掘系统应当能够比较两组AllElectronics顾客,

2/8

如定期(每月多于2次)购买计算机产品的顾客和偶尔(即,每年少

于3次)购买这种产品的顾客。结果描述可能是一般的比较轮廓,如

经常购买这种产品的顾客80%在20-40岁之间,受过大学教育;而不经

常购买这种产品的顾客60%或者太老,或者太年青,没有大学学位。沿

occupationincome_level

着维下钻,如沿维,或添加新的维,如,可

以帮助发现两类之间的更多区分特性。

2关联分析

“什么是关联分析?”关联分析发现关联规则,这些规则展示属

性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物

篮或事务数据分析。

更形式地,关联规则是形如X⇒Y,即”A1∧...∧Am⇒B1

文档评论(0)

150****5835 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档