数据挖掘CHAPTER数据挖掘原语、语言和系统结构.docVIP

数据挖掘CHAPTER数据挖掘原语、语言和系统结构.doc

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘CHAPTER数据挖掘原语、语言和系统结构

第四章 数据挖掘原语、语言和系统结构 关于数据挖掘,一个流行的错误观点是:期望数据挖掘系统能够自动地挖掘出埋藏在给定的大型数据库中的所有有价值的知识,而不需要人的干预或指导。尽管有一个自动数据挖掘系统看上去是吸引人的,但在实践中,它将不可能涵盖大部分模式集。所产生的全部模式的大小很容易超过给定的数据库。让数据挖掘系统“放纵”地去发现模式,而不提供用户希望探查数据库的哪些部分,什么样的模式用户感兴趣,就是放纵数据挖掘“怪物”。所发现的大部分模式与用户的分析任务无关。此外,尽管有些模式与分析任务有关,但是它们可能太难理解,或缺乏有效性、新颖性或实用性——使得它们不令人感兴趣。这样,产生、存放或提供由给定的数据库可能发现的所有模式既不现实,又不是所期望的。 一个更现实的做法是:希望用户能够通过使用一组数据挖掘原语与数据挖掘系统通讯,以支持有效的和有成果的知识发现。这组原语包括说明数据库的部分或用户感兴趣的数据集(包括感兴趣的数据库属性或数据仓库维),要挖掘的知识类型,用于指导挖掘过程的背景知识,模式评估兴趣度量和如何显示所发现的知识。这些原语允许用户在知识发现时与数据挖掘系统通讯,从不同的角度和深度审查发现结果,并指导挖掘过程。 可以设计数据挖掘查询语言集成这些原语,允许用户自由地与数据挖掘系统交互。数据挖掘查询语言也为建立友好的图形用户界面提供了基础。此外,为了实现数据挖掘系统,一个精心设计的系统结构是非常重要的。这将有助于数据挖掘系统与其它信息系统通讯,有利于它与整个信息处理环境的集成。 本章,你将详细学习数据挖掘原语,研究根据这些原则设计数据挖掘查询语言。此外,你还将学习数据挖掘系统的系统结构。 4.1 数据挖掘原语:什么定义数据挖掘任务? 每个用户脑袋里都有一个数据挖掘任务,即,他想要进行的数据分析形式。一个数据挖掘任务可以用数据挖掘查询的形式说明,它是数据挖掘系统的输入。数据挖掘查询用以下原语定义,如图4.1所示。 图4.1 定义数据挖掘任务或查询 任务相关的数据:这是要考察的数据库部分。例如,假定你是AllElectronics的经理,负责美国和加拿大的销售。特殊地,你想研究加拿大顾客的购买趋势。你可能说明只提取加拿大顾客的购买数据,以及相关顾客的简要信息,而不是挖掘整个数据库。你还可以说明挖掘过程中需要考虑的感兴趣的属性。这些属性称为相关属性。例如,如果你只关心顾客购买的商品与其年收入和年龄之间的可能联系,则关系item的属性name,关系customer的属性income和age可能被说明为挖掘任务相关的属性。 要挖掘什么类型的知识:这是说明要执行的数据挖掘函数,如特征、区别、关联、分类、聚类或演变分析。例如,如果研究加拿大顾客的购买习惯,你可能选择挖掘顾客和他们喜爱买的商品之间的关联规则。 背景知识:用户可以说明背景知识,或关于挖掘领域的知识。对于指导知识发现过程和评估发现的模式,这些知识是非常有用的。有多种类型的背景知识。本章,我们将注意力集中在一种称作概念分层的流行的背景知识上。概念分层是有用的,它允许在多个抽象层上挖掘数据。 其它例子包括用户对数据联系的确信。这些根据模式的非预期程度(这里,非预期的模式被认为是感兴趣的)或预期程度(这里,验证了某种用户假定的模式是有趣的)评估发现的模式。 图4.2 说明数据挖掘任务的原语 兴趣度度量:这些功能用于将不感兴趣的模式从知识中分开。它们可以用于指导挖掘过程,或在挖掘之后,评估发现的模式。不同类型的知识需要不同的兴趣度度量。例如,对于关联规则,兴趣度度量包括支持度(出现规则模式的任务相关元组所占的百分比)和置信度(规则的蕴涵强度估计)。其支持度和置信度小于用户指定的阈值的规则被认为是不感兴趣的。 发现模式的提供和可视化:这涉及发现模式的显示形式。用户可以选择不同的知识表现形式,如规则、表、图、判定树和数据方。 下面,我们仔细考察这些原语。这些原语的说明总结在图4.2中。 4.1.1 任务相关的数据 第一个原语是说明待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。不加区分地挖掘整个数据库是不现实的,特别是由于所产生的模式可能随数据库的大小指数地增长,使得挖掘过程效率很低。此外,所发现的许多模式与用户的兴趣无关。 在关系数据库中,任务相关的数据集可以通过涉及如选择、投影、连接和聚集等操作的关系查询来收集。这种数据提取可以认为是数据挖掘任务的一个“子任务”。数据收集过程产生一个新的数据关系,称作初始数据关系。初始数据关系可以根据查询中指定的条件排序或分组。在用于数据挖掘分析之前,数据可能被清理或转换(例如,在某些属性上聚集)。初始关系可以对应于,也可以不对应于数据库中的物理关系。由于虚拟关系在数据库领域称为视图,这种用于数据挖掘的任务相关的数据集称作可挖掘

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档