- 0
- 0
- 约8.91千字
- 约 93页
- 2025-10-23 发布于广东
- 举报
2.3.4KDD系统介绍面向特定领域的数据挖掘工具通用的数据挖掘工具数据挖掘工具软件单任务多任务*第62页,共93页,星期日,2025年,2月5日§2.4
知识发现项目的过程化管理*第63页,共93页,星期日,2025年,2月5日开发一个数据挖掘和知识发现项目需要各方面协同合作而且极易出现问题,因此它的质量管理问题的讨论是重要而困难的。近几年,有一些针对数据挖掘和知识发现项目的过程化管理所开展的工作,其中一个典型的模型被称作强度挖掘(IntensionMining)的I-MIN过程模型。*第64页,共93页,星期日,2025年,2月5日I-MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。下面给出各步骤对应任务的简单描述:*第65页,共93页,星期日,2025年,2月5日IM1的任务与目的它是KDD项目的计划阶段,需要确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据。其目的是将企业的挖掘目标嵌入到对应的知识模式中。*第66页,共93页,星期日,2025年,2月5日*第30页,共93页,星期日,2025年,2月5日回归方法可以利用拟合函数对数据进行平滑。如:借助线性回归方法,包括多变量回归方法,就可以获得的多个变量之间的一个拟合关系,从而达到利用一个(或一组)变量值来帮助预测另一个变量取值的目的。*第31页,共93页,星期日,2025年,2月5日3.不一致数据处理现实世界的数据库常出现数据记录内容的不一致,其中一些数据不一致可以利用它们与外部的关联手工加以解决。例如:输入发生的数据录入错误一般可以与原稿进行对比来加以纠正。此外还有一些例程可以帮助纠正使用编码时所发生的不一致问题。知识工程工具也可以帮助发现违反数据约束条件的情况。*第32页,共93页,星期日,2025年,2月5日数据挖掘任务常常涉及数据集成操作,即将来自多个数据源的数据,如:数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据挖掘工作的顺利完成提供完整的数据基础。在数据集成过程中,需要考虑解决以下几个问题:2.1.2数据集成*第33页,共93页,星期日,2025年,2月5日1.模式集成问题模式集成问题,即如何使来自多个数据源的现实世界的实体相互匹配,这其中就涉及到实体识别问题。例如:如何确定一个数据库中的“custom_id”与另一个数据库中的“cust_number”是否表示同一实体。数据库与数据仓库通常包含元数据,所谓元数据就是关于数据的数据,这些元数据可以帮助避免在模式集成时发生错误。*第34页,共93页,星期日,2025年,2月5日2.冗余问题若一个属性可以从其它属性中推演出来,那这个属性就是冗余属性。如:一个顾客数据表中的平均月收入属性,就是冗余属性。显然它可以根据月收入属性计算出来。此外属性命名的不一致也会导致集成后的数据集出现冗余情况。除了检查属性是否冗余之外,还需要检查记录行的冗余。*第35页,共93页,星期日,2025年,2月5日3.数据值冲突检测与消除问题对于现实世界的同一实体,来自不同数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同、或编码的差异等。例如:重量属性在一个系统中采用公制,而在另一个系统中却采用英制。同样价格属性不同地点采用不同货币单位。这些语义的差异为数据集成提出许多问题。*第36页,共93页,星期日,2025年,2月5日所谓数据变换就是将数据转换或统一成适合挖掘的形式。数据变换包含以下处理内容:2.1.3数据变换*第37页,共93页,星期日,2025年,2月5日内容意义示例光滑去掉数据中的噪声聚集对数据进行汇总或聚集聚集日销售数据,计算月和年销售量数据泛化使用概念分层,用高层概念替换低层或原始数据数值属性如年龄,可以映射到高层概念如青年、中年和老年规范化将属性数据按比例缩放,使之落入一个小的特定区间如-1.0~1.0或0.0~1.0属性构造构造新的属性并添加到属性集中,以帮助挖掘过程*第38页,共93页,星期日,2025年,2月5日对大规模数据库进行复杂的数据分析需要耗费大量时间,这是不现实和不
原创力文档

文档评论(0)