一个面向大规模数据库的数据挖掘系统.PDFVIP

  • 0
  • 0
  • 约1.44万字
  • 约 6页
  • 2019-04-08 发布于天津
  • 举报

一个面向大规模数据库的数据挖掘系统.PDF

一个面向大规模数据库的数据挖掘系统.PDF

1000-9825/2002/13(08)1540-06 ©2002 Journal of Software 软 件 学 报 Vol.13, No.8 一个面向大规模数据库的数据挖掘系统 钱卫宁, 魏 藜, 王 焱, 钱海蕾, 周傲英 (复旦大学 计算机科学与工程系,上海 200433); (复旦大学 智能信息处理开放实验室,上海 200433) E-mail: {wnqian,lwei,ayzhou}@ 摘要: 数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要 技术并使它们协同工作, 在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统—— Golden-Eye. 系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关 联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操 作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性: 自底向上将存储 控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结 果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成 功地完成用户所指定的数据挖掘操作. 关 键 词: 数据挖掘; 系统;数据预处理;存储控制;挖掘库 中图法分类号: TP311 文献标识码: A 数据挖掘(data mining)又被称作数据库中的知识发现(knowledge discovery in databases),是指从数据库或 数据仓库中提取隐含的、未知的和潜在的有用信息的非平凡过程.数据挖掘技术主要包括关联规则(association rule)发现、分类(classification) 、聚类(clustering)分析、泛化(generalization)和预测(prediction)等.当前,数据挖掘 的研究热点在于提高挖掘所得的知识的准确度和可理解性、提高数据挖掘操作的可伸缩性、集成数据挖掘操 作和现有的数据存储和分析工具等.此外,作为数据挖掘准备工作的数据离散化、数据变换、数据清洗(data cleaning)和数据挖掘结果的可视化显示以及挖掘结果的评估等技术也属于数据挖掘研究的范畴. 虽然数据挖掘包含诸多方面的工作,但在实际运用中,这些方面的技术往往需要相互协作,共同完成某项挖 掘任务.这就需要数据挖掘工具能够集成各方面的技术,使它们能够协同工作,并统一管理各个挖掘步骤以及结 果.Golden-Eye 系统就是为此目的而开发的.本系统具有如下特点: • 集成了泛化、数据清洗、关联规则发现、时序模式(sequential pattern)发现、分类、聚类等多种基本数 据挖掘操作. • 集成了一些新的操作和新的算法, 比如改进的DBSCAN 聚类算法以及例外规则发现、数据清洗、类别 属性(categorical attribute)聚类这些数据挖掘领域里较新的操作. • 能处理大规模的数据集,测试的最大记录数目达到了 1 000 000 条. • 在系统框架的设计上充分考虑到了系统的完整性、协调性和高效性. 收稿日期: 2001-04-05; 修改日期: 2002-01-24 基金项目: 国家自然科学基金资助项目; 国家重点基础研究发展规划973 资助项目(G 1998030414) 作者简介: 钱卫宁(1976 -),男,浙江上虞人,博士生,主要研究领域为数据挖掘,聚类,Web 数据管理;魏藜( 1978-),女,江西南昌 人,硕士生,主要研究领域为数据挖掘技术;王焱(1977 -), 女,江苏镇江人,硕士,主要研究领域为数据挖掘,Web 数据管理;钱海蕾 (1977 -),女,上海人,硕士,主要研究领域为数据挖掘,聚类,Web 数据管理;周傲英(1965 -),男,安徽宣城人,博士,教授,博士生导师,主要 研究领域为Web 数据管理,数据挖掘,Web 搜索. 钱卫宁 等:一个面向大规模数据库的数据挖掘系统 1541 • 有一个友好的用户界面. 1 系统结构 1.1 系统框架 如图 1 所示为 Golden-Eye 系统的框架.整个系统将

文档评论(0)

1亿VIP精品文档

相关文档