数据挖掘试验平台DMLab的设计及原型实现.pdf

数据挖掘试验平台DMLab的设计及原型实现.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘试验平台 DMLab 的设计与原型实现 陈明,范文建 西南交通大学信息科学与技术学院(610031) E-mail :amingsc@ 摘 要: 介绍了一个数据挖掘试验平台DMLab 的设计与实现。DMLab 是一个专门为数据挖掘研究 人员进行算法试验而设计的集成开发环境,与其他挖掘工具相比,DMLab 效率高、操作简便、算 法实现更容易。系统集成了算法运行结果的可视化模块和智能化评价模块,使用户评价新算法的过 程变得更加客观、简便。 关键词:DMLab;试验平台;Python;数据挖掘 1. 引言 数据挖掘是一门实践性很强的工程学科,现在还没有形成完整的理论框架,许多算法都还需要 用试验来验证和测试;许多从事数据挖掘研究的学者在学习、研究过程中都有这样的体会:为了实 现并验证一个新算法的性能,从准备数据到实现算法再到评估算法常常都需要完全由自己编码实 现,而这是一个有很大跨度的过程,有相当的难度[2] 。为了避免数据挖掘研究人员耗太多的精力在 重复的软件编码上,提高算法研究的效率,我们开发了这个数据挖掘集成试验平台DMLab(Data Mining Labrary),为算法研究人员提供了一个算法实现、测试、试验的高效环境,使得他们不再需 要花过多的精力在系统的设计上,而把精力都集中在算法本身的实现和研究上。 在这个平台提供的统一的开发接口数据挖掘库DMC (Data Mining Class )的基础上,用户可以 很容易地实现关联规则提取、分类预测、聚类等各种挖掘算法。DMLab集算法的编辑、调试、数 据集的预处理、挖掘结果的可视化、存储和分析等功能于一体,相比其他工具[1]和方法大大的提高 了算法开发的效率,降低了开发难度。 2. 系统体系结构 本系统的体系结构[3,4]见图 2. 1。整个系统由数据处理、开发环境和试验环境等三个模块和一个 挖掘函数库DMC组成,其中数据处理又由数据解析、数据探索及数据预处理三个子模块组成,开 发环境由算法编辑、算法调试及算法管理三个子模块组成,试验环境由流程控制、结果表示及结果 分析三个子模块组成。 -1- 数 据 Flat File Database WWW 源 解析 数据Loaders 数 据 探索 数据矩阵 数据Server 处 理 预处理 S o c k e t

文档评论(0)

0520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档