- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘试验平台 DMLab 的设计与原型实现
陈明,范文建
西南交通大学信息科学与技术学院(610031)
E-mail :amingsc@
摘 要: 介绍了一个数据挖掘试验平台DMLab 的设计与实现。DMLab 是一个专门为数据挖掘研究
人员进行算法试验而设计的集成开发环境,与其他挖掘工具相比,DMLab 效率高、操作简便、算
法实现更容易。系统集成了算法运行结果的可视化模块和智能化评价模块,使用户评价新算法的过
程变得更加客观、简便。
关键词:DMLab;试验平台;Python;数据挖掘
1. 引言
数据挖掘是一门实践性很强的工程学科,现在还没有形成完整的理论框架,许多算法都还需要
用试验来验证和测试;许多从事数据挖掘研究的学者在学习、研究过程中都有这样的体会:为了实
现并验证一个新算法的性能,从准备数据到实现算法再到评估算法常常都需要完全由自己编码实
现,而这是一个有很大跨度的过程,有相当的难度[2] 。为了避免数据挖掘研究人员耗太多的精力在
重复的软件编码上,提高算法研究的效率,我们开发了这个数据挖掘集成试验平台DMLab(Data
Mining Labrary),为算法研究人员提供了一个算法实现、测试、试验的高效环境,使得他们不再需
要花过多的精力在系统的设计上,而把精力都集中在算法本身的实现和研究上。
在这个平台提供的统一的开发接口数据挖掘库DMC (Data Mining Class )的基础上,用户可以
很容易地实现关联规则提取、分类预测、聚类等各种挖掘算法。DMLab集算法的编辑、调试、数
据集的预处理、挖掘结果的可视化、存储和分析等功能于一体,相比其他工具[1]和方法大大的提高
了算法开发的效率,降低了开发难度。
2. 系统体系结构
本系统的体系结构[3,4]见图 2. 1。整个系统由数据处理、开发环境和试验环境等三个模块和一个
挖掘函数库DMC组成,其中数据处理又由数据解析、数据探索及数据预处理三个子模块组成,开
发环境由算法编辑、算法调试及算法管理三个子模块组成,试验环境由流程控制、结果表示及结果
分析三个子模块组成。
-1-
数
据 Flat File Database WWW
源
解析 数据Loaders
数
据
探索 数据矩阵 数据Server
处
理
预处理
S
o
c
k
e
t
您可能关注的文档
最近下载
- 2024年黑龙江省哈尔滨市中考语文试题(含官方答案).docx
- 小学五年级语文上册教学课件《古诗三首》.pptx VIP
- 滨州医学院毕业答辩简洁模板.ppt
- 成人呼吸支持治疗器械相关压力性损伤的预防——2023中华护理学会团体标准.pptx VIP
- 数学--高思课本和乐乐课堂名称对应(1).pdf
- 常暗之厢常闇の箱.pdf
- 成人呼吸支持治疗器械相关压力性损伤的预防(2023中华护理学会团体标准).pptx VIP
- 《调皮的小猫咪》-美术课件.ppt VIP
- 七年级语文上册第二单元整体教学设计-优质教案.docx
- 成人呼吸支持治疗器械相关压力性损伤的预防-2023中华护理学会团体标准.pptx VIP
文档评论(0)