- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种数据挖掘系统的设计与实现
摘要:设计并用C#编程语言实现了一个面向初学者的开放通用数据挖掘系统。系统框架明晰、接口规范,便于系统的扩展和完善,给从事数据挖掘研究和应用的初学者提供了一个良好学习平台。
关键词:数据挖掘;C#;软件系统设计
Design and Implementation of Data Mining System
LIN Xia, LI Cheng-yan, ZHANG Lu
(School of Information Science and Engineering, Ludong University, Yantai 264025, China)
Abstract: A universal data mining system is designed and implemented with C# for beginner. The system has a clear framework and provides regular programming interfaces so as to be easily expanded and improved, which offers a good learning platform for beginners who study and use data mining techniques.
Key words: data mining; C#; Software system design
随着计算机的网络化、数据库技术的迅速发展以及数据库管理系统的广泛应用,大量的数据被产生和存储,激增的数据背后隐藏着许多重要的信息,因此人们希望能够对这些数据进行多层次分析,以获取隐藏其内的知识。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系、规则或模式,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据丰富而信息贫乏[1]”的现象,为有效地处理此类问题,数据挖掘技术应运而生。
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但潜在有用的信息和知识的过程,是知识发现(Knowledge Discovery in Database)的重要组成部分。同时数据挖掘也是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它的模型化处理,然后从中提取辅助商业决策的关键性数据。数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
如今人们已开发出了多种数据挖掘系统,国外的主要有IBM的Intelligent Miner、SAS的Enterprise Miner、SPSS的Clementine 和Oracle的Darwin等,此类软件多为商业系统且价格较昂贵,国内较有影响的相关平台有中科院的MSMiner、哈工大与香港大学合作研发的AlphaMiner等,但没有获得广泛的应用且系统较为复杂,不利于初学者学习、使用和扩展。
本文设计了一个开放的通用数据挖掘系统,通过简化的框架设计和编程接口,系统提供了对多种挖掘技术和算法的支持,其可视化的友好界面用以接收用户请求和呈现挖掘结果,并且具有对同一功能的不同挖掘算法产生的结果和效率进行比较分析的功能。
1 数据挖掘的基本过程
从数据源中发现有用的模式、规则等知识是一个系统的过程。首先必须根据相应的挖掘目标选定合适的数据源。然后清洗选定的数据,把它们组织成适合挖掘的形式。最后运用适当的数据挖掘算法交互地发现有用的知识。并且这是一个反复的过程[2],利用反馈可以逐步精化挖掘结果,以获取更有有价值的信息。
一般来说,数据挖掘是一个多步骤的处理过程,其常规的运行流程[3]如图1,主要由以下几部分组成:
1) 数据库、数据仓库、万维网或其它类型数据构成知识发现的信息源。
2) 数据的选择、规整和清洗主要对选取的数据进行再加工。数据的选择、规整主要是依据挖掘知识的类型从庞大的数据源中选择适当的数据并整它们成适合数据挖掘的标准样式。数据清理则是是去除或修正数据中不一致、不完整的数据,根据挖掘算法的要求离散化数据属性值等。
3) 数据库或数据仓库服务器主要用来执行数据挖掘引擎提交的相关运算请求。
4) 数据挖掘引擎主要是一些数据挖掘算法的集合,用来完成分类、聚类、关联规则、预测、奇异值分析等任务。
5) 知识库主要由领域知识组成,用来指导数据挖掘引擎和模式评价过程以发现有价值的知识。
6) 模式评价模块主要应用兴
文档评论(0)