- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘工具的选择、分析、比较与展望
高春华
(南京大学计算机科学与技术系,南京,210093)
Choice, Analysis, Comparison and Future Studies of Data Mining Tools
GAO Chun-Hua
(Department of Computer Science and Technology, Nanjing University, Nanjing, 210093)
Abstract: As a new technology of deriving knowledge from massive data, data mining has become increasingly popular in research and industry fields. Its success in commercial area makes software engineers develop new data mining tools and improve current tools. Now we can see data mining tools have become a feast of eye, so it is hard for us to choose proper data mining tools. In order to offer some help, the paper discusses some ways of choosing data mining tools. At the same time, it makes introduction of several famous data mining tools and discusses the strength and weakness of each tool. It then chooses SPSS Clementine as a tool to do some data mining work and compare it with WEKA and SAS EM. Finally, it talks about the features and new functions of future data mining tools.
Key Words: Data Mining; SPSS Clementine, Use of tools, Comparative studies, Future work
摘要:数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注,它在商业方面的应用使得软件开发商不断开发新的数据挖掘工具,改进现有的数据挖掘工具,一时之间数据挖掘工具可谓琳琅满目,于是出现了如何合理选择挖掘工具的问题。鉴此,本文提出并讨论了点关于理选择数据挖掘工具的技巧。
关键词:数据挖掘、SPSS Clementine、工具使用、工具比较、展望
前言:
随着数据库和计算机网络广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。然而数据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个以发现为驱动的过程,已经引起了学术界和产业界的极大重视。特别是从1989年8月在美国底特律召开的第11届国际人工智能联合会议上首次出现数据库中的知识发现概念以来,数据挖掘在国际国内都受到了前所未有的重视,目前数据挖掘广泛应用于各个领域,如地理学、地质学、生物医学等等,总之数据挖掘的出现使数据库技术进入了一个更高级的阶段,不仅能对过去的数据进行查询和遍历,还能够找出以往数据间潜在的联系,促进信息的传播。
数据挖掘是一个从数据中提取模式的过程,是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等;数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是一种决策支持过程。通过预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。由于传统的事物型工具(如查询工具、报表工具)无法回答事先未定义的综合性问题或跨部门/机构的问题,因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门/机构的问题,挖掘潜在的模式并预测未来的趋势,用户不必提出确切的问题,而且模糊问题更有利于发现未知的事实。
2.1数据挖掘工具的重要性:
数据挖掘工具利用各
文档评论(0)