三大数据挖掘工具的比较(用于软件选型)1..doc

三大数据挖掘工具的比较(用于软件选型)1..doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三大数据挖掘工具的比较(用于软件选型)1.

数据挖掘工具的评判 刘世平 姚玉辉博士/文 要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产品,而且功能和使用简易性也在日益提高。例如:SAS公司的Enterprise Miner以及IBM公司的 Intelligent Miner,等等。 直接采用商业数据挖掘工具来帮助项目实施,是一个很好的选择。它既节省了大量的开发费用,又可以节约维护和升级的开销。本文是目前国内第一份对主流数据挖掘工具的评估报告,该报告综合了国内一流业务专家和数据挖掘专家的意见,为帮助企业进行类似评估提供了很高的参考价值。 工具种类 数据挖掘工具包括两种: ● 数据挖掘(Mining for Data)工具:其所用的数据都存储在已经有了明确字段定义的数据库或文本文件里,我们称之为结构化的数据挖掘工具。它主要是用来进行预测、聚类分析、关联分析、时间序列分析以及统计分析等。 ● 文本挖掘(Text Mining)工具:它是用来从非结构化的文档中提取有价值的信息,这些信息都隐藏在文档里并且没有清晰的字段定义。文本挖掘主要是应用在市场调研报告中或呼叫中心(Call Center)的客户报怨定级、专利的分类、网页的分类以及电子邮件分类等。根据著名数据挖掘网站KDnuggets统计,目前已有50多种数据挖掘工具问世。 ● 一般而言,目前市场上这些数据挖掘工具又可分成两类——企业型工具以及小型工具。 企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持多种平台,并基于客户机/服务器结构。它通常可以直接连接一些复杂的数据管理系统(不像普通文本文件),并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题。企业数据挖掘工具的实例有IBM的Intelligent Miner和SAS Enterprise Miner等。 ● 小型数据挖掘工具:它与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解决方案。比如Oracle公司的 Darwin,Insightful公司的Insightful Miner,等等。 工具选择 如何在众多工具中挑选出最适合本公司的呢?这的确是一个非常具有挑战性的工作。由于各个公司的背景、财务、挖掘水平各不相同,对数据挖掘工具的需求也就各不一样。到目前为止,可供参考的权威评估报告非常少。最近的一份完整而权威的数据挖掘工具评估报告是由John F. Elder IV和Dean W. Abbott在1998年完成的。可以说,它已经过时了。但一般说来,对数据挖掘工具的选择可从以下几点着眼: ● 公司的数据挖掘需求是短期行为还是长期使用 如果是短期行为,就购买那些能解决特定问题的软件包或外包给咨询公司。如果是长期使用,就需要购买功能比较丰富,使用比较方便,维护升级比较好的企业型数据挖掘工具。 ● 公司的数据挖掘经验和水平 公司应该根据内部数据挖掘团队的经验和水平,选取一些经过基本培训后就能掌握的工具。而不要盲目求好,最终导致因不会使用工具而将其束之高搁,从而造成资源的浪费。 ● 公司的数据状态 在挑选数据挖掘工具前,公司必须对现有的数据进行评估。如果没有具备进行业务主题数据挖掘(比如:风险预测)的数据或者现有格式不能满足数据挖掘工具的需求,那就需要等数据具备了,才可考虑购买工具。 ● 公司的预算 当然,在评估数据挖掘工具时,公司也要结合自身的财务预算来决定。 ● 工具的性能 好的工具可以更有效地挖掘出高准确和高价值的信息,所以工具性能的评估也是相当重要的。 下面,本文将结合国内某一家大公司数据挖掘工具评估的实际例子,对目前市场上最流行的数据软件工具从纯技术角度进行详细讲解和评估。从而为行内公司进行类似的工作提供参考。 工具评判 图1显示了数据挖掘工具评估的一般过程。 首先我们要通过不同途径(Internet,杂志,供应商提交材料等)尽可能多地收集数据挖掘工具的相关资料。然后,根据公司的业务需求、工具性能、公司背景等情况,确定3~5个初选对象。在确定完评估对象后,我们将从技术、业务需求、数据状态、供应商实力、财务预算等各个角度来制定比较详细的评估条款以及权值。制定完标准后,下一步就是根据所制定的标准进行逐一评分。最后,根据评分结果进行总结,从而提出数据挖掘工具的选取建议。 下面的案例,是国内某家大公司数据挖掘工具的技术评估过程: 该公司于2002年开始启动数据挖掘项目。对于该公司来说,数据挖掘是一项长期的工程。由于同时考虑到数据量大、业

文档评论(0)

sa1fs5g1xc1I + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档