种数据挖掘工具分析比较.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘工具调查与研究 姓名:马蕾 5 种数据挖掘工具分别为: 1、 Intelligent Miner 2 、 SAS Enterpreise Miner 3 、 SPSS Clementine 4 、马克威分析系统 5 、GDM Intelligent Miner 一、 综述 :IBM 的 Exterprise Miner 简单易用,是理解数据挖掘的好的开始。能处理大数据 量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能用 DB2 ,连接 DB2 以外的数据库时,如 Oracle, SAS, SPSS 需 要安装 DataJoiner 作为中间软 件。难以发布。结果美观,但同样不好理解。 二、 基本内容: 一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数 对象: 数据 : 由函数使用的输入数据的名称和位置。 离散化 :将记录分至明显可识别的组中的分发操作。 名称映射 :映射至类别字段名的值的规范。 结果 : 由函数创建的结果的名称和位置。 分类 : 在一个项目的不同类别之间的关联层次或点阵。 值映射 :映射至其它值的规范。 函数: 发掘 : 单个发掘函数的参数。 预处理 :单个预处理函数的参数。 序列 : 可以在指定序列中启动的几个函数的规范。 统计 : 单个统计函数的参数。 统计方法和挖掘算法: 单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分类, 分群,关联,相似序列,序列模式,预测等。 处理的数据类型: 结构化数据 (如:数据库表,数据库视图,平面文件 ) 和半结构化或非结构化 数据 (如:顾客信件,在线服务,传真,电子邮件,网页等 ) 。 架构: 它采取客户 /服务器( C/S )架构,并且它的 API 提供了 C++ 类和方法 Intelligent Miner 通过其独有的世界领先技术 ,例如自动生成典型数据集、发现关联、发现序 列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现 这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为 止。 三、现状: 现在, IBM 的 Intelligent Miner 已形成系列,它帮助用户从企业数据资产中 识 别和提炼有价值的信息。它包括分析软件工具 —— Intelligent Miner for Data 和 IBM Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识 —— 如客户购 买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或 Internet 上的文本 数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。 四、挖掘案例 :(客户细分 ) 1. 商业需求 : : 客户细分 2. 数据理解 :根据用户基本信息 ( 实际上还包括客户消费行为 ,人口统计信息等 ,本示例为简单起见 , 只在这个表的数据基础上进行挖掘 )进行客户细分 3. 数据准备 : 4. 建模 : 选择挖掘模型(比如是分群,还是分类) 确定模型输入,需要做的处理,结果分析 选择模型输入字段 : 挖掘模型选择: 神经分群发掘函数使用了一个 Kohonen 特征映射神经网络。 Kohonen 特征映射使用一个 称作自组织的进程来将相似的输入记录组合在一起。您可以指定群集的数目和遍数。这些参数 控制进程时间和将数据记录分配到群集时使用的粒度程度。分群的主任务是为每个群集查找中 心。此中心也称为称为原型。对于每个在输入数据中的每个记录,神经分群发掘函数计算和记

文档评论(0)

171****9219 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档