种数据挖掘工具分析比较.pdfVIP

下载本文档

5
0
约1.43万字
约 9页
2021-01-18 发布于天津
举报
版权申诉

种数据挖掘工具分析比较.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘工具调查与研究姓名：马蕾 5 种数据挖掘工具分别为： 1、 Intelligent Miner 2 、 SAS Enterpreise Miner 3 、 SPSS Clementine 4 、马克威分析系统 5 、GDM Intelligent Miner 一、综述：IBM 的 Exterprise Miner 简单易用，是理解数据挖掘的好的开始。能处理大数据量的挖掘，功能一般，可能仅满足要求．没有数据探索功能。与其他软件接口差，只能用 DB2 ，连接 DB2 以外的数据库时，如 Oracle, SAS, SPSS 需要安装 DataJoiner 作为中间软件。难以发布。结果美观，但同样不好理解。二、基本内容：一个挖掘项目可有多个发掘库组成；每个发掘库包含多个对象和函数对象：数据 : 由函数使用的输入数据的名称和位置。离散化 :将记录分至明显可识别的组中的分发操作。名称映射 :映射至类别字段名的值的规范。结果 : 由函数创建的结果的名称和位置。分类 : 在一个项目的不同类别之间的关联层次或点阵。值映射 :映射至其它值的规范。函数：发掘 : 单个发掘函数的参数。预处理 :单个预处理函数的参数。序列 : 可以在指定序列中启动的几个函数的规范。统计 : 单个统计函数的参数。统计方法和挖掘算法：单变量曲线，双变量统计，线性回归，因子分析，主变量分析，分类，分群，关联，相似序列，序列模式，预测等。处理的数据类型：结构化数据 (如：数据库表，数据库视图，平面文件 ) 和半结构化或非结构化数据 (如：顾客信件，在线服务，传真，电子邮件，网页等 ) 。架构：它采取客户 /服务器（ C/S ）架构，并且它的 API 提供了 C++ 类和方法 Intelligent Miner 通过其独有的世界领先技术，例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现，可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要，对结果数据集还可以重复这一过程，直至得到满意结果为止。三、现状：现在， IBM 的 Intelligent Miner 已形成系列，它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具 —— Intelligent Miner for Data 和 IBM Intelligent Miner forText ，帮助企业选取以前未知的、有效的、可行的业务知识 —— 如客户购买行为，隐藏的关系和新的趋势，数据来源可以是大型数据库和企业内部或 Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策，获得竞争优势。四、挖掘案例 :(客户细分 ) 1. 商业需求 : ：客户细分 2. 数据理解 :根据用户基本信息 ( 实际上还包括客户消费行为 ,人口统计信息等 ,本示例为简单起见 , 只在这个表的数据基础上进行挖掘 )进行客户细分 3. 数据准备 : 4. 建模 : 选择挖掘模型（比如是分群，还是分类）确定模型输入，需要做的处理，结果分析选择模型输入字段 : 挖掘模型选择：神经分群发掘函数使用了一个 Kohonen 特征映射神经网络。 Kohonen 特征映射使用一个称作自组织的进程来将相似的输入记录组合在一起。您可以指定群集的数目和遍数。这些参数控制进程时间和将数据记录分配到群集时使用的粒度程度。分群的主任务是为每个群集查找中心。此中心也称为称为原型。对于每个在输入数据中的每个记录，神经分群发掘函数计算和记