- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘工具调查与研究
姓名:马蕾
5 种数据挖掘工具分别为:
1、 Intelligent Miner
2 、 SAS Enterpreise Miner
3 、 SPSS Clementine
4 、马克威分析系统
5 、GDM
Intelligent Miner
一、 综述 :IBM 的 Exterprise Miner 简单易用,是理解数据挖掘的好的开始。能处理大数据
量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能用
DB2 ,连接 DB2 以外的数据库时,如 Oracle, SAS, SPSS 需 要安装 DataJoiner 作为中间软
件。难以发布。结果美观,但同样不好理解。
二、 基本内容: 一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数
对象:
数据 : 由函数使用的输入数据的名称和位置。
离散化 :将记录分至明显可识别的组中的分发操作。
名称映射 :映射至类别字段名的值的规范。
结果 : 由函数创建的结果的名称和位置。
分类 : 在一个项目的不同类别之间的关联层次或点阵。
值映射 :映射至其它值的规范。
函数:
发掘 : 单个发掘函数的参数。
预处理 :单个预处理函数的参数。
序列 : 可以在指定序列中启动的几个函数的规范。
统计 : 单个统计函数的参数。
统计方法和挖掘算法: 单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分类,
分群,关联,相似序列,序列模式,预测等。
处理的数据类型: 结构化数据 (如:数据库表,数据库视图,平面文件 ) 和半结构化或非结构化
数据 (如:顾客信件,在线服务,传真,电子邮件,网页等 ) 。
架构: 它采取客户 /服务器( C/S )架构,并且它的 API 提供了 C++ 类和方法
Intelligent Miner 通过其独有的世界领先技术 ,例如自动生成典型数据集、发现关联、发现序
列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现
这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为
止。
三、现状: 现在, IBM 的 Intelligent Miner 已形成系列,它帮助用户从企业数据资产中 识
别和提炼有价值的信息。它包括分析软件工具 —— Intelligent Miner for Data 和 IBM
Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识 —— 如客户购
买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或 Internet 上的文本
数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。
四、挖掘案例 :(客户细分 )
1. 商业需求 : : 客户细分
2. 数据理解 :根据用户基本信息 ( 实际上还包括客户消费行为 ,人口统计信息等 ,本示例为简单起见 ,
只在这个表的数据基础上进行挖掘 )进行客户细分
3. 数据准备 :
4. 建模 :
选择挖掘模型(比如是分群,还是分类)
确定模型输入,需要做的处理,结果分析
选择模型输入字段 :
挖掘模型选择:
神经分群发掘函数使用了一个 Kohonen 特征映射神经网络。 Kohonen 特征映射使用一个
称作自组织的进程来将相似的输入记录组合在一起。您可以指定群集的数目和遍数。这些参数
控制进程时间和将数据记录分配到群集时使用的粒度程度。分群的主任务是为每个群集查找中
心。此中心也称为称为原型。对于每个在输入数据中的每个记录,神经分群发掘函数计算和记
文档评论(0)