第16章基于R语言的数据挖掘二次开发.docVIP

下载本文档

20
0
约7.85千字
约 13页
2019-03-10 发布于广西
举报

第16章基于R语言的数据挖掘二次开发.doc

第16章基于R语言的数据挖掘二次开发第 PAGE \* Arabic \* MERGEFORMAT 13 页第三部分提高篇基于R语言的数据挖掘二次开发混合编程应用体验——TipDM数据挖掘平台顶尖数据挖掘平台（TipDM）是广州TipDM团队花费数年时间自主研发的一个数据挖掘平台，基于SOA架构，使用Java语言开发，能从各种数据源获取数据，建立各种不同的数据挖掘模型。系统支持数据挖掘流程所需的主要过程，并提供开放的应用接口和常用算法，能够满足各种复杂的应用需求。TipDM以智能预测技术为核心，并提供开放的应用接口。TipDM的底层算法，主要基于R、WEKA、Mahout等通过封装形成，所以建模输出结果与这几个工具的输出类同。使用过程中，用户也可以嵌入自己开发的其他任何算法。下面以实现网站访问用户聚类为例，先来一下体验TipDM数据挖掘平台的魅力！建设目标全国大学生数据挖掘竞赛网站（）是一个致力于为高校师生提供各类数据挖掘资源、资讯和竞赛活动开展的综合性网站，高校师生可通过网站获取到所需的竞赛通知、教学资源、项目需求、培训课程等信息。访问网站的用户很多，但不同用户群体感兴趣的内容不一样，适合推荐的服务也不一样，有的用户对数据挖掘领域不是太熟悉，相关的技术还不熟悉，此时就需要提供相应的培训资源，有的用户是寻求企业级的数据挖掘服务，希望找到数据挖掘在企业方面的应用，此时就需要提供相应的企业应用服务资源。对于网站而言，可结合用户访问网站的行为，挖掘出不同用户群体，推荐匹配的服务，提高用户留存率。用户访问网站中不同类别的网页的次数反映了用户的倾向，网站网页以一级标签和二级标签进行了标识，统计用户访问不同标签网页的次数能作为用户聚类的指标，考虑到网站建设的目的是有效组织数据挖掘竞赛活动、提供培训咨询服务和企业数据挖掘应用研发合作，聚类的指标可针对这三方面进行设计，将用户划分为不同的群体后可针对相应的群体推荐不同的业务。模型构建创建模型方案根据建设目标，本例需要构建如下预测模型：网站访问用户聚类模型（Model1）登录TipDM平台，创建模型方案，如 REF _Ref424807105 \h 图 161所示。图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 1创建方案专家样本管理在方案管理界面中，双击激活该方案，在数据管理界面中导入网站访问用户聚类的样本数据，如 REF _Ref424807084 \h 图 162所示。图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 2导入样本数据数据探索和预处理模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量，从而为保证预测质量打下基础。数据探索是对导入系统中的数据进行初步研究，以便更好地理解它的特殊性质，有助于选择合适的数据预处理和数据分析技术。数据探索包括：相关性分析、主成分分析、周期性分析、脏数据分析等。数据预处理主要包括缺失值处理、坏数据处理、属性选择、数据规约、离散处理、特征提取等。 REF _Ref424807061 \h 图 163为对导入的样本数据进行属性选择。图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 3数据预处理模型训练模型训练是针对导入的专家样本数据，在设置好建模参数后，进行模型构建， REF _Ref424807014 \h \* MERGEFORMAT 图 164为采用Kmeans算法进行模型训练的操作界面。图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 4模型训练模型评价模型训练完成后，根据输出信息对模型结果进行评价，如 REF _Ref424806979 \h 图 165和 REF _Ref424806953 \h 图 166所示。图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 5模型结果图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 6模型输出图二次开发过程环境配置开发环境的软件版本列表如 REF _Ref419103406 \h 表 161所示。表 STYLEREF 1 \s 16 SEQ 表 \* ARABIC \s 1 1软件版本列表软件版本备注操作系统 Windows8 64bit 操作系统版本使用Windows7 亦可 Eclipse Eclipse 4.4.2 JDK 1.6+ R语言的配置双击R客户端，进入R命令行，使用install.packages命令安装Rserve和RODBC包。具体命令如 R

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第16章基于R语言的数据挖掘二次开发.docVIP