- 20
- 0
- 约7.85千字
- 约 13页
- 2019-03-10 发布于广西
- 举报
第16章 基于R语言的数据挖掘二次开发
第 PAGE \* Arabic \* MERGEFORMAT 13 页
第三部分 提高篇
基于R语言的数据挖掘二次开发
混合编程应用体验——TipDM数据挖掘平台
顶尖数据挖掘平台(TipDM)是广州TipDM团队花费数年时间自主研发的一个数据挖掘平台,基于SOA架构,使用Java语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。系统支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。TipDM以智能预测技术为核心,并提供开放的应用接口。TipDM的底层算法,主要基于R、WEKA、Mahout等通过封装形成,所以建模输出结果与这几个工具的输出类同。使用过程中,用户也可以嵌入自己开发的其他任何算法。
下面以实现网站访问用户聚类为例,先来一下体验TipDM数据挖掘平台的魅力!
建设目标
全国大学生数据挖掘竞赛网站()是一个致力于为高校师生提供各类数据挖掘资源、资讯和竞赛活动开展的综合性网站,高校师生可通过网站获取到所需的竞赛通知、教学资源、项目需求、培训课程等信息。访问网站的用户很多,但不同用户群体感兴趣的内容不一样,适合推荐的服务也不一样,有的用户对数据挖掘领域不是太熟悉,相关的技术还不熟悉,此时就需要提供相应的培训资源,有的用户是寻求企业级的数据挖掘服务,希望找到数据挖掘在企业方面的应用,此时就需要提供相应的企业应用服务资源。对于网站而言,可结合用户访问网站的行为,挖掘出不同用户群体,推荐匹配的服务,提高用户留存率。
用户访问网站中不同类别的网页的次数反映了用户的倾向,网站网页以一级标签和二级标签进行了标识,统计用户访问不同标签网页的次数能作为用户聚类的指标,考虑到网站建设的目的是有效组织数据挖掘竞赛活动、提供培训咨询服务和企业数据挖掘应用研发合作,聚类的指标可针对这三方面进行设计,将用户划分为不同的群体后可针对相应的群体推荐不同的业务。
模型构建
创建模型方案
根据建设目标,本例需要构建如下预测模型:网站访问用户聚类模型(Model1)
登录TipDM平台,创建模型方案,如 REF _Ref424807105 \h 图 161所示。
图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 1创建方案
专家样本管理
在方案管理界面中,双击激活该方案,在数据管理界面中导入网站访问用户聚类的样本数据,如 REF _Ref424807084 \h 图 162所示。
图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 2导入样本数据
数据探索和预处理
模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。
数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。数据探索包括:相关性分析、主成分分析、周期性分析、脏数据分析等。
数据预处理主要包括缺失值处理、坏数据处理、属性选择、数据规约、离散处理、特征提取等。 REF _Ref424807061 \h 图 163为对导入的样本数据进行属性选择。
图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 3数据预处理
模型训练
模型训练是针对导入的专家样本数据,在设置好建模参数后,进行模型构建, REF _Ref424807014 \h \* MERGEFORMAT 图 164为采用Kmeans算法进行模型训练的操作界面。
图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 4模型训练
模型评价
模型训练完成后,根据输出信息对模型结果进行评价,如 REF _Ref424806979 \h 图 165和 REF _Ref424806953 \h 图 166所示。
图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 5模型结果
图 STYLEREF 1 \s 16 SEQ 图 \* ARABIC \s 1 6模型输出图
二次开发过程环境配置
开发环境的软件版本列表如 REF _Ref419103406 \h 表 161所示。
表 STYLEREF 1 \s 16 SEQ 表 \* ARABIC \s 1 1软件版本列表
软件
版本
备注
操作系统
Windows8 64bit
操作系统版本使用Windows7 亦可
Eclipse
Eclipse 4.4.2
JDK
1.6+
R语言的配置
双击R客户端,进入R命令行,使用install.packages命令安装Rserve和RODBC包。具体命令如 R
原创力文档

文档评论(0)