数据挖掘实验报告(同名22443).docVIP

下载本文档

25
0
约3.66千字
约 6页
2020-06-11 发布于上海
举报
版权申诉

数据挖掘实验报告(同名22443).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘实验报告——加权K-近邻法数据源说明数据理解数据来自于天猫对顾客的BuyOrNot(买与不买)，BuyDNactDN(消费活跃度)，ActDNTotalDN(活跃度)，BuyBBrand(成交有效度)，BuyHit(活动有效度)这五个变量的统计。数据分成两类数据，一类作为训练数据集，一类为测试数据集。 2.数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。缺失值：当数据中存在缺失值是，忽略该元组噪声数据：本文暂没考虑。基于变量重要性的加权K-近邻法[1] 由于我们计算K-近邻法默认输入变量在距离测度中有“同等重要”的贡献，但情况并不总是如此。我们知道不同的变量对我们所要预测的变量的作用是不一定一样的，所以找出对输出变量分类预测有意义的重要变量对数据预测具有重要作用。同时也可以减少那些对输出变量分类预测无意义的输入变量，减少模型的变量。为此，采用基于变量重要性的K-近邻法，计算加权距离，给重要的变量赋予较高的权重，不重要的变量赋予较低的权重是必要的。（1）算法思路：我们引进为第i个输入变量的权重，是输入变量重要性（也称特征重要性），FI函数，定义为：。其中为第i个输入变量的特征重要性，这里，依第i个输入变量对预测误差的影响定义。设输入变量集合包含p个变量：。剔除第i个变量后计算输入变量的误判率，记为。若第i个变量对预测有重要作用，剔除变量后的预测误差应较大。于是，第i个变量的重要性定义为：。可见，变量越重要，在计算距离时的权重越高。（2）算法步骤： step.1---求解出错判率最低的K值 step.2---求解出第i个变量的（3）算法源代码 library(class) Tmall_train-read.csv(D:\\Documents\\Rword\\第一章\\Train_tmall.csv) Tmall_test-read.csv(D:\\Documents\\Rword\\第一章\\天猫_Test_1.csv) par(mfrow=c(2,2)) set.seed(123456) errRatio-vector() for(i in 1:30){ KnnFit-knn(train=Tmall_train[,-1],test=Tmall_test[,-1],cl=Tmall_train[,1],k=i,prob=FALSE) CT-table(Tmall_test[,1],KnnFit) errRatio-c(errRatio,(1-sum(diag(CT))/sum(CT))*100) } plot(errRatio,type=l,xlab=近邻个数k,ylab=错判率(%),main=近邻数K与错判率) 从右边近邻数K与错判率的图可明显看出，近邻个数为7时，误判率和稳健性最好 errDelteX-errRatio[7] for(i in -2:-5){ fit-knn(train=Tmall_train[,c(-1,i)],test=Tmall_test[,c(-1,i)],cl=Tmall_train[,1],k=7) CT-table(Tmall_test[,1],fit) errDelteX-c(errDelteX,(1-sum(diag(CT))/sum(CT))*100) } plot(errDelteX,type =l,xlab=剔除变量,ylab=剔除错判率(%),main=剔除变量与剔除错判率,cex.main=0.8) xTitle=c(1:全体变量,2:消费活跃度,3:活跃度,4:成交有效度,5:活动有效度) legend(topright,legend=xTitle,title=变量说明,lty=1,cex=0.6) FI-errDelteX[-1]+1/4 wi-FI/sum(FI) Glabs-paste(c(度,活跃度,成交有效度,活动有效度),round(wi,2),sep=:) pie(wi,labels = Glabs,clockwise = T,main=输入变量权重,cex.main=0.8) 从上面两个图我们可以明显得出，消费活跃度、成交有效度及活动有效度在预测消费者买与不买中占的权重比较大，其中消费者消费活跃度在预测消费者买与不买的重要性最大，达到45%，是预测消费者消费的一个关键变量。三、基于观测相似性的加权K-近邻法[2] （1）核心思想： K-近邻法预测时，默认K个近邻对观测结果又“同等力度“的影响。事实上，据的远近观测对预测贡献的大小是有影响的，距离越近对预测的贡献大于距离较远的预测贡献。将相似性定义为各观测与距离的某