刘鹏云计算与数据挖掘剖析.ppt

1???? 并行分类算法Classifiers4MR 分类功能应以用户提供的历史消费清单作为训练数据,这些数据中有一个属性作为分 类属性,且每条记录已标明分类属性的值。分类算法应提供两方面基本功能: (1) 学习分类模型:从训练集数据中发现潜在的分类模型,并以特定方式表达 (2) 预测:对用户新提供的数据集,依据分类模型预测出所属类别 并行分类算法包括:EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。 BC-PDM挖掘算法 神经网络算法 把整个神经网络的神经元划分成不同层次,对同层次内的不同神经元进行并行参数计算,并通过统一调度和精度控制对神经元进行快速的并行化训练。训练完毕后,对于每一个输入,通过并行化神经网络快速地得到输出 参数 设置 trainInputPath 设置训练集在DFS上的路径 testInputPath 设置测试集在DFS上的路径 predictInputPath 设置预测测试集在DFS上的路径 outputPath 设置结果输出在DFS的路径 numMapTasks 设置Map的个数,一般取计算集群核个数的4倍 numReduceTasks 设置Reduce的个数,一般取计算集群核个数的2倍 learningRate 设置神经网络的学习率,默认为0.6

文档评论(0)

1亿VIP精品文档

相关文档