北风网 云计算和数据挖掘.ppt

  1. 1、本文档共119页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * 1???? 并行分类算法Classifiers4MR 分类功能应以用户提供的历史消费清单作为训练数据,这些数据中有一个属性作为分 类属性,且每条记录已标明分类属性的值。分类算法应提供两方面基本功能: (1) 学习分类模型:从训练集数据中发现潜在的分类模型,并以特定方式表达 (2) 预测:对用户新提供的数据集,依据分类模型预测出所属类别 并行分类算法包括:EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。 BC-PDM挖掘算法 神经网络算法 把整个神经网络的神经元划分成不同层次,对同层次内的不同神经元进行并行参数计算,并通过统一调度和精度控制对神经元进行快速的并行化训练。训练完毕后,对于每一个输入,通过并行化神经网络快速地得到输出 参数 设置 trainInputPath 设置训练集在DFS上的路径 testInputPath 设置测试集在DFS上的路径 predictInputPath 设置预测测试集在DFS上的路径 outputPath 设置结果输出在DFS的路径 numMapTasks 设置Map的个数,一般取计算集群核个数的4倍 numReduceTasks 设置Reduce的个数,一般取计算集群核个数的2倍 learningRate 设置神经网络的学习率,默认为0.6 moment 设置神经网络的学习冲量,默认为0.9 middleNum 设置神经网络的中间层数目,默认为5 middlePopulation 设置神经网络的各个中间层上节点的数目,每一层的节点数用,隔开。比如有两个中间层,各有x个和y个节,则参数配置为x,y min_success_ratio 期望达到的最小成功率,默认为0.7 index 预测利用的属性,默认为出来目标属性外所有的整形和浮点型的属性 TargetIndex 要预测的目标属性,默认为最后一维 modelPath 训练中用来存储模型的路径,或者测试时要利用的模型文件的路径 2 并行聚类算法Clusterers4MR 聚类算法应对用户提供的全体数据集,按照一定的聚类原则,自动聚成几簇。每个簇内的数据应具有很高的相似性。应提供的功能包括: (1)自动聚类:将数据集形成簇模型; (2)预测:依据形成的簇模型,对新数据判定所属的簇。 并行聚类规则算法包括:k均值算法、Clara聚类算法、DBScan聚类算法。 3 并行关联规则算法Associations4MR 关联规则挖掘工具以选定的客户消费记录全集作为输入,分析消费记录中各消费项间依赖关系,产生规则描述各消费项之间同时出现的规律。 关联规则算法包括:并行PApriori算法、并行PFPgrowth算法、并行PAwfits算、时序关联规则。 时序关联规则挖掘算法主要可以用于发现交易序列中的频繁模式。因为交易序列具有时间性,因此各数据项集之间存在时间上的先后关系,“买A又买B的顾客往往还会买C”的规则转变成了“买A后又买B的顾客往往会接下来再买C”或者“买B后又买A的顾客往往会接下来再买C”,在时序关联规则算法中,这后两者是不同的两个关联规则。 时序关联规则算法 参数 设置 inputpath 设置测试集在DFS上的输入路径,例如:pku/seqpat/input outputpath 设置DFS上的结果输出路径,例如:pku/seqpat/output support 设置序列的支持度(%),取值范围为:0 – 100,一般为20 maxlength 设置序列关联规则的最大长度,一般取值为6 confidence 设置规则的置信度(%),若小于该阈值,则不保存该规则,否则保存到规则文件中。该阈值取值范围为0~100,一般取80 maptasks 设置Map的个数,一般取计算集群核个数的4倍 reducetasks 设置Reduce的个数,一般取计算集群核个数的2倍 ? preprocess 设置预处理的输入路径,预处理的输出路径为inputpath, 若路径为空值,则不进行预处理过程 聚类算法结果展示 PKmeas算法处理dm_call数据后结果 决策树算法结果展示 进一步了解云计算 刘鹏 gloud@126.com 中国云计算: 中国网格: 学习动物精神 11、机智应变的猴子:工作的流程有时往往是一成不变的,新人的优势在于不了解既有的做法,而能创造出新的创意与点子。一味 地接受工作的交付, 只能学到工作方法 的皮毛,能思考应 变的人,才会学到 方法的精髓。 学习动物精神 12、善解人意的海豚:常常问自己:我

文档评论(0)

5566www + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档