- 1、本文档共116页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1???? 并行分类算法Classifiers4MR 分类功能应以用户提供的历史消费清单作为训练数据,这些数据中有一个属性作为分类属性,且每条记录已标明分类属性的值。分类算法应提供两方面基本功能:(1) 学习分类模型:从训练集数据中发现潜在的分类模型,并以特定方式表达(2) 预测:对用户新提供的数据集,依据分类模型预测出所属类别 并行分类算法包括:EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。 BC-PDM挖掘算法 神经网络算法 把整个神经网络的神经元划分成不同层次,对同层次内的不同神经元进行并行参数计算,并通过统一调度和精度控制对神经元进行快速的并行化训练。训练完毕后,对于每一个输入,通过并行化神经网络快速地得到输出 参数 设置 trainInputPath 设置训练集在DFS上的路径 testInputPath 设置测试集在DFS上的路径 predictInputPath 设置预测测试集在DFS上的路径 outputPath 设置结果输出在DFS的路径 numMapTasks 设置Map的个数,一般取计算集群核个数的4倍 numReduceTasks 设置Reduce的个数,一般取计算集群核个数的2倍 learningRate 设置神经网络的学习率,默认为0.6 moment 设置神经网络的学习冲量,默认为0.9 middleNum 设置神经网络的中间层数目,默认为5 middlePopulation 设置神经网络的各个中间层上节点的数目,每一层的节点数用,隔开。比如有两个中间层,各有x个和y个节,则参数配置为x,y min_success_ratio 期望达到的最小成功率,默认为0.7 index 预测利用的属性,默认为出来目标属性外所有的整形和浮点型的属性 TargetIndex 要预测的目标属性,默认为最后一维 modelPath 训练中用来存储模型的路径,或者测试时要利用的模型文件的路径 2 并行聚类算法Clusterers4MR 聚类算法应对用户提供的全体数据集,按照一定的聚类原则,自动聚成几簇。每个簇内的数据应具有很高的相似性。应提供的功能包括: (1)自动聚类:将数据集形成簇模型; (2)预测:依据形成的簇模型,对新数据判定所属的簇。 并行聚类规则算法包括:k均值算法、Clara聚类算法、DBScan聚类算法。 3 并行关联规则算法Associations4MR 关联规则挖掘工具以选定的客户消费记录全集作为输入,分析消费记录中各消费项间依赖关系,产生规则描述各消费项之间同时出现的规律。 关联规则算法包括:并行PApriori算法、并行PFPgrowth算法、并行PAwfits算、时序关联规则。 时序关联规则挖掘算法主要可以用于发现交易序列中的频繁模式。因为交易序列具有时间性,因此各数据项集之间存在时间上的先后关系,“买A又买B的顾客往往还会买C”的规则转变成了“买A后又买B的顾客往往会接下来再买C”或者“买B后又买A的顾客往往会接下来再买C”,在时序关联规则算法中,这后两者是不同的两个关联规则。 时序关联规则算法 参数 设置 inputpath 设置测试集在DFS上的输入路径,例如:pku/seqpat/input outputpath 设置DFS上的结果输出路径,例如:pku/seqpat/output support 设置序列的支持度(%),取值范围为:0 – 100,一般为20 maxlength 设置序列关联规则的最大长度,一般取值为6 confidence 设置规则的置信度(%),若小于该阈值,则不保存该规则,否则保存到规则文件中。该阈值取值范围为0~100,一般取80 maptasks 设置Map的个数,一般取计算集群核个数的4倍 reducetasks 设置Reduce的个数,一般取计算集群核个数的2倍 ? preprocess 设置预处理的输入路径,预处理的输出路径为inputpath, 若路径为空值,则不进行预处理过程 聚类算法结果展示 PKmeas算法处理dm_call数据后结果 决策树算法结果展示 进一步了解云计算 刘鹏 gloud@126.com 中国云计算: 中国网格: * * * * * * * * 微软芝加哥数据中心 * * * * * * * * * BC-PDM分布式数据挖掘系统 2007年3月,确定了大云(Big Cloud)计划,即中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究及原型系统开发计划。 2007年7月,利用闲置的15台P
文档评论(0)