- 1、本文档共116页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1???? 并行分类算法Classifiers4MR 分类功能应以用户提供的历史消费清单作为训练数据,这些数据中有一个属性作为分类属性,且每条记录已标明分类属性的值。分类算法应提供两方面基本功能:(1) 学习分类模型:从训练集数据中发现潜在的分类模型,并以特定方式表达(2) 预测:对用户新提供的数据集,依据分类模型预测出所属类别 并行分类算法包括:EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。 BC-PDM挖掘算法 神经网络算法 把整个神经网络的神经元划分成不同层次,对同层次内的不同神经元进行并行参数计算,并通过统一调度和精度控制对神经元进行快速的并行化训练。训练完毕后,对于每一个输入,通过并行化神经网络快速地得到输出 参数 设置 trainInputPath 设置训练集在DFS上的路径 testInputPath 设置测试集在DFS上的路径 predictInputPath 设置预测测试集在DFS上的路径 outputPath 设置结果输出在DFS的路径 numMapTasks 设置Map的个数,一般取计算集群核个数的4倍 numReduceTasks 设置Reduce的个数,一般取计算集群核个数的2倍 learningRate 设置神经网络的学习率,默认为0.6 moment 设置神经网络的学习冲量,默认为0.9 middleNum 设置神经网络的中间层数目,默认为5 middlePopulation 设置神经网络的各个中间层上节点的数目,每一层的节点数用,隔开。比如有两个中间层,各有x个和y个节,则参数配置为x,y min_success_ratio 期望达到的最小成功率,默认为0.7 index 预测利用的属性,默认为出来目标属性外所有的整形和浮点型的属性 TargetIndex 要预测的目标属性,默认为最后一维 modelPath 训练中用来存储模型的路径,或者测试时要利用的模型文件的路径 2 并行聚类算法Clusterers4MR 聚类算法应对用户提供的全体数据集,按照一定的聚类原则,自动聚成几簇。每个簇内的数据应具有很高的相似性。应提供的功能包括: (1)自动聚类:将数据集形成簇模型; (2)预测:依据形成的簇模型,对新数据判定所属的簇。 并行聚类规则算法包括:k均值算法、Clara聚类算法、DBScan聚类算法。 3 并行关联规则算法Associations4MR 关联规则挖掘工具以选定的客户消费记录全集作为输入,分析消费记录中各消费项间依赖关系,产生规则描述各消费项之间同时出现的规律。 关联规则算法包括:并行PApriori算法、并行PFPgrowth算法、并行PAwfits算、时序关联规则。 时序关联规则挖掘算法主要可以用于发现交易序列中的频繁模式。因为交易序列具有时间性,因此各数据项集之间存在时间上的先后关系,“买A又买B的顾客往往还会买C”的规则转变成了“买A后又买B的顾客往往会接下来再买C”或者“买B后又买A的顾客往往会接下来再买C”,在时序关联规则算法中,这后两者是不同的两个关联规则。 时序关联规则算法 参数 设置 inputpath 设置测试集在DFS上的输入路径,例如:pku/seqpat/input outputpath 设置DFS上的结果输出路径,例如:pku/seqpat/output support 设置序列的支持度(%),取值范围为:0 – 100,一般为20 maxlength 设置序列关联规则的最大长度,一般取值为6 confidence 设置规则的置信度(%),若小于该阈值,则不保存该规则,否则保存到规则文件中。该阈值取值范围为0~100,一般取80 maptasks 设置Map的个数,一般取计算集群核个数的4倍 reducetasks 设置Reduce的个数,一般取计算集群核个数的2倍 ? preprocess 设置预处理的输入路径,预处理的输出路径为inputpath, 若路径为空值,则不进行预处理过程 聚类算法结果展示 PKmeas算法处理dm_call数据后结果 决策树算法结果展示 进一步了解云计算 刘鹏 gloud@126.com 中国云计算: 中国网格: * * * * * * * * 微软芝加哥数据中心 * * * * * * * * * BC-PDM分布式数据挖掘系统 2007年3月,确定了大云(Big Cloud)计划,即中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究及原型系统开发计划。 2007年7月,利用闲置的15台P
您可能关注的文档
- 埃森哲《关于中国铝业上市公司总体薪酬激励体系设计的初步建议》50页.ppt
- 安徽省当涂县四校2013届九年级第三次中考模拟联考化学试题.pdf
- 安全装置注意事项.pptx
- 安全总结汇报材料1.doc
- 案例3:加拿大绩效审计.ppt
- 把握高考命题方向,做好阅读理解题-人教版[整理].ppt
- 把握高中历史命题趋势 为最后冲刺做准备.ppt
- 百度世界--精准营销体系.ppt
- 北京市2011年高考教师模拟命题比赛优秀作品15+.doc
- 毕业设计指导——照明.doc
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
文档评论(0)