云计算下的海量数据挖掘研究(免积分).pptVIP

下载本文档

0
0
约小于1千字
约 27页
2018-08-14 发布于江苏
举报

云计算下的海量数据挖掘研究(免积分).ppt

云计算下的海量数据挖掘研究 SPKINT 改进后的基本思想 (2)如果集合T分成T1和T2两部分，分别对应m1和m2条记录，则此分割的Gini指数为寻找分裂属性及最佳分裂点： SPRINT并行处理在云计算下海量数据，多有并行数据发生。处理好并行数据，减少数据容错性。数据结构 SPRINT并行算法除了属性表和直方图外．还需要引入哈希表数据结构．来存储分割点两侧的数据记录，为并行节点提供分割依据。哈希表第i条记录的值代表原数据中第i条记录被划分到的树节点号。哈希表分为两项：(NodeID，SubNodeID)，NodeID代表树节点号．SubNodeID表示当前树节点的儿子节点号．默认SubNodeID为0时．表示该记录位于树节点的左子节点．为1时位于树节点的右子节点。并行算法希表。各分站点根据哈希表分割其他属性列表，列表分割同时生成属性直方图。 SPRINT移植经过以上对SPRINT算法改进后．可以将算法移植到云计算的MapReduce框架下进行分布合成处理。 SPRINT与MapReduce水平划分结合算法描述水平分割和垂直分割过程用模型对数据进行分类对银行训练数据进行分类以建立分类模型。训练数据的属性分别为编号、年龄、收入、文化程度、拥有车数量、欠款额和欠款时间。要根据这些属性对银行客户进行信用风险等级进行评估．将客户分为两类。信用高风险用户和信用低风险用户

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

云计算下的海量数据挖掘研究(免积分).pptVIP