云计算下的海量数据挖掘研究〔免积分〕.ppt

下载文档

1
0
约小于1千字
约 27页
2017-05-13 发布于北京
举报
版权申诉
保障服务

云计算下的海量数据挖掘研究〔免积分〕.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

云计算下的海量数据挖掘研究〔免积分〕

云计算下的海量数据挖掘研究 SPKINT 改进后的基本思想 (2)如果集合T分成T1和T2两部分，分别对应m1和m2条记录，则此分割的Gini指数为寻找分裂属性及最佳分裂点： SPRINT并行处理在云计算下海量数据，多有并行数据发生。处理好并行数据，减少数据容错性。数据结构 SPRINT并行算法除了属性表和直方图外．还需要引入哈希表数据结构．来存储分割点两侧的数据记录，为并行节点提供分割依据。哈希表第i条记录的值代表原数据中第i条记录被划分到的树节点号。哈希表分为两项：(NodeID，SubNodeID)，NodeID代表树节点号．SubNodeID表示当前树节点的儿子节点号．默认SubNodeID为0时．表示该记录位于树节点的左子节点．为1时位于树节点的右子节点。并行算法希表。各分站点根据哈希表分割其他属性列表，列表分割同时生成属性直方图。 SPRINT移植经过以上对SPRINT算法改进后．可以将算法移植到云计算的MapReduce框架下进行分布合成处理。 SPRINT与MapReduce水平划分结合算法描述水平分割和垂直分割过程用模型对数据进行分类对银行训练数据进行分类以建立分类模型。训练数据的属性分别为编号、年龄、收入、文化程度、拥有车数量、欠款额和欠款时间。要根据这些属性对银行客户进行信用风险等级进行评估．将客户分为两类。信用高风险用户和信用低风险用户