基于抽样的云频繁项集挖掘算法分析-analysis of cloud frequent itemsets mining algorithm based on sampling.docxVIP
- 8
- 0
- 约5.49万字
- 约 68页
- 2018-05-18 发布于上海
- 举报
基于抽样的云频繁项集挖掘算法分析-analysis of cloud frequent itemsets mining algorithm based on sampling
基于抽样的云频繁项集挖掘算法研究摘要随着数据收集技术的发展,海量数据时代已经到来。当今社会商业竞争异常激烈,人们迫切希望从海量数据中,提取有用的信息以帮助进行商业决策。但是,传统的数据分析和数据挖掘技术在处理海量数据时,时间和空间的代价过大,很难满足人们的需求。例如,数据挖掘中传统的频繁项集挖掘需要多次扫描数据集,消耗大量时间;还需要存储大量的候选项集,消耗大量内存。数据收集技术发展的同时,海量数据处理技术也以高并发、低成本的处理优势高速发展。近几年,以Hadoop生态系统发展最具代表性。Hadoop项目主要由两部分组成:HDFS和mapreduce,它们分别是Google FileSystem和GoogleMapReduce的开源实现。Hadoop分布式框架主要是以廉价的商业机器为计算节点构成云平台,达到高效处理海量数据的目的。将数据挖掘和Hadoop框架有机结合,利用Hadoop优秀的海量数据处理能力进行挖掘,将会给数据挖掘带来新的活力。本文主要针对数据挖掘中频繁项集挖掘和Hadoop框架相结合,做了以下工作:(1)对Hadoop平台进行深入的研究和分析。Hadoop平台的最核心的两个部分是:用于海量数据存储的HDFS分布式文件系统和用于数据处理的Mapreduce并行编程框架。两者相辅相成,构成了Hadoop分布式框架。(2)为了进一步提高频繁项集挖掘效率,提出了一种基于Hadoop 平台的并行抽样算法。这种算法利用mapreduce编程框架,单次扫描海量数据即可实现随机抽样。在抽样的过程中,还可以完成对数据的清理工作。(3)对传统频繁项集挖掘算法进行深入的研究后,提出了一种基于抽样的频繁项集并行发现算法。该算法基于Hadoop平台,充分发挥其处理海量数据的优势,实验证明该算法具有良好的挖掘性能。关键词:数据挖掘;频繁项集;Hadoop;MapreduceTheResearchofCloudFrequentItemsetsMining AlgorithmWhichBasedonSampleAbstractWith the development of data collection technology, the era of massivedataiscoming.Businesscompetitionisfierceintodayssociety, peopleareeagering to extract useful informations from massive data which help them to make correct business decisions.However, the traditionaldataanalysisanddataminingtechniques aredifficulttomeet the demand of people in dealing with massive data, because of the excessive high cost of times and spaces. For example, the traditional frequentitemsetsminingneedstoscandatasetssomanytimesthatcosta lot of times.And it also needs to store a large number of candidate itemsets,whichconsumeslargeamountofmemories.Atthe same time , cloud computing with high concurrency and low costof mass data processing,is developing with high speed. In recent years, Hadoop ecosystem’s development is the most representative. Hadoopis mainly composed of two parts: HDFS and Mapreduce. It uses cheap commercial machinesas compute nodes to constitute a cloud platformwhichcanefficientprocessingmassivedata.Combinedata mining with cloud computing, thismeans using the advandage of cloud
您可能关注的文档
- 基于卟啉微阵列传感器系统的实现与分析-implementation and analysis of porphyrin - based microarray sensor system.docx
- 基于不等式方法的多目标遗传算法在排课问题中的应用分析-application analysis of multi-objective genetic algorithm based on inequality method in course scheduling problem.docx
- 基于不变流形的小推力地—火轨道转移优化设计-optimal design of low-thrust earth-fire orbit transfer based on invariant manifold.docx
- 基于不变式的软件故障检测与恢复技术分析-analysis of software fault detection and recovery technology based on invariants.docx
- 基于不等分剪切区的merchant切削模型的分析与应用-analysis and application of merchant cutting model based on unequal shear zone.docx
- 基于不动点理论的改进遗传算法分析-analysis of improved genetic algorithm based on fixed point theory.docx
- 基于不对称高斯算法的modis lai降噪研究-research on modis lai denoising based on asymmetric gaussian algorithm.docx
- 基于不对称脑图像特征的阿尔兹海默病自动识别方法分析-analysis of automatic identification method of alzheimer's disease based on asymmetric brain image features.docx
- 基于不确定贝叶斯算法在滑坡危险性预测的应用分析-application analysis of uncertain bayesian algorithm in landslide risk prediction.docx
- 基于不确定t-s模糊系统的可靠控制分析-reliable control analysis of uncertain t - s fuzzy system.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 2025江苏农牧科技职业学院单招数学能力检测试卷含答案详解(典型题).docx VIP
- 2025年黑龙江艺术职业学院单招语文测试模拟题库通用题库.docx VIP
- 2026年上海市初三语文一模试题汇编之古诗文阅读(教师版).docx
- 2025年江苏农牧科技职业学院单招(语文)测试试卷.docx VIP
- 《数据管理能力成熟度模型》DCMM评估内容及流程.pptx VIP
- 2025黑龙江艺术职业学院单招《英语》考前冲刺练习试题(夺冠)附答案详解.docx VIP
- (2026年)危重患者体位管理PPT课件.pptx VIP
- 2026年上海市初三语文一模试题汇编之现代文阅读(教师版).docx
- 2025黑龙江艺术职业学院单招《数学》模拟试题含完整答案详解【全优】.docx VIP
- 人教版|六年级下册体育全册教案.docx
原创力文档

文档评论(0)