- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop的数据挖掘研究成员:樊威,马悦,王晓晨数据挖掘 “数据挖掘”一词对于大家来说应该并不陌生,自上世纪80年代走入人们的视线以来,作为数据库研究、开发和应用最活跃的分支之一,在短短的不到三十年的时间里得到了迅猛地发展,已成为信息科学界的热点研究课题[[1]。数据挖掘,也称数据库中知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程。确切的说,数据挖掘是一种知识发现过程,它利用各种分析工具和基于数据库、人工智能、数理统计、机器学习等技术,高度自动化地分析数据,做出归纳性推理,从海量数据中挖掘出潜在的、有价值的知识、模型,这些知识和模型可用来对未知实例和数据进行预测,用以给决策者评估风险,提供决策支持,做出正确的决策。Hadoop概况 Hadoop的源头是Apache Nutch,该项目始于2002年,是Apache Lucene的子项目之一。2004年,Google“Operating System Design and Implementation会议上公开发表题为“MapReduce:Simplified Data Processing on Large Cluster的论文,之后,受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS结合,以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出,成为一套完整而独立的项目,名为Hadoop 。 HDFS机制 HDFS (Hadoop Distributed File System)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统,下面将分以下几个方面介绍它。HDFS特点及局限性,总的来说,HDFS的主要特点主要有以下几点: 1)处理超大文件 这里的超大文件通常是指数百MB、甚至数百TB大小的文件。 2)流式地访问数据 HDFS的设计建立在更多地响应“一次写入、多次读取”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。 3)运行于廉价的商用机器集群上 Hadoop设计对硬件要求比较低,只需运行在廉价的商用硬件集群上,而无须昂贵的高可用性机器上。聚类算法 大体上,可以将聚类算法划分为如下几个方面 1)划分法:给定一个由n个元组或记录组成的数据集,划分法将会构造k个划分,每一个划分代表一个聚类,kn。而且这k个划分满足以下条件:①每个划分至少要包含一个数据对象;②每个数据记录属于且仅属于一个划分。对于给定的参数k,算法首先给出一个初始划分方法,然后通过反复迭代改变划分,使得每次改进之后的划分方案都比前一次好。典型算法有K-Means算法、K-Medoids算法等。 2)层次法:这种方法层次分解所给定的数据集,直到满足某种条件为止。具体又可以分成“自下而上”的凝聚法和“自上向下,,的分裂法两种方案。典型算法包括:BIRCH算法、CURE算法、CHAMELEON算法等。 3)基于密度的方法:该方法与其他方法的一个根本区别是:不是基于各种各样的距离,而是基于密度。这样就能克服基于距离的算法只能发现“类圆形”聚类的缺点。这个方法中,只要有一个区域中点的密度大于某一个阀值,就把它加入到与之相近的聚类中去。典型算法有:DB-SCAN算法、OPTICS算法等。 聚类算法(续)4)基于网格的方法:这种方法首先把数据空间划分成有限个单元的网格结构,所有的处理都把单个单元作为对象。突出优点就是处理速度很快,通常与目标数据集中记录个数无关,只与把数据空间分为多少个单元有关。典型算法有:STING算法、Wave-Cluster算法等。 5)基于模型的方法:基于模型的方法是给每一个聚类假定一个模型,然后去寻找数据对给定模型进行最佳拟合。给定模型可能是数据点在空间中的密度分布函数或其他。通常包括统计的方案和神经网络的方案。实验环境软件环境操作系统:Windows10JDK版木:jdkl.6Hadoop版本:Hadoop-1.0.0Mahout版本:Mahout-0.6硬件环境个人电脑三台谢谢观看
您可能关注的文档
最近下载
- 海军概况(中国人民解放军海军指挥学院)网课期末测试答案(卷一).pdf
- 天津市建筑标准设计图集(2012版)12J3-1外墙外保温.pdf VIP
- 2025年秋新人教版生物八年级上册全册教案(优化版).docx
- 2025年4月26日浙江省事业单位招聘考试《职业能力倾向测验》笔试试题(含答案).docx VIP
- 国开03592-电气传动与调速系统机考复习资料.docx
- 海南省陵水黎族自治县国土空间总体规划(2020-2035)公示稿.docx VIP
- 国家开放大学电大专科《机械制图》机考网考形考网络纸考题库及答案.pdf VIP
- 柴油机移动泵车培训ppt课件.pptx
- GJC4使用说明书.pdf VIP
- 片冰机教程详解.ppt VIP
原创力文档


文档评论(0)