- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于分布式计算平台试验数据关联规则挖掘算法
一种基于分布式计算平台的试验数据关联规则挖掘算法
【 摘 要 】 随着航天型号信息化、智能化的发展,型号系统产生的试验数据量较以往有了大规模的增加。针对型号试验数据量大、数据多样化导致的分析难度大的问题,文章提出了基于MapReduce分布式计算框架应用Aprior算法对试验数据进行关联分析的方法。经实验验证,该方法可有效分析出海量数据内部的关联关系,且效率比单机方式有极大提升,为发掘海量试验数据价值提供了一种有效的手段。
【 关键词 】 海量数据;数据挖掘;分布式计算;Aprior
【 Abstract 】 With the development of aerospace informatization and intelligentialize, experiment data generated by aerospace system have increased in a large scale. According to the problems arisen by huge amount and variant structure of experiment data , this paper proposes an association mining rules method of aerospace experiment data with Aprior algorithm based on the distributed computing framework MapReduce. As shown in the experiment, the method can mine the association relations in massive experiment data in much better efficiency than association mining on single kernel.
【 Keywords 】 massive data; data mining; distributed computing; aprior
1 引言
随着航天运载器系统信息化、智能化的发展,其工作过程中产生的试验数据量较以往有了大规模的增加。海量的试验数据中蕴涵着大量的价值,若通过分析挖掘,发现其中潜在的规律和模式,就能够对发现系统缺陷及设计优化起到重要的作用。但是由于试验数据结构多样化、数据量大,导致试验数据挖掘难度较高,且需要耗费大量的计算时间。分布式计算技术是目前解决海量数据处理问题的主要手段,因此本文研究基于分布式并行计算平台的型号试验数据数据挖掘方法,以从海量试验数据中快速提取潜在价值和规律,为型号故障排查、优化设计提供指导和依据。
关联分析是数据挖掘的主要方法之一,用于发现隐藏在大型数据集中有意义的联系。Aprior算法是最常用的关联分析算法,能够通过发现频繁项集的方式找出多个属性间的联系,可在分布式计算平台Hadoop上,基于MapReduce分布式计算框架进行数据的处理,加快Aprior挖掘算法的执行速度。
2 Aprior算法与Hadoop平台
2.1 Aprior算法
关联规则是描述一个事务中事件之间同时出现的规律的知识模式,通常表现为“同时发生”或“从一个对象可以推断出另一个对象”。利用关联规则可以根据已知情况对未来未知问题进行推测判断。支持度(Support)和可信度(Confidence)是描述关联规则的两个重要概念,前者具体是指多个频繁出现的对象同时出现的频率,用于衡量关联规则在整个数据集中的统计重要性,一般用百分比表示,后者具体指某个对象或对象组合出现后,另一对象或对象组合出现的条件概率,用于衡量关联规则的可信程度。此外引入兴趣度lift参数来作为评估挖掘出来的关联规则的另一指标。具体A对B的兴趣度liftA=B=P(AB)/(P(A)*P(B)),即A对B的兴趣度为B对于A的条件概率除以B在全体中出现的概率。兴趣度大于1则表示A对B的出现有促进作用,兴趣度小于1则表示A对于B的出现有抑制作用,兴趣度等于1表示A对于B的出现既没有促进作用也没有抑制作用。
最经典的关联规则算法是Agrawal等人提出的Aprior算法。Aprior 算法使用一种称作逐层搜索的迭代方法来查找频繁项集。首先,算法通过扫描数据库累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合,该集合记做L1; 然后L1 用于找到频繁2项集L2,L2用于找到L3,如此下去,直到不能再找到k阶频繁项集。找每一个Lk均需要进行一次数据库全扫描。
为了提高Aprior 的效率,算法引入连接步和剪枝步。剪枝步基于假设: 频繁项
文档评论(0)