基于Spark的KNN图算法并行化模型研究与应用-控制工程专业论文.docxVIP

基于Spark的KNN图算法并行化模型研究与应用-控制工程专业论文.docx

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark的KNN图算法并行化模型研究与应用-控制工程专业论文

Ul Ul I II I II I II I IM II I III Y302568 1 厦门大学学位论文著作权使用声明 本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》 等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位 论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及 其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、 硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇 编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: ( )1.经厦门大学保密委员会审查核定的保密学位论文, 于 年 月 日解密,解密后适用上述授权。 (√)2.不保密,适用上述授权。 (请在以上相应括号内打“√”或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 声明人(签名): ’j勺心2· 功-6年厂月 万方数据 摘要近些年来,随着计算机科学技术的迅速发展,越来越多的海量数据信息在许 摘要 近些年来,随着计算机科学技术的迅速发展,越来越多的海量数据信息在许 多行业中随之产生,海量数据对数据处理的效率提出了极大的挑战。同时在此背 景下分布式计算也得到了大力发展,Hadoop使得用户可以进行超大数据集的分 析,但是其基于磁盘的MapReduc它的计算严重影响了计算性能,而Spark引入 RDD(Resilient Distributed Datasets)基于内存计算迎合了广大用户的需求,极大提 高了分布式并行计算的效率。虽然在众多大数据工具中,Spark得到了很大的关 注,但是Spark还不是十分完善,比如其机器学习库MLlib对聚类算法的支持只 有k.means等,此外流形学习等复杂算法也是没有集成。 在石油地震勘探领域,流形学习算法有着不错的效果,但是地震勘探数据非 常大,而且流形学习算法复杂度也非常高,从而降低了人们工作效率,制约着人 们对其使用。本文着力解决该问题,提高工作效率,本文分析流形学习算法的特 点,其核心问题为构建KNN图,非常耗时,从而把目标问题转向为如何快速构 建KNN图,结合Spark分布式计算的特点,本文提出了基于Spark的快速构建 KNN图方案,最终实现了基于KDTree的Spark并行构建KNN图以适用于地震 勘探领域,最后在本文的实际数据试验中,有力验证了本文模型的有效性,不仅 可以提高计算效率还可以设置参数保证结果的高准确率。 万方数据 AbstractAbstract Abstract Abstract In recent years,the rapid development of computer science and technology generates a massive amount of data in various industries,challengingthe efficiency of data processing.At the same time,the technology of distributed computing made significant progress.Although Hadoop enables users to analyze large datasets,its disk-based computing framework,MapReduce,seriously affects the computing performance.HoweveL Spark introduced Resilient Distributed Datasets(RDD)which is memory-based computing and greatly improved the efficiency of distributed parallel computing.Although Spark has gained remarkable popularity,its support for machine learning library is limited.For example,it only supports the method of k-means as the clustering algorithm.Furthermore,advanced algorithms,such asmanifold learning,arenot integrated either. The algorithm of manifold learning is w

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档