基于Spark的KNN图算法并行化模型研究与应用-控制工程专业论文.docxVIP

下载本文档

11
0
约5.44万字
约 77页
2018-12-18 发布于上海
举报
版权申诉

基于Spark的KNN图算法并行化模型研究与应用-控制工程专业论文.docx

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark的KNN图算法并行化模型研究与应用-控制工程专业论文

Ul Ul I II I II I II I IM II I III Y302568 1 厦门大学学位论文著作权使用声明本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》等规定保留和使用此学位论文，并向主管部门或其指定机构送交学位论文(包括纸质版和电子版)，允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索，将学位论文的标题和摘要汇编出版，采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于： ( )1．经厦门大学保密委员会审查核定的保密学位论文，于年月日解密，解密后适用上述授权。 (√)2．不保密，适用上述授权。 (请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文，未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的，默认为公开学位论文，均适用上述授权。) 声明人(签名)： ’j勺心2· 功-6年厂月万方数据摘要近些年来，随着计算机科学技术的迅速发展，越来越多的海量数据信息在许摘要近些年来，随着计算机科学技术的迅速发展，越来越多的海量数据信息在许多行业中随之产生，海量数据对数据处理的效率提出了极大的挑战。同时在此背景下分布式计算也得到了大力发展，Hadoop使得用户可以进行超大数据集的分析，但是其基于磁盘的MapReduc它的计算严重影响了计算性能，而Spark引入 RDD(Resilient Distributed Datasets)基于内存计算迎合了广大用户的需求，极大提高了分布式并行计算的效率。虽然在众多大数据工具中，Spark得到了很大的关注，但是Spark还不是十分完善，比如其机器学习库MLlib对聚类算法的支持只有k．means等，此外流形学习等复杂算法也是没有集成。在石油地震勘探领域，流形学习算法有着不错的效果，但是地震勘探数据非常大，而且流形学习算法复杂度也非常高，从而降低了人们工作效率，制约着人们对其使用。本文着力解决该问题，提高工作效率，本文分析流形学习算法的特点，其核心问题为构建KNN图，非常耗时，从而把目标问题转向为如何快速构建KNN图，结合Spark分布式计算的特点，本文提出了基于Spark的快速构建 KNN图方案，最终实现了基于KDTree的Spark并行构建KNN图以适用于地震勘探领域，最后在本文的实际数据试验中，有力验证了本文模型的有效性，不仅可以提高计算效率还可以设置参数保证结果的高准确率。万方数据 AbstractAbstract Abstract Abstract In recent years，the rapid development of computer science and technology generates a massive amount of data in various industries，challengingthe efficiency of data processing．At the same time，the technology of distributed computing made significant progress．Although Hadoop enables users to analyze large datasets，its disk-based computing framework，MapReduce，seriously affects the computing performance．HoweveL Spark introduced Resilient Distributed Datasets(RDD)which is memory-based computing and greatly improved the efficiency of distributed parallel computing．Although Spark has gained remarkable popularity,its support for machine learning library is limited．For example，it only supports the method of k-means as the clustering algorithm．Furthermore，advanced algorithms，such asmanifold learning，arenot integrated either． The algorithm of manifold learning is w