- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark平台的SVD算法设计实现和应用-电子与通信工程专业论文
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□, 在 年解密后适用本授权书。
不保密?。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年 月 日 日期: 年 月
摘 要
奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分 解算法。在信号处理、机器学习等领域都有广泛的应用,可用于对数据进行降维, 主成分分析,噪声过滤,信息的分解和重构等方面。而在当前信息爆炸时代,大数 据背景下,传统的 SVD 算法实现难以应对海量数据处理。结合大数据处理平台、 高效的分布式算法设计和应用,已经成为一个富有意义和挑战的研究方向。
Spark 是由加州大学伯克利分校 AMP 实验开发的基于内存的分布式计算框架。 相对于 MapReduce 等分布式计算框架,它的优势在于能够很好地适应迭代计算, 能高效地处理复杂的海量数据计算问题,良好地适应分布式迭代算法开发。
为了解决海量数据处理的问题,本文针对大规模稀疏矩阵设计了并行的 SVD 算法并在 Spark 平台上进行了实现。在大规模稀疏数据下的算法实现需要面对两个 问题,一是计算过程中要保证数据的稀疏度,二是能够高效地实现并行化。针对这 两个问题,本文给出了基于 Lanczos 分解算法、二分法和反幂法等算法设计了 SVD 并行算法。Lanczos 算法是一种将实对称矩阵变换成对称三对角矩阵的算法,是求 解大规模对称矩阵特征问题最有效方法之一,而二分法和反幂法分别用于高效地求 解三对角矩阵特征值和特征向量。对基于 Spark 平台的 SVD 算法在效率、准确性、 加速比方面展开了实验,结果表明,算法在对大规模数据处理时有较高的实现效率。
本文还给出了 SVD 算法在信息检索领域,查询推荐方面的应用研究。利用 SVD 算法,通过对搜索引擎中查询点击的标题文本分析,构建潜在语义分析模型并计算 标题文本间相似度,进而得到查询间的相似度,可进一步应用于查询推荐或建议等。 研究结果表明,算法在查询推荐方面也有较好的应用效果。
关键词:奇异值分解 潜在语义分析 大数据 Spark 查询推荐
ABSTRACT
In linear algebra, the singular value decomposition (SVD) is an important matrix computation algorithm. SVD is also widely used in signal processing and machine learning, which is used for reducing the dimensionality of complex data sets, principal component analysis, filtering noise and so on. In the era of information explosion, the traditional SVD algorithm can’t deal with massive data under the background of big data. The combination of data processing platform and design of efficient distributed algorithm has become a significant and challenge research.
Spark, developed by California Berkeley AMPLab, is a memory computing based distributed framework. Compared with the MapReduce distributed computing framework, Spark can well adapt the iterative calculation and ef
您可能关注的文档
- 基于SOPC的智能温室监测系统的设计与实现-信息与通信工程专业论文.docx
- 基于SOPC的汽车紧急变道模型避障系统的实现-电路与系统专业论文.docx
- 基于SOPC的步进电机驱动控制系统设计-电路与系统专业论文.docx
- 基于SOPC的注塑机控制系统的设计与研究-控制理论与控制工程专业论文.docx
- 基于SoPC的嵌入式融合网络平台及其管理软件研究-仪器仪表工程专业论文.docx
- 基于sopc的指纹采集与处理系统的研究-通信与信息系统专业论文.docx
- 基于SOPC的点阵型LED显示控制系统的设计-电子与通信工程专业论文.docx
- 基于SOPC的混沌加密技术的研究-信号与信息处理专业论文.docx
- 基于SOPC的生物质快速热解液化控制系统的设计与实现-软件工程专业论文.docx
- 基于SOPC的直线电机控制器设计-控制理论与控制工程专业论文.docx
- 基于SPARC V8的SoC原型验证系统研究-电子科学与技术;物理电子学专业论文.docx
- 基于Spark的分类算法在电信客户流失预测系统中的并行化研究-计算机技术专业论文.docx
- 基于Spark带重量约束的车辆路径问题混合算法研究-计算机科学与技术专业论文.docx
- 基于Spark的云化报表系统的设计与实现-电子与通信工程专业论文.docx
- 基于Spark平台的协同过滤推荐算法的研究与实现-计算机应用技术专业论文.docx
- 基于Spark的岩石图像聚类分析算法研究-计算机技术专业论文.docx
- 基于Spark云计算平台的改进K近邻算法研究-计算机技术专业论文.docx
- 基于SPARK平台的LAMOST早M型光谱聚类的研究-计算机技术专业论文.docx
- 基于Spark的机器学习应用框架研究与实现-软件工程专业论文.docx
- 基于Spark的模糊c均值聚类算法研究-计算机科学与技术专业论文.docx
文档评论(0)