海量数据上基于抽样的模式挖掘研究-计算机科学与技术专业论文.docxVIP

下载本文档

0
0
约5.04万字
约 57页
2019-04-05 发布于上海
举报
版权申诉

海量数据上基于抽样的模式挖掘研究-计算机科学与技术专业论文.docx

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据 Classified Index: TP315 U.D.C: 004.4 Dissertation for the Master Degree in Engineering RESEARCH ON PATTERN MINING BASED ON SAMPLING IN BIG DATA Candidate： Ai Jia Supervisor： Gao Hong Academic Degree Applied for： Master of Engineering Speciality： Computer Science and Technology Affiliation： School of Computer Science and Technology Date of Defence： June, 2014 Degree-Conferring-Institution： Harbin Institute of Technology 哈尔滨工业大学工程硕士哈尔滨工业大学工程硕士学位论文摘要随着云计算和移动互联网等概念越来越深入到普通人的生活当中，大数据也随着变得越来越深入人心。在当今竞争激烈的商业战场上，谁能掌握破解大数据的钥匙，谁就能在商业领域占得先机。然后，对于大数据算法的探索和研究还远远无法满足人们想要从大量的信息中挖掘出有价值的知识的需求。因此，针对于大数据的数据挖掘算法的研究极为重要。频繁模式的挖掘是一个拥有大量研究群体的课题，同时也是非常有价值的研究课题。在过去的 20 年中，各种各样的频繁模式挖掘算法存在，简而言之包括三类，基于“候选集产生-测试”模式的 Apriori 算法及其扩展算法，基于 FP 树的模式增长模式的 FP-Growth 算法及扩展算法，垂直挖掘算法。然而，现存的这些频繁模式挖掘算法存在的共同的短板，就是在数据量急剧增长的今天，已经无法满足大数据量的挖掘需求，一个方面在内存上无法存储大数据量的信息，另一个方面数据量的提升会快速提升算法的运行时间，无法满足人们的实际要求。挖掘算法的效率依然有待提高，而针对大数据上的模式挖掘算法还很少，探索大数据上的高效率的、有效的模式挖掘算法是有意义的。本文改进了直接抽样算法，对抽样结果做验证更新处理，同时改进了两步随机抽样过程，通过对概率阈值的控制来调节挖掘模式的长度，从而达到在不明显增大时间复杂度的情况下显著提升其挖掘模式的有效性。通过只扫描一遍数据库，挖掘有限条的频繁模式。不再局限于以往数据挖掘算法中对模式空间中大于支持度阈值的频繁模式进行完整挖掘的思路，由此大大的提升了挖掘的效率。该方法不再满足特定的支持度阈值。通过实验我们可以看到，增强的直接抽样方法能够很好的改善算法的挖掘效果。同时，我们提出了基于 Map-Reduce 的分布式的增强的两步随机抽样算法，该算法通过 A-RES/A-ExpJ 算法来解决带权值的抽样问题（WAS 问题），解决了在 Map-Reduce 框架下的抽样问题；通过 Lossy Counting 算法解决低频项集的求解问题，用以方便模式的验证过程。如此，通过两个经典的算法，将算法很好的移植到到 Map-Reduce 框架下面。一方面能够降低程序运行过程对内存的要求和依赖；另一方面，程序运行时间上也会大幅降低。关键词：模式挖掘；抽样；大数据；Map-Reduce I - Abstract With the concept of cloud computing and mobile Internet comes into the lives of ordinary people more and more deeply, the big data is also becoming increasingly popular. In todays competitive business battlefield, the one who can grasp the key to crack the big data will be the one who could be able to stay ahead in the business world. However, for the exploration and research on algorithms of the big data is unable to meet the peoples need to dig out a lot of valuable knowledge from the massive information. Therefore, the study of da