面向数据挖掘工作流的快速数据检索技术-计算机科学与技术专业毕业论文.docxVIP

下载本文档

5
0
约5.51万字
约 56页
2019-05-14 发布于上海
举报
版权申诉

面向数据挖掘工作流的快速数据检索技术-计算机科学与技术专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Classified Index: TP391.0 U.D.C.: 621.3 Dissertation for the Master Degree in Engineering RESEARCH ON DATA MINING WORKFLOW ORIENTED FAST DATA ACCESS Candidate: Li Lizhao Supervisor: Associate Prof. Ye Yunming Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technol- ogy Affiliation: Shenzhen Graduate School Date of Defence: Dec, 2008 Degree-Conferring-Institution: Harbin Institute of Technology – – I – 摘要摘要面对海量的数据，数据挖掘成为当前研究的热点。在海量数据集上进行数据挖掘，数据挖掘系统的性能成为其应用的主要瓶颈，作为数据密集型应用系统，数据检索是数据挖掘系统中最普遍的操作，也是各个数据挖掘系统性能的主要瓶颈所在。所以如何在数据挖掘系统中对海量数据进行高效管理、快速检索成为高性能数据挖掘系统亟待解决的问题。本文首先通过对数据挖掘工作流中普遍应用的算法的数据访问模式进行了深入的分析，归纳总结出数据挖掘算法中普遍存在的数据访问模式，以此为依据进行了研究工作。首先，针对数据挖掘工作流中数据的静态特性和访问的随机性，本文设计了pB+Tree(persistent B+Tree)数据存储结构，该存储结构对数据批量构建索引，构建索引速度快，提高了数据存储的效率，改善了缓存利用率，能够提高数据挖掘应用中数据检索的速度。其次，针对数据挖掘工作流中的普遍存在的计数查询操作，本文提出了AD-Index(All Dimension Index)辅助数据检索结构，该结构能够高效的完成对数据集的计数查询操作，减少了数据挖掘算法中对数据集的扫描次数，提高了数据挖掘工作流的运行效率。此外，为进一步提高数据检索的效率，本文针对两种数据结构分别设计了缓存和预取算法，取得了良好的效果。为了验证算法的有效性，本文对两种数据存储结构分别进行了模拟对比试验，试验证明pB+Tree的存储检索效率明显高于同类存储结构，AD-Index对数据挖掘的算法的加速效果也非常明显。基于以上的研究成果，本文设计并实现了一个面向数据挖掘系统的统一数据管理原型系统，包括了数据存储，缓存系统，内存管理、元数据管理等模块，为数据挖掘系统的设计提供了一个基础模块。关键词数据挖掘; 数据访问模式; pB+Tree; AD-Index – – II – 哈尔滨工业大学工学硕士学位论文 Abstract With the continuous growth of data, how to getting useful information has been get more and more attention. Data mining has become the hot spot of research. As for the massive data set, the performance of data mining system is a major bottleneck to application. As a data-intensive application, data query is the most common operation and is the major bottleneck in most data mining system. Hence how to query data rapidly from very large data set is the most important problem to solve in the process of designing data mining system. In this paper we firstly analyze the common operations in the algorithms of data mining workflow in-depth and get the common operation as a basis for our study. Then we analysis the problem from several perspec