- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP391.0 U.D.C.: 621.3
Dissertation for the Master Degree in Engineering
RESEARCH ON DATA MINING WORKFLOW ORIENTED FAST DATA ACCESS
Candidate: Li Lizhao
Supervisor: Associate Prof. Ye Yunming Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technol-
ogy
Affiliation: Shenzhen Graduate School
Date of Defence: Dec, 2008
Degree-Conferring-Institution: Harbin Institute of Technology
–
– I –
摘 要
摘 要
面对海量的数据,数据挖掘成为当前研究的热点。在海量数据集上进行 数据挖掘,数据挖掘系统的性能成为其应用的主要瓶颈,作为数据密集型应 用系统,数据检索是数据挖掘系统中最普遍的操作,也是各个数据挖掘系统 性能的主要瓶颈所在。所以如何在数据挖掘系统中对海量数据进行高效管理、 快速检索成为高性能数据挖掘系统亟待解决的问题。
本文首先通过对数据挖掘工作流中普遍应用的算法的数据访问模式进行 了深入的分析,归纳总结出数据挖掘算法中普遍存在的数据访问模式,以此 为依据进行了研究工作。
首先,针对数据挖掘工作流中数据的静态特性和访问的随机性,本文设 计了pB+Tree(persistent B+Tree)数据存储结构,该存储结构对数据批量构建索 引,构建索引速度快,提高了数据存储的效率,改善了缓存利用率,能够提高 数据挖掘应用中数据检索的速度。
其次,针对数据挖掘工作流中的普遍存在的计数查询操作,本文提出 了AD-Index(All Dimension Index)辅助数据检索结构,该结构能够高效的完成 对数据集的计数查询操作,减少了数据挖掘算法中对数据集的扫描次数,提 高了数据挖掘工作流的运行效率。
此外,为进一步提高数据检索的效率,本文针对两种数据结构分别设计 了缓存和预取算法,取得了良好的效果。为了验证算法的有效性,本文对两种 数据存储结构分别进行了模拟对比试验,试验证明pB+Tree的存储检索效率明 显高于同类存储结构,AD-Index对数据挖掘的算法的加速效果也非常明显。
基于以上的研究成果,本文设计并实现了一个面向数据挖掘系统的统一 数据管理原型系统,包括了数据存储,缓存系统,内存管理、元数据管理等模 块,为数据挖掘系统的设计提供了一个基础模块。
关键词 数据挖掘; 数据访问模式; pB+Tree; AD-Index
–
– II –
哈尔滨工业大学工学硕士学位论文
Abstract
With the continuous growth of data, how to getting useful information has been get more and more attention. Data mining has become the hot spot of research. As for the massive data set, the performance of data mining system is a major bottleneck to application. As a data-intensive application, data query is the most common operation and is the major bottleneck in most data mining system. Hence how to query data rapidly from very large data set is the most important problem to solve in the process of designing data mining system.
In this paper we firstly analyze the common operations in the algorithms of data mining workflow in-depth and get the common operation as a basis for our study. Then we analysis the problem from several perspec
您可能关注的文档
- 抗震防灾视角下城市规划管理的研究-工业设计工程专业毕业论文.docx
- 氯碱工业盐水精制废渣分离回收工艺技术改造研究-冶金工程专业毕业论文.docx
- 面向造船企业责任成本管理分析-管理科学与工程专业毕业论文.docx
- 米友仁山水画艺术研究-艺术学专业毕业论文.docx
- 空闲服务能力动态负载均衡算法的研究-通信与信息系统专业毕业论文.docx
- 面向无线传感器网络的多路径路由协议研究-计算机应用技术专业毕业论文.docx
- 马甲子提取物抗肿瘤活性及免疫调节作用研究-药剂学专业毕业论文.docx
- 落叶松林分生长枝条躲让效应计算机模拟研究-计算机应用技术专业毕业论文.docx
- 面向低质量指纹的图像增强算法研究-刑侦学专业毕业论文.docx
- 面向业务的信息安全风险评估量化模型研究-计算机软件与理论专业毕业论文.docx
- 考虑广域信息的电网自适应保护研究-电力系统及其自动化专业毕业论文.docx
- 氯雷他定对哮喘豚鼠白介素5及嗜酸性粒细胞凋亡影响的研究-呼吸内科学专业毕业论文.docx
- 民爆行业网上综合购销系统设计与实现-软件工程专业毕业论文.docx
- 黄磷尾气中CO2的气相色谱分析方法研究-环境科学与工程专业毕业论文.docx
- 慢性阻塞性肺疾病患者护理专业性社会支持评定量表的编制-护理学专业毕业论文.docx
- 黄芪多糖通过干预CLP小鼠DC细胞对脓毒症的影响及机制研究-病理学与病理生理学专业毕业论文.docx
- 面向成套订单的作业车间转换瓶颈算法研究-管理科学与工程专业毕业论文.docx
- 马克思主义社会公正观视野下高校非学历证书考试研究-马克思主义基本原理专业毕业论文.docx
- 美洲男篮强队二号位位置技术运用研究-体育学专业毕业论文.docx
- 科研项目数据入库模块的设计与实现-电子与通信工程专业毕业论文.docx
最近下载
- DELIXI德力西DT(S)SF606 三相电子式多费率电能表(8费率)20240621.pdf
- 化验员应知应会手册正文.docx
- 引擎培训-运维4.0.docx VIP
- 2025至2030中国航空配餐行业市场发展分析及竞争格局与发展趋势报告.docx VIP
- 锅炉原理课件:第七章 锅炉设备的通风计算.ppt VIP
- 引擎培训-运维2.0.docx VIP
- 古代诗人名人高适人物介绍PPT.pptx VIP
- (正式版)C-J-T 298-2008 城镇供水营业收费管理信息系统.docx VIP
- 贵州片区设备运维线路 转正考试题.docx VIP
- 私募股权投资基金基础知识-7月《私募股权投资基金基础知识》押题密卷6.docx VIP
原创力文档


文档评论(0)