一种多层次分布式数据挖掘方法改进探究.docVIP

下载本文档

3
0
约3.42千字
约 6页
2017-06-20 发布于福建
举报
版权申诉

一种多层次分布式数据挖掘方法改进探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种多层次分布式数据挖掘方法改进探究

一种多层次分布式数据挖掘方法改进探究　　摘要：针对多层次分布式数据存在高维特征和类间不平衡因素的问题，提出一种基于随机决策树检索模型的数据挖掘技术。采用随机相位重组方法进行分布式数据的层次空间重构，在重构的层次空间中提取多层次分布式数据的关联维特征量，采用高阶特征压缩方法进行降维处理，实现分布式数据的自适应挖掘。仿真结果表明，采用该方法进行数据挖掘的准确性能较好、查准率较高、计算开销降低、性能优越关键词：多层次分布式数据；数据挖掘；决策树；检索；数据库中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）09?0070?03 Abstract： Aiming at the high?dimensional feature and inter?class imbalance factor exiting in the multi?level distributed data mining method， a multi?level distributed data mining technology based on random decision tree retrieval model is proposed. The random phase recombination method is used to reconstruct the hierarchical space of the distributed data. The correlation dimension characteristic quantity of the multi?level distributed data is extracted in the reconstructed hierarchical space， and performs the dimension reduction with the high?order feature compression method to realize the adaptive mining of distributed data. The simulation results show that the method has high accuracy for data mining， high precision ratio， low computation cost， and superior performance. Keywords： multi?level distributed data； data mining； decision tree； retrieval； database 0 引言在大数据环境下，大量的多层次分布式数据通过云技术积累并存储于网络数据库中，形成高维数据，在对多层次分布式数据采集和存储的过程中，由于采集手段的差异性以及测量误差的存在，导致数据挖掘的精度不高，从而影响了网络数据库的访问精度，需要对多层次分布式数据进行有效挖掘，结合特征提取和数据信息融合方法，进行多层次分布式数据的状态特征参量提取。研究多层次分布式数据挖掘方法在数据库访问和数据结构优化存储设计方面具有重要意义对多层次分布式数据的挖掘是建立在数据信息流模型构建和特征提取的基础上，目前使用的数据挖掘算法很多，按类别可分为模糊挖掘算法、层次挖掘算法、网格区域分割挖掘方法等[1?2]，通过对数据结构的属性类别分类处理和信息融合，实现数据信息特征检测和挖掘，取得较好的挖掘精度。文献[3]提出一种云计算环境下基于朴素贝叶斯分类的多层次分布式数据挖掘方法，进行多层次分布式数据归类，提取多层次分布式数据的语义关联性和规则性特征，实现数据优化挖掘，但该算法的计算开销较大，数据信息检测和挖掘的实时性不好文献[4]提出一种基于相关子空间的数据挖掘方法，采用属性维上的局部稀疏程度重新定义相关子空间，采用局部数据集的概率密度给出相关子空间中的计算公式，获取相关子空间中的数据分布特征，引入LSH分布式策略，实现对分布式数据的挖据，该方法提高了多层次分布式数据库检索的查准性，但是该算法随着多层次分布式数据库规模的增大，信息挖掘的准确性不好针对上述问题，提出一种基于随机决策树检索的多层次分布式数据挖掘方法。首先进行数据信息流构建和数据特征分析，对多层次分布式数据信息流进行特征空间重构；然后在重构的特征空间中提取多层次分布式数据的关联维特征量，采用高阶特征压缩方法进行降维处理，实现分布式数据的自适应挖掘；最后进行仿真试验分析 1 多层次分布式数据信息流重构 1.1 分布式数据的特征空间