优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
数据质量和隐私保护中聚类分类算法的应用研究
作者姓名: 吕威
导师姓名: 李磊、姚正安教授
摘 要
数据质量和隐私保护问题已经引起了学术界广泛的关注,并已成为当前学术界的热点
得到的满足程度,也有文献把“适合使用”作为衡量数据质量的初步标准.基于隐私保护的
数据挖掘是指在尽量不影响挖掘结果的情况下,让一些敏感信息得到尽可能多的保密.
当前数据质量的研究大多集中在相似重复记录清理、不完整数据清理和错误数据清理
等方面.为了更适合不同数据挖掘任务的完成,本文拓宽了数据质量的定义内涵,将对数
据集基于不同目标进行变换都称为提高数据质量的操作.本文主要使用了多种聚类策略来
提高不同挖掘目标的数据质量.
分类样本空间的一致性度量概念来衡量数据集的分类一致性,进一步将其推广到数值型
连续数据上.作为具体验证,将提出的连续分类一致性定义用到了SOM方法中,得到基
于SOM连续分类一致性定义的分类方法.最后从VC维的角度分析了提出算法的优点.
为了使核方法适用于大规模数据集的求解,本文提出了基于聚类加权的快速核方
法.快速聚类核方法使用聚类方法让原始数据集规模缩小,从而解决了核计算中大规模
矩阵的计算效率(甚至不可运行)的问题,使矩阵特征值求解问题的规模从O(n3)下降
类精度的差别可以严格控制在微小范围内.最后我们还将此方法具体应用于KernelFoley—
Sammon
Transform(KFST)算法和Kernel
PrincipalComponent
法中.
类,再在每一类变量上进行ICA分析,即通过变量聚类的方法来提高数据集的针对ICA的
数据质量.针对ICA方法的特点,将每个变量与用极大似然估计得到的Gauss分布进行比
较,得到一个差值序列,根据这个差值序列进行变量之间的聚类.实验结果表明我们的方
法能提高数据集的分类一致性,从而提高了预测精度.
第i页,共115页
箱量巨
通过对大型稀疏数据库的分析,本文提出了一种基于反向变量聚类的分层加速算法.
这种方法可以提高大型稀疏数据库中对大数据集操作的速度,同时节约了存储空间.其主
要思想是利用反向变量聚类的方法,对属性进行聚类,生成一个投影聚类数据库.投影数
据库中,多个属性被统一聚集在一个聚类变量下,从而属性的数量被极大地减少了.分层
加速算法压缩了稀疏数据集,节约了存储空间,提高了运算的效率.
距加密方法是旋转变换,首先对旅游者的敏感属性进行随机等距旋转变换,再对变化
后的数据隼停用基于案例的推理方法进行旅游线路的聚类分析.这罩的旋转变换方法
可以保持数据集中任意两点间的距离不变,从而对变换前后的数据集进行基于案例推
理寻书最近邻点得到的结果是一致的.而且旋转变换是随机的,可以经受攻击而不容
易砖攻{i!々.¨J使旅游者的敏感信息得到严格的保护.进一步,将旋转变换的方法推广
至uaonnson—LlnOenstrauss随机映射的力法和流形学习Lmanifold
习和K一最近邻法的旅游线路分类算法.
通过对一类水量预测调度数据集进行分析后,本文提出了结合先验知识和分形理论
的水量预测算法,先对各水厂的历史数据进行分析,用改进嵌入维数和时间延迟计算
的GP预测算法拟合预测此水厂数据,再根据各水厂当天其它信息结合先验知识自动调整
权重,最后得出总规划水量.算法较好地把先验知识嵌入了预测调度算法中,同时解决了
水量预测和水量调度的问题.
私保护,IE,Johnson.Lindenstrauss随机映射,流形学习,分形理论
第ii页,共115页
芡,、≯毒
The
Researchand 011 and
Application
Clustering
Classificationi
原创力文档

文档评论(0)