基于的子空间聚类方法.docxVIP

下载本文档

2
0
约2.35千字
约 4页
2023-07-24 发布于广东
举报
版权申诉

基于的子空间聚类方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于的子空间聚类方法在信息爆炸时代大量出现大量数据的出现，需要有效分析这些大数据，并出现大量数据分析方法。对于高维数据的相关分析、聚类分析和其他数据结构分析非常重要。这是高维数据集类的有效路径之一。原始数据空间分为不同的子空间，并尝试找到行的集群。目前，子空间分组算法可分为四种类型：迭代算法、代码方法、统计算法和基于谱的算法。迭代算法:比较经典的是K-子空间算法如代数算法:Costeira等人统计算法:Tipping等人基于谱聚类的算法:Yan等人 Elhamifar等 SSC算法的基本思想是:给定需要聚类的无噪音观测数据集合这里Y=[y 在实际问题中, 由于受到数据采集及测量误差等因素的影响, 数据往往含有不同程度的噪声.在这种情况下, 数据不是严格分布在各个子空间中.为了解决这个问题, 将式 (1) 扩展为其中E代表稀疏噪音, Z代表高斯噪音.λ 然而, 以上模型是用观测数据本身作为字典进行子空间表示, 而观测数据中所含的噪声、缺损、奇异样本等势必会增加子空间表示的误差;另一方面, 在优化问题中用矩阵的? 为了解决上述问题, 本文提出一种基于矩阵? 1 稀疏表示模型由于观测数据中往往含有噪声, 甚至有奇异样本, 将其作为子空间表示的字典必会增加子空间表示的误差, 因此, 在稀疏表示模型中加入字典学习过程, 实现更精确的子空间表示模型.同时, 用? 1.1 辅助变量c的求解假设A是不含噪音的纯净数据所组成的矩阵, 用F-范数‖Y-A‖ 这里下面用交替方向乘子 (Alternating Direction Method of Multipliers, ADMM) 的方法求解稀疏优化问题 (3) .鉴于优化变量C在约束中的相关性, 引入辅助变量矩阵Z∈R 构造优化问题 (4) 的增广拉格朗日函数为: 其中ρ (Ⅰ) 对于子优化问题 (4.1) , 即: 上述目标函数对A求梯度并令其等于0, 得: (Ⅱ) 对于子优化问题 (4.2) , 即: 其中c 当i≠j时, 有当i=j时, 有综上可得C 这里其中 (Ⅲ) 对于子优化问题 (4.3) , 求Z 上述目标函数对Z求梯度并令其等于0, 得: 具体步骤如算法1所述. 在算法1中, ρ首先被初始化为一个较小的正数ρ 1.2 辅助变量c构造算法c 假设观测数据Y中含有稀疏噪音, 建立优化: 这里用‖Y-A‖ 为了求解方便, 令E=Y-A, 将 (5) 改写为: 下面用ADMM的方法求解稀疏优化问题 (6) .鉴于优化变量C在约束中的相关性, 引入辅助变量矩阵Z∈R 构造优化问题 (7) 的增广拉格朗日函数: 下面给出基于ADMM的迭代求解步骤: (Ⅰ) 对于子优化问题 (7.1) , 即上述目标函数对A求梯度并令其等0, 得: (Ⅱ) 对于子优化问题 (7.2) , 即其中c (Ⅲ) 对于子优化问题 (7.3) , 求E (Ⅳ) 对于子优化问题 (7.4) , 求Z 上述目标函数对Z求梯度并令其等于0, 得: 具体步骤如算法2所示. 2 实验 2.1 实验设计实验是在人工合成数据集上验证所提算法的有效性.选择LRR 2.2 稀疏噪音矩阵的生成构造5个独立子空间 (I) 含高斯噪音的数据生成.通过在每一个数据样本的各个维度上添加均值为零、标准差为a?‖x‖ (II) 含稀疏噪音的数据生成.加入两种不同的稀疏噪音: ①类型一.先生成一个与X同规模的零矩阵E, 然后在E中随机选取比例为r的元素, 将这些位置的零元素替换为区间[-50, 50]内的独立同分布的随机数, 从而生成稀疏噪音矩阵;最后得到第一种含稀疏噪音数据矩阵D=X+E.稀疏噪音所占的比例取值为r=0.05∶0.05∶0.8, 观察在不同比例的稀疏噪音情况下, 各个算法的表现. ②类型二.为了验证部分数据被严重破坏后的聚类错误率, 生成另一种稀疏噪音形式.先随机选择比例为r的数据, 然后, 在选择的这些数据上加入标准差幅度较大的噪音作为被严重破坏的数据.即, 对数据x, 生成高斯噪音向量e=[e 2.3 基于稀疏表示模型的聚类误差率比较在含高斯噪音数据上各算法聚类错误率的比较如图1所示. 图1显示, LRR算法和SSC算法的聚类错误率明显高于LRSC算法和本文算法.这是因为前两种算法是将数据本身作为表示的字典来计算表示系数, 当数据本身就有噪音污染时, 其计算出的表示系数就会有较大的偏差, 从而影响了聚类正确率. 由于本文的算法与LRSC算法均在稀疏表示模型中加入字典学习, 从而在有噪声的情况下, 实现了较为准确的子空间表示.本文的算法略好于LRSC算法, 是因为本文算法中所使用的? 针对第一种含稀疏噪音数据各算法聚类错误率进行比较, 得到如图2所示的结果. 从图2可以看出,