- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多总则约束非负矩阵分解的基因表达谱特征提取模型
0 基于机器视觉算法的特征提取
一些研究已经对癌症基因数据进行了分析和诊断,但由于细胞多样性和特异性,基因谱规模大,变化很大。传统的数据分析处理方法无法适应这些巨大的数据。随着机器视觉的发展, 机器视觉算法被广泛应用于基因表达谱数据分析中。研究结果表明, 通过机器视觉算法对原始基因数据进行特征提取, 能够有效地甄别肿瘤基因与正常基因
Scheidegger C等提出了加权投票用于去除冗余基因的方法, 近年来, 主成份分析法 (PCA) 、线性鉴别分析 (LDA) 等传统方法也被运用在基因数据挖掘中。LEE和Seung提出了NMF用于维数约简;Mi H K等提出了NMF用于肿瘤基因特征提取的方法
基因样本规模庞大, 且样本之间存在相互联系, 在线性变换的过程中可能会破坏基因谱数据的内部结构。NMF在维数约简方面有着独特的优势, 流形学习能够较为完整地描述数据内部的空间结构, 低秩稀疏约束能够较好地抑制噪声。针对基因样本高冗余、高噪声的特点, 本文在NMF的基础上引入低秩稀疏约束和流形正则约束, 构建了一种MRCNMF特征提取模型。
1 非负矩阵分解
1.1 nmf的代价函数
NMF的原理如图1所示, 其基本思想将一个高维数据矩阵X通过U空间映射到V, 这种映射一般都是非线性的。
NMF的代价函数有两种形式, 一种基于欧式距离, 一种基于KL散度距离。本文采用基于欧氏距离的代价函数, 目标函数如下
文献[6]给出了NMF的更新算法, U、V分别按照式 (2) 、式 (3) 进行迭代更新
1.2 图正则非负矩阵分解
NMF具有一定的局部数据表示能力, 然而它是基于欧式空间的数据表示, 没有考虑各个数据样本之间的联系, 无法描述数据内部几何空间结构。在光谱图论的研究过程中, Belkin M等发现通过数据矩阵的图拉普拉斯矩阵可以有效地重构原始数据的几何结构;文献[6]提出了一种图正则非负矩阵分解 (GNMF) 用于图像聚类的方法。GNMF在数据特征提取维数约简的同时, 依然可以通过图正则约束保持原始数据样本之间的空间结构。矩阵的近邻结构图将数据矩阵的每一列看作一个顶点 (每一列代表一个样本) , 每个顶点之间以边相连, 顶点与顶点之间的权值为W
其中, D为对角矩阵, 且d
考虑到样本之间具有相互联系, 内部空间存在一定的几何结构, D Cai等将图正则约束与NMF融合, 建立了如下GNMF模型
其中, λ≥0;当λ=0时, 该模型就是NMF。与NMF求解方式一样, 可以通过构造如下拉格朗日函数的方法求解
文献[7]给出了GNMF算法的详细求解过程, 其中U, V按如下规则进行更新
根据以上更新规则, 不难发现U、V的更新过程是非增的, 文献[8]给出了GNMF更新规则收敛性的证明。
1.3 低秩稀疏表示矩阵分解
NMF将原始矩阵分解为两个非负低维矩阵U、V, 实现了原始数据的维数约简。GNMF克服了NMF无法映射数据样本之间相互联系的缺陷, 在实现维数约简的同时较好地保持了原始数据的内部空间结构。然而由于U、V的非负性约束, 在矩阵的非负分解过程中难免会产生误差。文献[9]提出了一种非负低秩稀疏表示的矩阵分解方法, 文献[10]提出了一种利用低秩稀疏约束去除图像噪声的方法, 并取得了较好的实验效果。考虑到基因样本数据本身也存在噪声和丢失的特点, 本文将低秩稀疏约束与图正则非负矩阵分解相结合, 提出了多正则约束非负矩阵分解 (MRCNMF) 模型, 利用流形正则约束保持基因谱数据样本的内部空间结构, 同时利用低秩稀疏约束来抑制基因谱数据中的噪声和异常值。MRCNMF的目标函数如下
本文采用增广拉格朗日乘子法 (ALM) 对模型 (9) 进行求解。由于
其中, α, β为常数, Λ、Π为拉格朗日乘子。
为了保持U、V的非负性, 我们定义如下算子
具体的求解过程如下:固定V=V
根据文献[11]可知
为了与模型中的U、V有所区别, 这里用ψSФ
固定V=V
固定J=J
固定U=U
固定J=J
通过上述计算, 我们可以得到MRCNMF的迭代更新算法, 更新算法的具体实现过程如算法1所示。
算法1:用增广拉格朗日乘子法求解MRCNMF模型
2 结果与分析
2.1 数据库提供
美国国家生物技术信息中心 (national center for biotechnology information, NCBI) 是著名的生物技术研究机构, 其数据库内提供了上百万条生物的DNA信息供科研人员研究实验。本文采用NCBI提供的肿瘤细胞与正常细胞 (T/N) 、非霍奇金氏细胞瘤 (NHL) 、白血病 (Leucocythemia) 、多样本混合肿瘤 (various tumors) 4组基因序列进行测试
您可能关注的文档
最近下载
- 2016年袋鼠数学竞赛-四年级.pdf VIP
- GB51309-2018 消防应急照明和疏散指示系统技术规范.docx VIP
- 高磷血症健康教育.pptx VIP
- 康复科疾病中成药临床应用指南.docx VIP
- 中国通信标准化协会、中国信通院、大数据技术标准推进委员会:中国数据库产业图谱(2025).pptx VIP
- 2025年护理三基考试题库库护理三基考核题(答案+解析).docx VIP
- 《莫奈及其代表作》课件.ppt VIP
- 华业香料上市可行性分析.pdf VIP
- PDA TR29(中英文)-2012清洁验证的考虑要点.pdf VIP
- 保健功能评价方法--抗氧化功能评价方法.pdf VIP
文档评论(0)