- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
User-福州大学学报
基于INCA的肿瘤基因表达谱分类模型
潘江山,陈晓云,董红玉
(福州大学数学与计算机科学学院,福建 福州,350116)
摘要:针对NCA算法对初始值敏感的不足,提出一种改进的NCA算法(INCA)。INCA对肿瘤基因表达谱进行奇异值分解,将标准化后的右奇异矩阵作为初始值,提取肿瘤基因表达谱中的分类信息。在4个标准肿瘤基因表达谱数据集上进行实验,以INCA作为特征提取方法,K-近邻、Parzen窗作为分类器进行分类检测。实验结果表明,与NCA及现有的分类模型相比,基于INCA的分类模型能够取得较高的分类准确率。
关键词:肿瘤基因表达谱;NCA;奇异值分解;分类
中图分类号:TP391
Classification model of gene expression profile based on INCA
PAN Jiang-shan, CHEN Xiao-yun, DONG Hong-yu
(College of Mathematics and Computer Science, Fuzhou University, Fuzhou, Fujian 350116, China)
Abstract: In view of the shortcoming that NCA is sensitive to initial value,an improved method INCA is proposed in this work.Firstly,INCA compute the SVD of tumor gene expression profile,then chose the standardized right singular matrix as the initial value of NCA algorithm,extracting the classification information in the tumor gene expression profile.Use K-NN,Parzen as classifier to check the classified effect of INCA on four stand tumor gene expression profile datasets.The results show that the accuracy of classification model based on INCA is higher than both NCA and other classification models.
Keywords: gene expression profile; NCA; SVD; classification
0引言
基因表达谱是一种在分子生物学领域,借助cDNA、表达序列标签(EST)或寡核苷酸芯片来测定细胞基因表达情况的方法[1], 已成为临床医学上一种重要的肿瘤诊断方法。利用基因表达谱数据在基因水平上对肿瘤进行分类是当前的一个研究热点。由于实验成本昂贵、基因样本数量少,肿瘤基因表达谱数据具有维数高、样本少的特点。另外,基因表达谱数据的特征基因通常具有高度的相关性,大部分基因都包含和肿瘤分类无关的信息[2]。直接利用数据挖掘中的分类器对肿瘤基因表达谱数据进行分类往往难以得到令人满意的结果。如何采取有效的特征提取方法对肿瘤基因表达谱数据进行降维,建立有效的分类模型一直以来都是研究肿瘤基因表达谱的重点与难点,仍有待深入研究。
1999年,Golub等[3]率先提出利用S2N作为指标对leukemia样本进行分类,开创了利用肿瘤基因表达谱对肿瘤进行研究的先河,随后各种分类模型相继出现。这些分类模型通常先对肿瘤基因表达谱进行特征提取,然后在低维空间对样本进行分类识别。如Liu[4]利用小波特征提取细节系数,并采取合适层数的细节系数重构回原始样本空间,得到基因信息,再使用Wilcoxon秩和检验选择一定数量基因表达差异最大的基因作为分类特征,提出利用正交小波对肿瘤基因表达谱数据进行特征提取。文献[5]提出利用零空间中的线性判别法提取有效的特征信息,该方法在提取的特征数大于100时分类效果较好。Li等 [6]采用无监督PCA和有监督的偏最小二乘法两种方法提取有效成分,并利用SVM和KNN进行分类。文献[7]先以ICA抽取肿瘤基因表达谱数据的独立分量,再以顺序浮动前向选择算法选择一定数量判别能力最强的特征,最后采用SVM进行分类。以上方法的共同缺点是分类准确率不够高。
本研究将NCA算法应用于肿瘤基因表达谱的特征提取,并提出一种确定NCA初始值的改进算法INCA。最后,在4个标准的肿瘤基因表达谱数据集上验证基于INCA分类模型的有效性。
1 基于INCA的肿瘤基
文档评论(0)