基于子模性质基因表达谱特征基因提取.docVIP

下载本文档

6
0
约6.88千字
约 12页
2018-08-29 发布于福建
举报
版权申诉

基于子模性质基因表达谱特征基因提取.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于子模性质基因表达谱特征基因提取

基于子模性质基因表达谱特征基因提取　　摘要：针对高维小样本的特点的基因表达谱数据，提出一种基于子模性质的特征基因提取算法。首先根据图论知识将独立的基因属性转换为具有结构信息的邻接图，之后对表征基因关系的邻接矩阵利用子模性质的目标函数进行分析，事先设置特征基因子集的个数K，使用贪心算法通过迭代K个步骤，将每一次选取的特征基因加入到集合S中，作为最终选择的特征基因子集；最后，使用SVM分类器进行分类实验。通过几组公开的基因表达谱数据集的实验结果分析说明了该方法的有效性。　　关键词：基因表达谱；子模；邻接矩阵；贪心算法　　中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2015）17-0194-03 　　Gene Expression Profiles Feature Extraction Based on Submodular 　　JIANG Zhi-mou1，2， YAO Tang-long2 　　（1.Anhui Lang Electronic Technology Co.， Ltd， Hefei 230039， China；2.School of Electronics and Information Engineering， Anhui University， Hefei 230039， China）　　Abstract： The characteristics of high-dimensional gene expression data for small samples， this paper presents a characteristic gene-based Submodular the nature of the extraction algorithm. First， according to the knowledge of graph theory to separate genes properties into adjacent graph with structural information， the following relationship for the characterization of gene adjacency matrix using the sub-mode to analyze the nature of the objective function， through pre-set number of feature gene subset， using greedy algorithm iteration steps， each one gene is added to the selected feature set， as the final selection of a subset of genes characteristic； Finally， using the SVM classifier to classify experiments. Through several sets of experimental results published analysis of gene expression data sets illustrate the effectiveness of this method. 　　Key words： gene expression profiling； submodular； adjacency matrix； greedy algorithm 　　随着新分子生物学技术和DNA微阵列技术的迅速发展，可以同时定量测量生物样本中成千上万的基因表达水平，这一技术产生的基因表达谱数据能够揭开隐含的、以前未知的生物学知识。近几年来，研究学者利用统计学和模式识别等知识对基因表达谱数据进行分析，对致病的肿瘤基因进行有效的挖掘，从而对肿瘤的类型作出准确的诊断和分类预测。　　目前对高维小样本的基因表达谱数据，特征基因的子集选择有效解决了高维数据所面临的“维数灾难”问题。自1999年Golub等[1]人第一次提出了以“信噪比”作为评价指标，采用加权投票法过滤冗余基因构建分类模型之后，研究学者提出了许多新的特征基因挖掘方法。Mishra等[2]人提出一种改进的信噪比方法，Peng等[3]人提出使用互信息来度量特征之间的相关性程度选择信息基因，Mukkamala等[4]采用[t]统计量的方法过滤冗余基因，张靖等[5]提出一种改进的Lasso方法迭代剔除冗余的基因，Xu等[6]提出一种基于标准差分布差异（SDED）选择特征基因的方法，Hang等[7]人提出一种基于稀疏表示的肿瘤基因表达