- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1问题的重述
DNA微阵列(DNA microarray),也叫基因芯片,是近年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术.它将几百个到上百万个不等的称之为探针的核苷酸序列固定在小的玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA微阵列.随着大规模基因表达( Gene?expression?profile?,或称为基因表达图) ?技术的发展基因表达分布图基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题.在分子水平上基因表达分布图准确地进行肿瘤亚型的识别对诊断和治疗肿瘤具有重要意义.DNA?芯片测量的千个基因中出决定样本类别的一组基因“标签”,即“信息基因”informative genes?)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,也为抗癌药物的研制提供了捷径.,一些基因的表达水平在所有样本中都非常接近.因此,必须对这些“无关基因”进行剔除.1999 年《Science》发表了Golub 等针对上述急性白血病亚型识别与信息基因选取问题的研究结果.Golub 等以“信噪比”(Signal to noise ratio) 指标作为衡量基因对样本分类贡献大小的量度,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7 129 个基因中选出了50 个可能与亚型分类相关的信息基因.Golub 的工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富有创造性.Guyon 等则利用支持向量机的方法再从中选出了8个可能的信息基因[2].
但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息.有专家认为在基因分类研究中忽略基因低水平表达差异不大的表达被与临床问题相关的主要生理学信由于基因表示存在着很强的相关性,所以对于某种特定的肿瘤,似乎有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少选择最好的?相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征,分类的效果才好.从分类的角度确定基因“标签”?1999 年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差.通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?
(4)在肿瘤研究领域通常会已知若干个信息基因与某种癌症关系密切,融入诊断肿瘤信息确定基因“标签”的临床生理学信2.2符号的设定
为基因
为基因的 Bhattacharyya 距离
为指定的Bhattacharyya 距离的阈值
一个非线性的映射函数
集合数
均为模型参数
其他变量符号在文中使用时给出说明.
3模型的准备
3.1 SVM分类理论
支持向量机(support vector machine,SVM)是ATTBell实验室的V.Vapnik提出的针对分类和回归问题的统计学习理论.SVM能够较好地解决小样本、非线性、高维数等实际问题,而且具有全局最优性和较好的泛化能力.
对于支持向量机用于两类线性数据的分类问题,就是要找到一个可计算的分类函数
(1)
对于给定的N个样本,(),,其中,,来找到一个可将两样本分离开来的超平面.
(2)
能将两类数据分开的超平面很多,但从样本以及参数的鲁棒性来看的话,应该选择满足两类样本间隔最大的一个超平面.所谓的最优超平面,就是要求分类面不但能将两类样本正确分开,而且使分类间隔达到最大.
由(2)决定的超平面一般称为标准超平面,其中变量要受到以下限制
(3)
并且,具有标准形式的超平面需要满足下式
(4)
因此,点到超平面的距离可以表示为
(5)
最有超平面的最大分类间隔要受到(5)式的限制,分类间隔可表示如下
(6)
因此,最优分类超平面需要将下式最小化
(7)
即最优超平面需要满足下列条件
(8)
并且对
您可能关注的文档
最近下载
- 生活垃圾清运转运及转运站运营方案(投标方案).docx
- 质量理念培训.pptx VIP
- 2025年国家执业药师考试《中药一》常用中药材彩图(第七版 高清图片) .pdf VIP
- 汽车四轮定位参数.课件.ppt VIP
- 24黄梅小调打猪草二胡民乐合奏谱简谱.pdf VIP
- CRH380AL型动车组一级修作业指导书.pdf VIP
- 城市更新技术谱系.docx VIP
- 某集团人力资源部2025年度考核指标方案(精品).docx VIP
- 学校美育建设调研报告修订稿.docx VIP
- Unit 1 You and ME Section A 课件+嵌入音频(共22张PPT) 人教版(2025)七年级英语上册.pptx VIP
文档评论(0)