- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
11第11课生物信息学的基因聚类分析
基因表达数据的聚类分析;聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。
从机器学习的角度来看,有两种基本的聚类分析:
有监督聚类
无监督聚类;基因表达数据聚类分析一般包括以下几个步骤:
(1)确定基因表达的数据
(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似
(3)选择算法进行聚类分析
(4)显示分析结果。 ;对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。
通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。
在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。 ;;几种常用的聚类方法 ;1、简单聚类
假设有n个基因
表达数据向量分别为X1, X2,…, XN
令任意一个基因的表达向量为第一个聚类的中心
依次处理其它基因
在处理第i个基因时,首先计算该基因的表达数据向量与现有各类中心的距离
假设与第j类的距离Dij最小,并且DijT,则将基因i分配到第j类;否则生成一个新类,该类的中心为第i个基因的表达向量。;2、层次式聚类 ;3、K平均聚类
任意选取K个基因表达向量作为初始聚类中心
Z1, Z2,…, Zk
反复迭代计算
如果||X-Zj(l)|| ||X-Zi(l)||(i=1,2,…,K,i?j),则将X所代表的基因归于第j类。按照上述办法处理所有的基因;
经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心:
对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。 ;4、自组织映射神经网络 ;图9.12 SOM聚类结果示意;5、模糊聚类分析方法
主要过程:
(1)建立模糊相似矩阵
(2)生成模糊等价矩阵
(3)构建动态聚类图;6、聚类结果显示
;分类分析方法
有监督学习
疾病诊断、细胞类型识别
样本分类:(例)
急性淋巴细胞白血病(ALL)
急性髓性白血病(AML);例:两类划分
;问题:
基因的选择?
分类的方法?
贝叶斯分类法
支持向量机(SVM)
k最近邻法
神经网络方法
决策树方法
投票分类法(多分类器)
;7、主成分分析PCA ;图9.13 主元素对应特征值图示;;分析基因表达数据
发现与疾病直接相关的基因
发现这些基因的活动规律;基因调控网络分析; 基因表达在化学催化中的作用;代谢路径示例:脯氨酸的生物合成;基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。
一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。
当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生化状态不断地变化。;一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因表达调控网络。
基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网络。;几种基因调控网络模型 ;A B C
A B C ;;2、线性组合模型;3、加权矩阵模型;4、互信息关联网络;5、基因调控网络实例;该基因网描述了四类实体:
(a) 细胞(组织,器官)
(b) 蛋白质
(c) 基因
(d) 物质
该基因网还描述了实体间两种关系:
(a) 反应(reaction), 即通过交互作用产生新的实体或过程
(b) 调控(regulatory)事件, 特定反应对实体的作用。 ; GeneNet网络
您可能关注的文档
- 07.在线参考工具资源.ppt
- 09声卡故障维护[ok].ppt
- 09_取样与样品预处理方法.ppt
- 0915422_第10小组[麦当劳].ppt
- 09届高考化学无机框图题的解题思路及技巧.ppt
- 09_信息安全基础.ppt
- 08.防弹汽车秘密.ppt
- 09_科研计划书的撰写_药学.ppt
- 09大计网恋-专题班会.ppt
- 09确定细分市场及选择目标市场.ppt
- 剧本杀行业报告:内容创作规范与剧本市场拓展策略.docx
- 剧本杀行业区域市场区域文化特色与市场潜力分析报告.docx
- 剧本杀行业区域市场拓展实战案例研究.docx
- 剧本杀行业区域市场拓展路径与模式探索报告.docx
- 剧本杀行业区域市场竞争态势与品牌差异化策略研究报告.docx
- 剧本杀行业2025年西北区域市场市场细分领域竞争态势与品牌竞争策略分析研究报告.docx
- 剧本杀行业2025年西北市场拓展前景预测报告.docx
- 剧本杀行业2025年长沙市场发展潜力分析报告.docx
- 剧本杀行业2025年长三角市场竞争策略与布局分析.docx
- 医疗行业数据合规:2025年数据安全法实施后的合规监管挑战与应对.docx
最近下载
- 电气安全评估报告模板.docx VIP
- 2025学年人教版英语七年级下册单词默写表.docx VIP
- TB 10754-2018 高速铁路轨道工程施工质量验收标准 含2023修改单(2-2).pdf
- 《网络工程师》模拟考试题.doc VIP
- 脑梗塞中医辨证课件.pptx
- 解码国家安全智慧树知到期末考试答案章节答案2024年国际关系学院.docx VIP
- YB∕T 5305-2020 线缆套管用焊接钢管(可复制版).pdf
- 应用指南《GB_T23443-2024建筑装饰用铝单板》应用指南.pptx VIP
- CQC3703-2022 绿色能源消费评价技术规范-活动.pdf VIP
- 1.4 全面推进依法治国的六项重大任务(政策与法律法规 第五版).pptx VIP
文档评论(0)