- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
双聚类在生物信息大数据的应用
分类?
聚类?
聚类VS分类
分类与聚类的区别:
在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。
与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。
聚类分析也称无监督学习或无指导学习,聚类的样本没有标记,需要由聚类学习算法来自动确定。
聚类算法
划分方法:K-means
层次方法:BIRCH
基于密度的方法:DBSCAN、OPTICS、DENCLUE
基于网格的方法:STING、CLIQUE
K-MEANS算法
K-MEANS算法
缺点?
Big data= “Large-scale data”+“Complex types data”
聚类的应用
Big data exist in various areas
生物信息大数据
生物信息学是一门重要的交叉学科,又称作基因组信息学
如何从海量基因数据中获取有效信息成为生物信息学迫切要解决的问题
序列分析、基因表达等为数据挖掘提供了广阔的研究空间
数据挖掘技术帮助人们了解生物数据所代表的生物学意义
基因表达数据可以用矩阵形式表示,用行集合来代表基因集合,用列集合代表各种实验条件,其中的每个元素表示某个基因在某个给定条件下的表达水平值。
传统的聚类技术如k-means和hierarchical clustering等已经被广泛地用于基因表达数据的分析。
该技术根据基因在所有条件下表达模式的相似性,把基因分成互不相交的子集,每一个子集对应于一个簇,并认为在同一个簇中的基因具有相同的管理机制或生物功能。
缺陷:
部分基因可能只在某一特定的条件子集下具有相似的表达模式(只对行或者列来进行聚类)
一个基因可能参加不止一个生物过程,因此一个基因可能属于多个基因簇
双聚类算法
为了克服传统聚类的缺陷,大量的双聚类算法也相继被提出。
双聚类算法通过对行集合和列集合同时进行聚类,寻找在特定条件子集下显示了相似表达模式的基因集。
聚类和双聚类的比较
双聚类的分类
CC算法
CC算法是双聚类算法的鼻祖
目的是为了在基因表达值矩阵中寻找子矩阵,使得子矩阵中的表达值水平具有高度一致性。
定义了一个均方残差用以衡量一个双聚类的一致相关性,并提出一个贪心算法对基因和条件进行行、列交替删除操作,最终找到具有低均方残差值的子矩阵,并且每次只能产生一个双聚类,并且用随机数来代替原来的值,如此重复。
缺点:
此方法具有很大的不确定性,即使是同样的参数在两次实验中将会得到不同的结果,而且此法是一种贪心算法,不能确保找出所有的双聚类。
基于模式的双聚类
因为基因表达矩阵通常维度很高,而传统的聚类如k-means、hierarchical clustering在识别这些只有部分子集的表达值模式方法方面非常困难。近年来,基于模式的双聚类模型(Pattern-based biclustering model),这种使用模式相似性(pattern similarity)而不使用距离相似性(distance similarity)进行聚类的模型,已经广泛应用于包括基因表达值分析,自动推荐系统,定向营销等多个方面。
OPSM算法
“保序子矩阵”(order preserving submatrix),简称OPSM,是一种基于模式的双聚类。
一个矩阵的子矩阵是OPSM需满足的条件是对于该子矩阵,存在一个列排列,使得该子矩阵中的所有行在这个排列下都是严格单调递增的。即该模式关注数据矩阵中元素之间相对大小在不同列下的一致性,忽略实际的元素值大小。
OPSM算法
关联规则
关联规则挖掘:
在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。
规则形式: “Head ? Body[support, confidence]”.
buys(x, “diapers”) ? buys(x, “beers”) [0.5%, 60%]
应用:
顾客购物分析、目录设计、商品广告邮寄分析、追加销售、商品货架设计、仓储规划、网络故障分析以及根据购买模式对用户进行分类,医疗诊断,医药销售
规则度量:支持度与可信度
买尿布的客户
二者都买的客户
买啤酒的客户
查找所有的规则 X ? Y 具有最小支持度和可信度
支持度 s:
一次交易中包含{X 、Y}的可能性
可信度 c,
包含{X}的交易中也包含Y的条件概率
设最小支持度为50%, 最小
您可能关注的文档
- 销售过程中的话术2讲述.ppt
- 销售陈述—PEPSI(朱炜整理20081201)讲述.ppt
- 销售进程管理讲述.ppt
- 提高手卫生依从性 QCC精要.ppt
- 销售面积计算规范和方法讲述.ppt
- 销售面谈话术与异议处理讲述.ppt
- 提高中山彩信端到端成功率QC精要.ppt
- 销量考核绝招动作分解讲述.docx
- 锁相环常见问题解答讲述.doc
- 领导力的研究报告详解.ppt
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)