- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因芯片的数据分析-生物化学与分子生物学专业论文
基因芯片的数据分析基因芯片的数据分析
基因芯片的数据分析
基因芯片的数据分析 专业:软件工程 姓名:王江 导师:戴宪华教授
摘要
本篇论文研究的方向属于生物信息学的范畴,主要以计算机为工具对生物信 息即eDNA数据进行储存、检索、表达聚类和分析。具体来说,主要运用数据挖 掘算法对cDNA基因表达数据进行聚类分析,确定具有相似表达模式的基因。
本文阐述了有关基因、基因芯片的相关概念以及数据聚类的相关算法,如 K一均值、主成分分析(PCA)、层次聚类等。本文运用matlab7.0语言对NCBI的基 因表达综合数据库系统(GEO)中的数据进行聚类分析,数据分析采用先用PC^降 维方法得出大致数据分布图,即观测出大致的聚类数,然后再用K一均值对其进 行细化,可以克服单一采用K一均值时盲目输入初始K值的缺点,可以得到良好 的聚类效果。本文还通过求出层次聚类的结果与k一均值算法的不同k值产生的 结果的交集,并对其有效性进行了检验。本文还论述了双聚类的基本原理,并编 制相关算法,并对双聚类算法作了一些改进,如可视化其输出结果、对整个矩阵 求出的相关性最大的子矩阵之后,再对其进行过滤与清除,如清除与均值相差比 较大的点,这样可以去掉一些孤立点,得到良好的聚类效果。本文对不同实验条 件下酵母菌的基因芯片数据进行双聚类分析,并得出了有效的聚类结果。在双聚 类有效性验证方面,采用逐个去除每个条件,看其聚类效果的变化来判断其是否 强壮,最后通过实例对双聚类的有效性进行了实例分析。
关键词:基因芯片、数据挖掘、聚类算法、双聚类
基因芯片的数据分析
基因芯片的数据分析 Abstract
Computational Analysis of Microarray Data
Major: Software Engineering
Name: Wang Jiang Supervisors:Professor Dai XianHua
Abstract
The research orientation of this paper belongs to bioinformatics field,which mainly deais with biological information,namely,eDNA data,by using computer technoiogy to save,search,cluster and analyse.Concretely,we analyse gene expression data of eDNA by using data mining algorithm to confirm the genes which have the similar expression pattern.
The paper describes the relevant conceptions of gene and genechips,it also proposes the relevant data clustering algorithm,such as,K-means,PCA,hierarchical cluster,etc.In this paper,1 propose a algorithm which is written in matlab 7.0 to analyse the GEO data of NCBI,the algorithm is described as follows:firstly,using the
method of PCA to roughly figure out data distrmution map,i.e.get the roughly clustering number,afterwards,using the K-means method to get more deails in clustering number.This algorithm can overconle the shortcoming brought by the only K-means with blind value of Kthus,it can bring about better results.Though the intersection by the results brought about by the hierarchical cluster and the resuRs brought about by the K-means with different value of k cluster vaHdation was
tested.The paper also deals with
您可能关注的文档
- 基于arm处理器的便携式振动测试分析系统的研究与设计-测试计量技术及仪器专业论文.docx
- 化工过程数据处理系统的研究与开发-化学工程专业论文.docx
- 基于arm的嵌入式静态图像显示系统的研究与实现-系统工程专业论文.docx
- 华龙水电高新技术公司-工商管理专业论文.docx
- 化工企业环境成本控制的研究会计学专业论文.docx
- 华南地区人工膝关节置换术截骨参数测量及其临床分析-临床解剖学专业论文.docx
- 化玻企业决策支持系统-系统分析与集成专业论文.docx
- 互联网背景下中牟县农村金融服务体系研究-农业科技组织与服务专业论文.docx
- 基于arcobjects的地理信息系统二次开发与实现——以东北师范大学校园信息管理系统为例-自然地理学专业论文.docx
- 基于arma-garch-ged模型的沪深股市长假效应存在性研究-金融学专业论文.docx
- 互联网拥塞控制系统的非线性动力学研究-电路与系统专业论文.docx
- 华视传媒电视娱乐节目项目的可行性分析-工商管理专业论文.docx
- 基因组断点标本字符串提取算法-计算机软件与理论专业论文.docx
- 互联网拥塞控制系统的非线性动力学分析-系统工程专业论文.docx
- 基于arm的mvb接口机车逻辑控制模块设计与实现-模式识别与智能系统专业论文.docx
- 基因芯片法快速检测结核分枝杆菌对链霉素和乙胺丁醇的耐药性-内科学专业论文.docx
- 华南特殊生境植物的遗传多样性研究-生物化学与分子生物学专业论文.docx
- 基于arm+μclinux的灌溉控制系统的构建-计算机应用技术专业论文.docx
- 华北石油管理局产业定位与发展战略-工业工程专业论文.docx
- 基于arm的纠偏系统设计与实现-信号与信息处理专业论文.docx
原创力文档


文档评论(0)