- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                郭小勇-miningbioprocessdata;apportunitiesandchanllenges
                    背景介绍 随着分子生物的发展,人类基因组计划逐步完成, 生物数据的分析和存储的规模也越来越大。生物 学数据的积累并不仅仅表现在DNA序列方面,与 其同步的还有蛋白质组学,转录组学,代谢组学, 糖组学方面的数据。这一切构成了一个生物学数 据的海洋。这种科学数据的急速和海量积累,在 人类的科学研究历史中是空前的。然而,数据并 不等于信息和知识,但却是信息和知识的源泉,关 键在于如何从中挖掘它们。数据挖掘与生物信息学 有很好的结合点,在生物信息学领域的应用潜力日益 受到人们的重视。研究证明数据挖掘技术是生物信 息处理的强有力工具。  1. 数据挖掘的概念 数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。  2. 数据挖掘的步骤 1)数据清理 2)数据集成 3)数据选择 4)数据变换 5)数据挖掘 6)模式评估 7)知识表示 3.数据挖掘相关方法 人工神经网络为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。 决策树决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法支持向量机方法 。 遗传算法基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 近邻算法将数据集合中每一个记录进行分类的方法。 规则推导从统计意义上对数据中的“如果-那么”规则进行寻找和推导方法  4. 数据挖掘的应用 数据挖掘应用的领域很广,不仅仅可以用于生物过程中复杂数据的分析,而且可以用于银行、电信、保险、交通等领域,为决策者提供决策依据,用于市场营销对所识别出来的消费群体进行特定内容的定向营销 . 5. 数据挖掘在生物学领域的进展 高通量和高内涵数据处理、分析与整合技术,大规模生物学数据的有效存储、检索、提取和比对技术研究;整合基因组、基因变异信息、基因转录调控、非编码RNA、蛋白质组、代谢组、结构基因组、表观遗传学以及其它生物技术方面的数据,整合药物研究的生物信息、化学信息和相应药物信息分析技术的药物信息数据库构建,开发一批可应用于生命科学研究及生物技术研发的大型数据库体系及其相应通用数据标准;开发结构、功能明确的基因组、蛋白质组数据库;针对重要生物体系和重大疾病,研发一批有应用前景的生物探针和药物先导化合物。   人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,如何从海量数据中获取有效信息成为生物信息学迫切要解决的问题。目前数据挖掘在生物信息领域的研究重点主要表现在以下几个方面:  (1) 数据清理,数据集成,异种、分布式数据库的语义集成。  (2) DNA 序列相似搜索和比对。  (3) 基因组特征及同时出现的基因序列的分析。  (4) 路径分析:发现在不同阶段的致病基因。  (5) 生物数据可视化和可视的数据挖掘。   6. 数据挖掘的发展前景 数据挖掘技术是一个年轻且充满希望的研究领域,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等. * * * * 郭 小 勇 2009-05-06 内容概要 综述了研究生物过程中的数据所面临的挑战。系统地分 析了生物过程中数据的复杂性,并着重描述了数据挖掘 技术在生物领域的研究状况和进展,提出了3个研究阶段: 基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶 段和专门的生物过程数据挖掘方法设计阶段.阐述生物过 程数据挖掘的基础是生物数据库,评述了生物数据挖掘领 域所采用的关键技术,包括关联、聚类、分类和异常挖掘 等,分析讨论了其相应的生物应用背景和意义.最后给出生 物过程中数据制备的设计、根据生物领域知识的数据挖 掘新模型和算法的建立等.  数据挖掘的概念 数据挖掘的步骤 数据挖掘的研究方法 数据挖掘应用 数据挖掘在生物学领域取得的进展 数据挖掘的发展前景 数据挖掘技术 
                
原创力文档
                        
                                    

文档评论(0)