计算智能在生物信息学中的应用研究-控制科学与工程专业论文.docx

下载文档 降价啦

32
0
约9.18万字
约 104页
2019-05-08 发布于上海
举报
版权申诉
保障服务

计算智能在生物信息学中的应用研究-控制科学与工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

浙江大学博士学位论文摘浙江大学博士学位论文摘要计算智能技术近年来在模式识别、人工智能、机器学习、知识发现、数据挖掘等许多领域得到了广泛应用。随着人类基因组计划的实施，以及更多生物基因组测序计划的完成，计算智能开始在计算生物学和生物信息学中得到广泛的应用。本文主要在算法创新和计算智能技术在生物信息学上的实际应用两方面做了以下工作： 1．根据真核生物内含子在剪切位点前后存在保守碱基的特征，用支持向量机技术构建分类器模型，有效地在基因组序列中识别剪接位点，3’位点识别的准确度87．96％，在5’位点识别的准确度达85．41％。 2．为有效地分析水稻3-UTR序列剪切位点上下游序列中的信息结构，提出了一个新的分析框架，即DNA序列的滑动窗口信息熵模型。通过计算碱基概率分布的信息熵，揭示了水稻3-UTR序列的信息结构。 3．提出了基于支持向量机技术的滑动窗口机器学习模型。用该模型得出的结果证实了滑动窗口信息熵模型得出的结果的正确性。 4．把遗传算法和LVO神经网络结合进行高维空间的特征选择，以解决两类别的样本分类问题，并利用自血病和大肠癌基因芯片数据进行了实例计算，分别达到了100％和91．27％的准确度。 5．把遗传算法和支持向量机技术结合，并采用滤波策略，用来进行高维空间的特征选择，以解决多类别样本的分类问题。对多类别癌症基因芯片表达谱数据(NCT 60数据和GCM数据)进行了计算，分别达到了86．55 ％和91．23％的分类准确度。关键词：计算智能，生物信息学，DNA序列，基因芯片，遗传算法，支持向量机，分类，癌症，机器学习，水稻，剪接位点，内含子，顺式调控元件，LVQ神经网络，3-UTR，信息熵。 AbstractArtificial Abstract Artificial Intelligence(AI)has been advancing rapidly in recent years，and found applications in many fields，such as pattern recognition，machine learning，knowledge discovery,datamining．A great usage of it is in a newly evolved branch of science：bioinformatics．The accomplishment of the Human Genome Project(HGP)，and the completion of more other genomes，A1 will play bigger roles in computational biology and bioinformatics．In this thesis， AI applications are developed and used to analyze biological sequence and microarray data，with the following points of innovation that can be summed up： 1．A new method for the splicing·site recognition of rice DNA sequences was designed．Based on the GT-AG intron organization principal，support vector machines(SVM)was used to predict the splicing sites．Through machine learning，a model was built on some test data set of true and pseudo splicing sites．The prediction accuracy obtained was 87．53％at the true 5’end splicing site and 87．37％at the true 3’end splicing sites，respectively． 2．A new framework，named Information Entropy Model of Sliding Window (IEMSW)，was proposed to effectively analyze the structural information contained in the 3-UTR sequences around the polyadenylation site． 3．Based on Su