- 1、本文档共143页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中图分类号:Q-31 单位代号:10280
密 级:公开 学 号
博士学位论文
SHANGHAI UNIVERSITY
DOCTORAL DISSERTATION
题
目
小分子生物学功能预测研究
作 者
学科专业材料学
导 师 教授
完成日期年月
上海大学工学博士学位论文
小分子生物学功能预测研究
姓 名:
导 师: 教授
学科专业:材料学
上海大学材料科学与工程学院
二零年五月
A Dissertation Submitted to Shanghai University
for the Doctor’s Degree in Engineering
Research on Prediction of Biological Function of Small Molecules in Metabolic Pathway Using Data Mining
Ph. D. Candidate:
Supervisor:Prof. Lu Wencong
Major:Material Science
School of Material Science and Engineering
Shanghai University
, 2012
摘要
使用数据挖掘方法进行小分子的生物学功能识别和预测研究,首先要解决的问题就是如何对小分子进行参数表征,这对于数学模型的建立起到至关重要的作用。经过比较现有的商业和开源的分子描述符计算程序,选用了ChemAxon公司的Calculator Plugins等程序,使用Java语言对其进行了二次开发,开发了一个方便易用且可自行定制的批量计算小分子的分子描述符的计算程序。程序极大地提高了小分子的分子描述符计算的便捷性和计算效率,为小分子的生物学功能识别和预测研究提供了高效的工具。
正确有效地把具有重要生物学意义的小分子映射到其相对应的代谢途径,将有助于人们更加深入地进行代谢分析,更为深刻地理解小分子的代谢机理。使用ChemAxon公司的JChem for Excel软件批量计算小分子的分子描述符,基于mRMR算法(minimum Redundancy Maximum Relevance)和FFS算法(Feature Forward Search)进行特征选择,采用以C4.5决策树算法为基本分类器的Adaboost算法预测了小分子可能参与的代谢途径的类型。由此所建立模型的10折交叉验证测试和独立测试集测试的预测正确率分别为83.88%和85.23%,与使用官能团组成表征小分子的方法相比,预测结果有了显著的提高。还使用HyperChem软件计算小分子的分子描述符,基于CFS(Correlation-based Feature Subset)算法进行特征选择,采用以最近邻算法为基本分类器的Bagging算法预测了小分子可能参与的脂类代谢的子代谢途径,所建模型对Jackknife交叉验证和独立测试集的预测正确率分别是89.85%和91.46%。
在代谢途径中,小分子通过与酶的相互作用,参与了整个代谢过程。研究小分子与酶的相互作用,可以根据已知的“小分子-酶作用对”预测未知的小分子和酶能否相互作用,进而为探索各种代谢或催化机理提供新的研究思路。使用所开发的计算程序的计算结果表征小分子,使用改进的拟氨基酸组成表征酶,对代谢途径中小分子和酶的相互作用进行研究。结合使用mRMR算法、IFS(Incremental Feature Selection)算法和FFS算法进行特征选择,采用最近邻算法进行建模,其10折交叉验证测试和独立测试集测试的预测正确率分别为85.19%和85.32%,其中正样本的预测正确率分别为86.02%和86.74%,与前人的研究工作相比,正样本的预测正确率有较大的提高。
使用投票法对蛋白质与RNA的相互作用进行了研究,有关研究结果有助于理解蛋白质如何控制基因表达。从Weka软件中选取了34种分类算法,建立了四种投票系统。结果表明,投票法的预测结果优于单一分类算法的预测结果,并且使用算法选择和对算法进行加权可以优化预测结果。使用含算法选择的加权多数投票系统取得了最佳的预测结果,独立测试集测试的平均ACC(overall prediction accuracy)值和平均MCC(Matthew’s Correlation Coefficient)值分别达到82.04%和64.70%。
关键词:数据挖掘,小分子,分子描述符,代谢途径,ChemAxon,投票法
Abstract
Small mol
您可能关注的文档
- 实验在《电子技术教学中的应用--毕业论文设计.doc
- 实用的消防控制电路--毕业论文设计.doc
- 实用信号源的设计--毕业论文设计.doc
- 食品废弃物连续式一级液态厌氧发酵系统设计--毕业论文设计.doc
- 食品企业在线交易平台的设计与实现--毕业论文设计.doc
- 食品添加物对面粉糊化特性和面包品质的影响--毕业论文设计.doc
- 食品中拟除虫菊酯残留的高效薄层色谱法(HPTLC)检测方法研究进展--毕业论文设计.doc
- 食品专业--银耳酸奶的工艺研究--毕业论文设计.doc
- 食用油电学参数的试验检测装置设计--毕业论文设计.doc
- 史密斯预估控制策略在厚规格轧制中的应用》--毕业论文设计.doc
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)