基于机器学习对药物组合相互作用预测研究.docVIP

下载本文档

62
0
约5.22千字
约 11页
2018-08-30 发布于福建
举报
版权申诉

基于机器学习对药物组合相互作用预测研究.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于机器学习对药物组合相互作用预测研究

基于机器学习对药物组合相互作用预测研究　　[摘要]药物研发是全球性的发展问题，过去几十年中，药物靶向治疗策略取得了相当大的成绩，确定药物治疗靶点，寻找针对靶点的特异性药物，是医药企业以及实验室研究的着力点。然而，近些年，新药物研发速率不断下降，研发成本不断上升，原因在于：一是药物研发早期阶段选择大量药物作为候选物，仍然主要依靠耗时耗力的实验手段，后期很大几率会发现药物的疗效不理想或者副作用而导致研发失败；二是大部分人类疾病是由多因素引起的复杂疾病，而生物系统具有一定的冗余度和复杂性，单一药物对单一靶点的干扰不能引起系统表型的改变。　　[关键词]药物-靶标，蛋白-配体，化学倾向性，药物组合，网络筛选，蛋白质数据库，文本挖掘　　中图分类号：S343 文献标识码：A 文章编号：1009-914X（2018）02-0203-02 　　随着不同组学技术的进步，专业资源部门累积了很多的的生物学数据，使得生物学数据库逐渐增加。生物信息学与计算生物学的发展，对于解开药物研发面临的困境，提供了一种有效手段。特别是在药物研发的早期阶段，虚拟筛选技术提供了一种高效而高通量的手段，为早期研发锁定目标、节约成本起到了重要作用。运用计算手段，整合多种数据资源，挖掘数据中隐含的关联信息，筛选可靠的药物-靶标关系和有效的药物组合是非常理想的方法。　　本论文进行的调查目的是使用现有肿瘤和蛋白质相互作用数据库的网络来预测新的药物组合或新型生物标志物，并使用网络原理解释和分析大型宏基因组数据。实验显示，网络邻域的重叠与癌症治疗中使用的两种药物的成对相互作用强度密切相关，也与临床资料相关。我们基于假设和文本分析，在数据项的网络邻域之间发现隐式连接新型生物标志物。　　第1章绪论　　1.1 生物背景　　1.1.1 化疗　　化疗是最常用的一种治疗癌症的方法。联合化疗将细胞毒性药物与不同的作用机制相结合，目标是消除癌细胞异质群体中更广泛的抗性细胞，以预防或减缓抗性克隆的出现，并最大化药物对细胞杀伤的添加或协同作用。　　1.1.2 转移性乳腺癌的全身治疗　　2012年，170多万妇女被诊断出的乳腺癌是妇女中最常见的癌症。高病发率且很难治疗造成很大的经济负担，影响众多人口的生活质量。术前，所谓的“新佐剂”治疗，如术前给予的蒽环类药物或内分泌剂预计会导致疾病下降。与不太严重的疾病相比，严重不治之症的恶性肿瘤需要更强的细胞毒性治疗。其他单药化疗包括环磷酰胺，卡铂，多西他赛，白蛋白结合的紫杉醇，顺铂，表柔比星，ixabepilone。化疗组合列于表1.1 。　　1.2 网络生物学　　生物数据库，包括与癌症治疗和宏基因组相关的数据库，包含相互交叉参考的注释数据项。在数学意义上，这样的实体可以被描绘为子图或子网，其中一些边（交叉引用）指向在其他数据库中定义的其他实体或子图。例如，药物相互作用数据库中的药物可以与同一数据库内的另一种药物物质以及医学本体论中定义的疾病联系起来。原则上，在一个大型网络中可以表示所有这些子图，我们在这里称为数据网络。这种网络的优点在于它允许在同一系统内进行各种各样的查询并返回结果。在实践中，这样一个大网络的的建设是非常困难的。目前的解决方案是构建部分网络，允许人们回答与给定项目相关的几个问题。　　1.3 从数据库到数据网络　　图像数据网络构建的一种方法是获取癌基因或蛋白质的数据库，然后将其交叉引用到通用序列数据库，药物相关数据库等，这些数据库将形成各种类型的实体之间的网络，允许以统一的方式交叉查询不同的生物数据库。实际上，这样一个大型网络的建设是非常困难的，部分是因为本体的不兼容性，部分是因为网络规模庞大。这些数据网络的设计在很大程度上由能够处理任意一组生物实体和关系的数据库框架所推动。　　“强”的元件之间的结构关联。　　1.4 机器学习方法　　基于数据的机器学习方法可以分为监控学习、非监控学习以及介于两者之间的半监控学习。机器学习常用的分类方法包括：决策树（Decision tree）、K 最近邻法（K-Nearest Neighbor， KNN 法）、支持向量机（Suport Vector Machine， SVM法）、向量空间模型（Vector Space Model， VSM 法）、贝叶斯法（Bayes 法）、神经网络（Artificial Neutral Networks， ANN or NN）等等，以及从而衍生出来的各种方法。　　第2章数据库和方法　　本章摘要本章从整体上介绍了研究内容，首先介绍了用来分析网络数据的方法（随机步行算法pagerank），和在数据库中分析数据相似性的网络排名算法。之后介绍了数据预处理和网络目标重?B得分，以便于分析药物对与同一靶标作