用于T细胞表位预测分类器集成方法.docVIP

下载本文档

24
0
约6.44千字
约 13页
2018-09-15 发布于福建
举报
版权申诉

用于T细胞表位预测分类器集成方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用于T细胞表位预测分类器集成方法

用于T细胞表位预测分类器集成方法　　摘要：T细胞表位预测技术对于减少实验合成重叠肽，理解T细胞介导的免疫特异性和研制亚单位多肽及基因疫苗均有重要意义。为弥补已有基于机器学习方法的T细胞表位预测模型的可理解性的不足并进一步提高模型的预测精度，首先通过肽的预处理构建出了存储等长肽段的决策表，而后提出了基于粗糙集的分类器集成算法。该算法不但综合利用了基于信息熵的属性约简完备算法和其他属性约简算法的优势，而且将T细胞表位预测领域中的锚点知识融入到了属性值约简过程中。最后利用该算法来预测MHC Ⅱ类分子HLA DR4(B1*0401)的结合肽，首次提取出了预测精度高且能帮助专家理解MHC分子与抗原肽的结合机理的产生式规则，为下一步的分子建模工作奠定了基础。　　关键词：T细胞表位预测; 粗糙集; 规则获取; 分类器集成　　中图分类号：TP18文献标志码：A 　　文章编号：1001－3695(2008)01－0050－03 　　　　0引言?? 　　　　T细胞表位（T cell epitope）是指抗原经过抗原提呈细胞（APC）加工后，由主要组织相容性复合体（MHC）分子提呈给T细胞受体(TCR)的短肽。由于MHC、抗原肽和TCR有极大多样性，故三者之间可能存在的组合几乎是无穷的。而通过纯生物实验去寻找所需要的抗原肽（表位）几乎是不可能的。这样，就必须借助于计算机的海量数据处理能力，从数百万的蛋白质里找出既能与特定的MHC分子结合，又能与特定TCR结合的抗原肽，此过程被称为T细胞表位预测。该预测技术对于减少实验合成重叠肽，理解T细胞介导的免疫特异性和研制亚单位多肽及基因疫苗具有重要意义。在现阶段，T细胞表位预测技术的研究仅限于抗原肽与MHC分子的结合这一环节，而未涉及到TCR与抗原肽-MHC分子复合物的特异性结合、抗原加工及肽转运过程等。本文的研究正是围绕抗原肽与MHC分子的结合性展开的。?? 　　迄今为止，T细胞表位预测技术的研究方法主要分为以下几类[1]：基于基序的方法、基于量化矩阵的方法、基于结构的方法和基于机器学习的方法。与前三类方法相比，第四类方法由于能处理复杂的非线性模式，具有较强的自适应和自学习能力，故能明显提高预测准确性。然而，目前基于机器学习的T细胞表位预测模型主要集中于ANNs、HMMs和SVM等的应用上，而这些训练成功的预测模型所包含的知识蕴涵在大量的参数中，这使得专家无法直观理解模型所掌握的分类知识及其推理过程。而T细胞表位预测模型的可理解性对于进一步了解T细胞介导的免疫特异性以及帮助生物学专家理解其自身的推理过程均具有重要意义，因而迫切需要找到一种易于人们理解且具有较强推广能力的预测模型。?? 　　Pawlak提出的粗糙集理论为自动规则获取提供了一种值得尝试的方法。其基本思想是在保持分类能力不变的前提下，通过对类似于数据库表的决策表进行数据约简，即属性约简和属性值约简，归纳出易于人们理解的分类规则。由于属性约简的质量影响着决策规则的繁简和性能，因此一系列基于不同启发性知识的属性约简算法被提出来了[2~4]。于是一个很自然的问题是：如何综合各属性约简算法的优点以提高获取到的规则集分类器的推广能力。在本文中，笔者构造了一个基于粗糙集的分类器集成，即利用有限个单个规则集分类器对同一问题进行学习，且其对某输入样本的分类结果则由这有限个单个规则集分类器对该输入样本的分类结果共同决定。?? 　　　　1系统原型?? 　　　　根据对T细胞表位预测机理的理解，首先通过肽的预处理把一个生物学问题转换为一个可供计算的数学问题；然后利用基于粗糙集的分类器集成算法和相关锚点知识构建一个计算模型来提取有效的预测MHC Ⅱ类结合肽的规则。1．1肽的预处理?? 　　MHC Ⅱ类分子具有高度多态性的细胞表面结构，其凹槽的两端是开放的。与MHCⅡ类分子相结合的肽段会延伸至凹槽之外，且其长度变化较大（10~30个氨基酸）。然而MHCⅡ类分子结合肽的核心区约为13个氨基酸残基；进一步的研究表明，其中仅有9个氨基酸所组成的肽段（简称为九肽）实为与MHC Ⅱ类分子结合所必需。对于九肽而言，其中一个主要锚定残基是结合所必需的，而其他几个次级锚定残基则会影响其结合能力。因此，肽的预处理的目的是把不等长的肽段转变为九肽。其流程是：在固定了一个初级锚点后，利用遗传算法来优化联配矩阵[5]，然后利用获得的联配矩阵来获取九肽。具体地，在对结合性肽段进行预处理的时候，先固定一个初级锚点，然后针对每一条肽段找出所有可能的候选九肽，接着利用优化的联配矩阵来给候选九肽打分，得分最高的某条候选九肽则被看做其对应的肽段的预处理结果；并且预处理后的九肽的亲和力类别即为预处理前的原肽段的亲和力类别。而对于非结合性肽段而言，在固定一个初级锚点后