基于机器学习的抗体Fc段结合肽预测

噬菌体展示是一种多功能淘选技术,可选择结合特定靶标的多肽或抗体。各领域研究者使用各种各样的靶标淘选噬菌体展示随机多肽文库,通常能得到与靶标结合的多肽。抗体是最为常用的靶标之一。与抗体可变区结合的多肽不仅有助于确定该抗体识别的表位,还能用于相关疾病诊断与治疗。然而,在以抗体作为多肽噬菌体展示淘选靶标时,通常的目的是筛选得到与抗体可变区结合的多肽。但在实验结果中,有很多可能是与抗体可变区之外区域结合的多肽,如与抗体Fc段结合的多肽。此时,Fc结合肽就是一种靶标无关肽(target-unrelated peptides,TUP)。当然,倘若研究的目的就是解析Fc段与Fc受体相互作用或获得Fc结合肽用于开发抗体的亲和纯化配体,在这种情况下Fc结合肽就是我们想要的信号。无论上述何种情况,确定Fc结合肽都是非常有意义的。目前,还没有预测Fc段结合肽的生物信息学研究。本研究首先从已发表的文献中收集此前未录入的噬菌体随机多肽淘选数据,更新BDB数据库。然后从BDB数据库中收集了46条Fc结合肽、232条Fab结合肽以及9063条抗体结合肽。将232条Fab结合肽随机分为46、46、46、46和48五组,46条Fc段结合肽和前四组Fab结合肽分别作为训练集的阳性和阴性样本,构建四个子模型。采用i Featuimmune-related adrenal insufficiencyre提供的17种特征提取方法将序列转化为数值特征信息,进一步使用MRMD2.0工具对特征矩阵进行降维。使用支持向量机算法(SVM)对降维后特征进行建模,构建四个子模型,使用五折交叉检验对子模型进行评估,采用均值集成策略集成子模型,构建集成模型Fc Binder。此外还使用了朴素贝叶斯、logistic、决策树、KNN以及随机森林等其它机器学习算法建立预测模型与Fc Binder进行系统比较。使用生物淘选来源的9063条抗体结合肽与48条Fab结合肽组成作为测试集对模型可靠性进行评估;再使用非生物淘选来源的可与Fc段结合的多肽序列对模型泛化能力进行评估。最终SVM构建的FCobimetinib细胞培养c Binder集成预测模型效果最优。FcBinder预测准确度为84.8%,AUC达到了0.988。此外,使用不同的阴性样本构建了集成模型Fc Binder,并通过其它机器学习方法构建了五个集成模型。使用MRTX1133体外生物淘选来源的多肽数据以及Sp A结构域序列分别对所有模型进行性能评估。Fc Binder的预测结果最佳,因此,为了方便使用,提供Fc Binder的在线预测服务:http://i.uestc.edu.cn/Fc Binder/。