近年来,癌症患者越来越多,并且癌症的死亡率也在不断增加。对于大多数癌症患者来说,传统的物理和化学治疗方法不仅昂贵而且效率不高。此外,一些抗癌药物在杀死癌细胞的同时也会损害正常细胞,患者长时间服用这些药物会使癌细胞产生耐药性。因此,迫切的需要开发新的更加有效的药物。而多肽作为一种高特异性、选择性和对人体伤害小的安全可靠的治疗候选药物,近年来备受研究者的青睐。随着多肽药物数据的增加以及机器学习算法的快速发展,挖掘多肽药物特征以进行新药设计成为一个科研研究热点。尽管研究者基于机器学习算法在多肽的识别和预测等问题上取得了颇为丰富的成果,但在特征提取、分类方法以及多肽设计方面仍可进一步研究。基于机器学习的理论,本学位论文研究了氨基酸-氨基酸之间的特征关系、多肽药物的识别以及生成多肽药物相关问题,具体研究工作概述如下:1.抗癌多肽药物中氨基酸-氨基酸的特征研究。在研究多肽中氨基酸-氨基酸之间的特征关系时,仅考虑序列的信息是远远不够的。鉴于此,本文除了考虑相邻二肽和带有间隔的二肽之间的关系,还考虑了二级结构的信息,即判断氨基酸和氨基酸之间是否处于相同的二级结构,并设计了不同的打分规则,比较了网格搜索和随机搜索两种方法的预测精度和搜索时间,结果表明牺牲了少许预测准确性后,随机搜索比网格搜索的搜索时间将近减少了2000倍,因此将打分规则和随机搜索结合确定最佳的参数组合。为进一步探索多肽序列之间的关系,通过多序列比对寻找Protein Gel Electrophoresis序列间的相似性,对于发现生物序列中的功能、结构和进化的信息具有非常重要的意义。为辅助实验,本论文还提出了一种计算概率的方法来确定保守位置。2.基于机器学习识别抗癌多肽药物。在这个过程特征提取是至关重要的步骤,目前对于多肽序列表示方法的研究已经取得了一些研究成果,但是对多肽结构方面的研究相对较少。本研究以抗癌多肽和抗高血压多肽为研究对象,分别考虑了多肽的一级、二级、三级结构的信息,并且提出了一种新的描述多肽类药物的方法,使用复杂网络中的拓扑属性值(度、接近中心性、介数中心性)从各个层次方面描述多肽类药物。接着构建了支持向量机、K近邻、随机森林三种算法模型,为验证方法的有效性,将所提出的方法与其他两种方法进行比较。结果表明,与现有方法相比,该模型能够很好的预测抗癌多肽药物和抗高血压多肽药物。此外,模型的泛化能力通过构建3个独立的测试数据集得到了很好的验证。为了得到区分抗癌多肽药物和抗高血压多肽药物的显著特征,本文基于支持向量机递归特征消除的特征选择算法,根据权重排名,得到的重要特征为Trp、Ala、Asn、Val、Glu、Ile、Lys、Leu、Arg、Tyr;二级结构中三种类型为α-螺旋、转角以及卷曲;三级结构中得到的重要作用力为氢键和范德华力。为了验证所选特征的合理性,分别从两类多肽类药物的长度、一级序列中氨基酸的含量、氨基酸与八类二级结构的结合紧密度、三级结构中的强作用力和弱作用力的分布情况四个方面进行分析和讨论,发现它们与所选重要的特征是一致的。为了方便其他学者的研究,本文基于Django框架提供了一个免费的在线预测平台。3.基于长短期记忆网络生成抗癌多肽药物。抗癌多肽药物是一种抗击癌症的新型药物,因其毒性低、副作用小已被众多研究者当成治疗疾病的有效药物。然而,随着抗癌药物的耐药性不断上升,迫切需要生成新的抗癌多肽药物。本文首先分析了生成新的多肽序列方法的研究现状,着重介绍了基于长短期记忆网络算法生成新的多肽药物的原理,并指出了考虑函数分析和理化性质(疏水性、氨基酸频率以及电荷)来判断生成多肽药物的性能是不全面的。因此,加入双语评价研究等相关评价指标来计算生成序列和原始序列之间的相似性,以此来更好的评估生成多肽序列的性能。与此同时,将采样的新序列和原始序列输入到随机森林算法中进行预测,结果表明生成的序列是可靠的。综上,本论文首先以二肽为研究对象,分别基于一级结构和二级结构进行特征研究,基于多序列比对算法深入了解物种的序列保守性,从而可以识别PCI-32765说明书对多肽功能最关键的序列部分;接着提出了一种新的描述多肽类药物特征的方法,结合多肽的一级结构、二级结构和三级结构信息,并将其用于多肽药物的识别,实验结果表明本论文提出的方法能够更好的识别多肽药物,特征选择算法有助于挖掘多肽药物的关键特征,辅助后续学者的研究;最后基于长短期记忆网络算法生成新的多肽药物,并将采样的样本在函数分析、理化性质以及双语评价研究等相关评价指标上评估其性能。本论文的创新性主要体现在ABT-199临床试验从系统角度,用网络科学理论提取多肽特征,对两类药物进行准确识别,进一步挖掘两类多肽药物的关键特征,为分析和设计多肽类新药提供理论基础。