摘要
由于其卓越的性能,基于“编码器-解码器”范式的Transformer模型已成为自然语言处理的主流模型。然而,生物信息学已经接受了机器学习,并在药物设计和蛋白质特性预测方面取得了显着进展。细胞穿透肽 (CPP) 是一种可渗透的蛋白质,是药物穿透任务中方便的“邮递员”。然而,仅发现了少数CPP,限制了它们在药物渗透性方面的实际应用。 CPP 导致了一种新方法,该方法能够仅将大分子吸收到细胞中(即,在药物中没有发现其他潜在有害物质)。以前的大多数研究都利用简单的机器学习技术和手工制作的特征来构建一个简单的分类器。 CPPFormer 是通过实现 Transformer 的注意力结构,根据 CPP 的短长度的特点重建网络,并使用带有一些人工设计特征的自动特征提取器来共同指导预测结果而构建的。与以往所有方法和其他经典文本分类模型相比,实证结果表明,我们提出的基于深度模型的方法取得了最佳性能,在 CPP924 数据集上的准确率为 92.16%,并且通过了各种指标测试。
关键词: 细胞穿透肽、深度学习、药物穿透、变压器、特征提取器、分类。
[http://dx.doi.org/10.1038/s41573-019-0050-3] [PMID: 31801986]
[http://dx.doi.org/10.2174/1574893611666160618094219]
[http://dx.doi.org/10.1158/1535-7163.MCT-06-0100] [PMID: 16985061]
[http://dx.doi.org/10.1016/j.addr.2009.06.001] [PMID: 19538995]
[http://dx.doi.org/10.1021/bm301275g] [PMID: 23215041]
[http://dx.doi.org/10.1242/jcs.063016] [PMID: 20554895]
[http://dx.doi.org/10.1007/978-1-59745-419-3]
[http://dx.doi.org/10.1021/cb100423u] [PMID: 21291271]
[http://dx.doi.org/10.2174/1574893613666181113131415]
[http://dx.doi.org/10.1016/0092-8674(88)90263-2] [PMID: 2849510]
[http://dx.doi.org/10.1371/journal.pcbi.1002101] [PMID: 21779156]
[http://dx.doi.org/10.1093/database/bas015] [PMID: 22403286]
[http://dx.doi.org/10.1093/nar/gkv1266] [PMID: 26586798]
[http://dx.doi.org/10.1186/s12864-017-4128-1] [PMID: 29513192]
[http://dx.doi.org/10.1021/acs.jproteome.8b00322] [PMID: 30032609]
[http://dx.doi.org/10.2174/1574893614666181212102749]
[http://dx.doi.org/10.1093/bib/bbaa017] [PMID: 32065211]
[http://dx.doi.org/10.1016/j.bbrc.2016.06.035] [PMID: 27291150]
[http://dx.doi.org/10.1016/j.addr.2007.09.003] [PMID: 18045726]
[http://dx.doi.org/10.2174/157340910791202478] [PMID: 20402661]
[http://dx.doi.org/10.2174/1574893614666190723120716]
[http://dx.doi.org/10.2174/1574893614666181123155831]
[http://dx.doi.org/10.1093/bioinformatics/btt518] [PMID: 24064418]
[http://dx.doi.org/10.1007/s00726-015-1974-5] [PMID: 25894890]
[http://dx.doi.org/10.1093/bib/bby091] [PMID: 30239616]
[http://dx.doi.org/10.1007/s10822-020-00307-z] [PMID: 32180124]
[http://dx.doi.org/10.1093/bib/bby124] [PMID: 30649170]
[http://dx.doi.org/10.2174/1574893612666170707094916]
[http://dx.doi.org/10.1002/prot.1035] [PMID: 11288174]
[http://dx.doi.org/10.1109/MCI.2018.2840738]
[http://dx.doi.org/10.2200/S00416ED1V01Y201204HLT016]
[http://dx.doi.org/10.18653/v1/W18-5105]
[http://dx.doi.org/10.2174/1574893613666181112141724]
[http://dx.doi.org/10.1162/neco.1997.9.8.1735] [PMID: 9377276]
[http://dx.doi.org/10.2174/1574893614666190902154332]
[http://dx.doi.org/10.18653/v1/P18-1008]
[http://dx.doi.org/10.1101/864405]
[http://dx.doi.org/10.1101/2020.03.07.98227]
[http://dx.doi.org/10.1101/622803]
[http://dx.doi.org/10.1016/j.cell.2019.05.031] [PMID: 31178118]
[http://dx.doi.org/10.1155/2016/5413903] [PMID: 27597968]
[http://dx.doi.org/10.1155/2016/1654623] [PMID: 27437396]
[http://dx.doi.org/10.1016/S0169-7552(97)00031-7]
[http://dx.doi.org/10.7150/ijbs.24174] [PMID: 29989085]
[http://dx.doi.org/10.1073/pnas.89.22.10915] [PMID: 1438297]
[http://dx.doi.org/10.2174/1574893614666191105160633]
[http://dx.doi.org/10.1016/j.knosys.2019.04.025]
[http://dx.doi.org/10.1016/j.omtn.2019.04.019] [PMID: 31146255]
[http://dx.doi.org/10.1093/bioinformatics/bty1047] [PMID: 30590410]
[http://dx.doi.org/10.1093/bioinformatics/btz694] [PMID: 31588505]
[http://dx.doi.org/10.1109/TCBB.2013.146] [PMID: 26355518]
[http://dx.doi.org/10.1016/j.artmed.2017.02.005] [PMID: 28245947]
[http://dx.doi.org/10.1109/TCBB.2017.2670558] [PMID: 28222000]
[http://dx.doi.org/10.1016/j.artmed.2017.03.001] [PMID: 28320624]
[http://dx.doi.org/10.2174/1574893614666190723114923]
[http://dx.doi.org/10.1016/j.csbj.2020.03.028] [PMID: 32308930]
[http://dx.doi.org/10.1021/acs.jproteome.9b00012] [PMID: 30698979]
[http://dx.doi.org/10.1016/0005-2795(75)90109-9] [PMID: 1180967]
[http://dx.doi.org/10.1093/bib/bbaa255] [PMID: 33099604]
[http://dx.doi.org/10.1016/j.knosys.2018.10.007]
[http://dx.doi.org/10.1109/TCBB.2017.2666141] [PMID: 28186907]
[http://dx.doi.org/10.1016/j.jpdc.2017.08.009]
[http://dx.doi.org/10.1093/bib/bby107] [PMID: 30383239]
[http://dx.doi.org/10.1021/acs.jproteome.7b00019] [PMID: 28436664]
[http://dx.doi.org/10.3115/v1/D14-1181]
[http://dx.doi.org/10.18653/v1/P16-2034]
[http://dx.doi.org/10.1038/s41586-021-03819-2] [PMID: 34265844]
[http://dx.doi.org/10.1016/j.ymeth.2019.02.009] [PMID: 30772464]
[http://dx.doi.org/10.1093/bib/bbz022] [PMID: 30868164]
[http://dx.doi.org/10.1109/TCBB.2018.2858756] [PMID: 30040651]
[http://dx.doi.org/10.1016/j.omtn.2018.07.004] [PMID: 30081234]
[http://dx.doi.org/10.1093/bib/bbz021] [PMID: 30860571]
[http://dx.doi.org/10.1093/bib/bbaa278]
[http://dx.doi.org/10.1093/bib/bbaa275] [PMID: 33152766]