摘要
背景:越来越多的研究表明,长链非编码 RNA (lncRNA) 在人类疾病的各种生物学过程中发挥着重要作用。尽管如此,只有少数 lncRNA 与疾病的关联得到了实验验证。基于计算模型的lncRNA-疾病关联预测研究在很大程度上为生物学实验提供了初步依据,从而降低了湿实验室实验的巨大成本。 目的:本研究旨在从有限数量的已知 lncRNA 疾病关联数据中了解 lncRNA 疾病关联的真实分布。本文提出了一种基于生成对抗网络 (GAN) 的新 lncRNA 疾病关联预测模型,称为 LDA-GAN。 方法:针对传统GAN存在收敛速度慢、训练不稳定性、离散数据不可用等问题,LDA-GAN利用Gumbel-softmax技术构建可微分过程来模拟离散采样。同时,将 LDA-GAN 的生成器和判别器集成在一起,建立基于成对损失函数的整体优化目标。 结果:在标准数据集上的实验表明,LDA-GAN不仅在对抗学习过程中实现了高稳定性和高效率,而且充分发挥了生成对抗学习框架对未标记数据的半监督学习优势,进一步提高了预测精度lncRNA-疾病关联。此外,案例研究表明,LDA-GAN 可以准确地为几种 lncRNA 生成潜在疾病。 结论:我们引入了一种生成对抗模型来识别 lncRNA 与疾病的关联。
关键词: 生成对抗网络、LncRNA、疾病、成对损失、生成器、鉴别器
图形摘要
[http://dx.doi.org/10.1016/j.cell.2007.02.029]
[http://dx.doi.org/10.1007/978-1-4939-1369-5_1]
[http://dx.doi.org/10.1038/bjc.2013.233]
[http://dx.doi.org/10.1002/path.2638]
[http://dx.doi.org/10.1016/j.pnpbp.2016.06.004]
[http://dx.doi.org/10.1007/s11427-015-4941-1]
[http://dx.doi.org/10.1096/fj.10-172452]
[http://dx.doi.org/10.1128/mBio.00596-12]
[http://dx.doi.org/10.1016/j.tcb.2011.04.001]
[http://dx.doi.org/10.1016/j.urolonc.2011.11.030]
[http://dx.doi.org/10.1093/bioinformatics/btt426]
[http://dx.doi.org/10.1093/bioinformatics/btw639]
[http://dx.doi.org/10.1039/C4MB00511B]
[http://dx.doi.org/10.1038/s41598-018-19357-3]
[http://dx.doi.org/10.1039/C3MB70608G]
[http://dx.doi.org/10.1145/2556195.2556248]
[http://dx.doi.org/10.1093/bioinformatics/btx794]
[http://dx.doi.org/10.1093/nar/gks1099]
[http://dx.doi.org/10.1038/srep16840]
[http://dx.doi.org/10.18632/oncotarget.11141]
[http://dx.doi.org/10.18632/oncotarget.8296]
[http://dx.doi.org/10.1089/cmb.2012.0273]
[http://dx.doi.org/10.1002/mc.22919.]
[http://dx.doi.org/10.3389/fphys.2018.00321]
[http://dx.doi.org/10.1016/j.ygeno.2019.06.012]
[http://dx.doi.org/10.1186/s13148-018-0559-z]