厦门免费医学论文发表-用于多标记治疗肽预测的边际焦点骰子丢失的多特征融合网络

2025-10-28

厦门免费医学论文发表-用于多标记治疗肽预测的边际焦点骰子丢失的多特征融合网络

毛一军,翁玉荣,翁健,李明,顾万荣,庞瑞,林旭东,熊云艳 ,邓德宇

发布时间:2025 年 10 月 27 日



抽象

准确预测多功能治疗肽的功能对于相关药物的开发至关重要。然而,现有的肽功能预测方法主要依赖于单一类型的特征或单一模型架构,限制了预测的准确性和适用性。此外,在存在类不平衡问题的数据集上训练性能更好的模型仍然是一项重大挑战。在这项研究中,我们提出了多功能治疗肽的多功能融合预测(MFTP_MFFP)模型,这是一种预测多功能治疗肽功能的新方法。这种方法使用各种编码技术来处理肽序列数据,生成多个特征,帮助模型学习序列中的隐藏信息。为了最大限度地发挥这些特征的有效性,我们提出了一种有效集成它们的门控特征融合模块。该模块为每个特征分配可学习的门控权重,优化集成并提高聚变效率。然后将融合的特征传递到神经网络模型中进行特征提取。此外,我们提出了一个边际焦点骰子损失函数(MFDL)来解决类别不平衡并提高模型的预测性能。实验结果表明,MFTP_MFFP模型在所有评估指标上都优于现有模型,证明了其在多功能治疗肽预测任务中的鲁棒性和有效性。


作者总结

了解多功能治疗肽 (MFTP) 的生物学复杂性和序列模糊性对于开发稳健的预测模型至关重要。在这项工作中,我们提出了MFTP_MFFP,这是一个统一的深度学习框架,它将生物领域知识与自适应架构策略相结合。与以前依赖固定结构或单源编码的方法不同,我们的方法集成了通过模糊变换处理的多种生物学特征(包括统计、物理化学和进化编码),以增强对不确定性的鲁棒性。通过结合基于图的建模和门控特征融合,该框架捕获了顺序信号和拓扑信号。我们不是盲目地深化网络,而是强调结构适应性和生物学相关性。我们希望这项工作能为未来基于肽的预测任务提供对特征融合、不平衡感知损失设计和进化优化的见解。


介绍

近年来,生物活性肽因其有前途的治疗应用以及肽合成和分析技术的不断进步而受到越来越多的关注[1]。其中,以短氨基酸(AA)序列为特征的MFTP因其多样化的生物活性而变得特别有价值。这些肽在农业、医学和微生物学等多个学科中发挥着关键作用,可作为激素、生长因子、神经递质、离子通道配体和抗感染剂等有效发挥作用[2]。人们对其多功能功能的日益认可凸显了预测其生物学作用的准确可靠方法的必要性。


为了推进肽研究,人们在建立全面的肽序列数据库方面做出了大量努力[3\u20125]。与此同时,机器学习已成为预测肽功能的强大方法,揭示了对其多样化生物活性的新见解。然而,现有的计算方法仍然面临显着的局限性。例如,Xu等提出了一种基于卷积神经网络(CNN)的方法,取得了值得称赞的性能,但该方法没有充分利用肽序列中氨基酸的结构和位置细节,可能限制了特定功能类别的预测精度[6]。Yan 等人开发了 PrMFTP,这是一种采用深度神经网络 (DNN) 的多标签预测器。尽管有这种创新,但他们的模型没有充分结合特征预处理技术来增强训练过程中的鲁棒性[7]。此外,Fan等人引入了一种多标签焦点骰子损失(MLFDL),结合了焦点损失[8]和骰子损失[9],以及文本卷积技术。然而,他们的方法将肽序列视为纯线性字符串,忽略了准确捕获其生物学功能所必需的潜在物理化学特征[10]。


此外,肽数据集中常见的严重类不平衡仍然没有得到传统损失函数的充分解决,导致模型不成比例地关注多数类,而无法准确预测少数类,而少数类通常代表生物学上显着但罕见的功能。尽管之前的研究试图缓解阶级不平衡,但对有效强调少数群体阶层的关注不足,从而凸显了需要解决的关键差距,以提高整体预测的准确性和可靠性。


为了解决现有方法的局限性,我们提出了一种名为 MFTP_MFFP 的新颖预测框架。该模型引入了几项关键创新,旨在增强肽序列的表示和解释。我们采用五种互补的生物学特征编码策略来捕获氨基酸的不同物理化学和功能特征。这些编码通过模糊化技术进一步细化,有助于模型更有效地处理不确定性和生物学模糊性,从而提高其鲁棒性和泛化能力。为了更好地表示肽序列的空间结构,我们将其转换为邻接矩阵,并使用图注意力卷积(GATConv)[11]提取精细的位置特征,捕获传统基于序列的模型经常忽视的残基之间的空间关系。此外,我们还设计了一个门控特征融合模块来整合这些异构特征,使模型能够自适应地权衡不同特征源的重要性,并实现一致和高效的特征聚合。最后,为了缓解肽数据集中常见的类不平衡问题,我们引入了一种新的损失函数MFDL,它结合了标签分布感知裕度(LDAM)[12]和MLFDL的优势。该函数动态调整每个样本的边距并重新加权困难实例,从而增强模型识别代表性不足的功能类的能力,并提高整体预测性能。


结果

不同的多标签预测模型

我们提出了四种基于CNN的多标签预测模型,旨在解决多标签预测任务固有的复杂性。这些模型通过多样化的架构设计和先进的特征提取技术提高了预测的准确性和鲁棒性。为确保绩效评估的公平性,采用了五重交叉验证方法[13]。所有模型都在同一数据集上进行训练和评估,以保持一致性和可比性。表 1 总结了测试集上每个模型的详细性能指标。实验结果表明,MFTP_MFFP模型在测试阶段始终优于其他模型,在预测准确性和稳健性方面都取得了卓越的结果。MFTP_MFFP模型集成了具有各种特征类型的BiLSTM [14\u201215]和CNN层,可以更全面地理解序列信息。此外,利用门特征融合模块无缝集成多个来源的信息,从而提高决策准确性。


总之,MFTP_MFFP模型的创新架构和先进的特征提取技术使其能够有效管理多标签预测任务的复杂性,在训练和测试阶段都实现卓越的性能。


消融分析

我们进行了广泛的消融研究,以全面评估MFTP_MFFP模型中每个组成部分的重要性。消融研究包括两部分:模块消融和特征消融。消融实验的结果总结在表2中。该分析的主要目的是评估每个模块和特征对整体模型性能的独立贡献。通过系统地删除或修改特定的模块和功能,我们旨在阐明它们对模型架构的影响。为确保结果稳健可靠,采用了五重交叉验证方法。首先,将包含所有设计模块的完整MFTP_MFFP模型作为性能比较的基线模型。然后构建多个模型变体,每个变体删除一个特定的模块或功能。所有其他超参数都保持不变,以确保观察到的任何性能差异都可以完全归因于相应模块或功能的缺失。对于模块烧蚀,除门控特征融合模块外,所有模块均被直接移除。由于门控特征融合模块涉及多个特征的集成,因此我们通过简单地对齐特征尺寸后对其求和来代替它。对于特征消融,我们为消融后的特征分配了零,以衡量其对模型性能的贡献。


具体来说,在模块层面,GAT有助于从图结构化数据中有效提取位置信息;BiLSTM 捕获序列中每个位置的上下文依赖关系;GMF 通过使用高斯隶属函数模糊化生物特征来增强模型鲁棒性;门控特征融合模块通过可学习的门控权重优化多个特征的集成。在特征层面,嵌入编码器为下游建模提供基本结构信息;注意力编码器利用多头注意力来捕获远距离残基相互作用;AAIndex [16]编码提供了氨基酸的理化性质,增强了模型泛化到不同序列的能力;PAAC专注于序列的微排列,这对于区分具有相似组成但功能不同的肽至关重要;PC6编码提供了紧凑而有效的生化视角,在参数或样品有限时特别有价值;BLOSUM62编码有助于识别保守但功能关键的残基片段;AAC [17]编码捕捉肽的总体生物学偏好;基于图的编码捕获局部片段之间的结构关系。值得注意的是,删除任何单个模块或功能始终会导致多个性能指标下降,这表明每个模块和功能都对模型的整体性能做出了积极贡献。


总之,消融研究为MFTP_MFFP模型内模块和特征之间的相互依赖和协同作用提供了有力的证据。


不同损失函数的性能对比

类失衡是多标签预测任务中常见且持续存在的挑战,与其他功能类别相比,某些功能类别的代表性明显不足。这种不平衡往往会扭曲学习过程,导致传统的损失函数过度偏向多数类,导致对稀有类别的识别不理想。因此,使用标准目标函数训练的模型可能会实现较高的总体准确性,但无法有效捕获关键的少数群体信息。


为了解决这个问题,我们提出了 MFDL,这是一种专门设计用于增强少数族裔类在训练期间学习的损失函数。MFDL 整合了两个关键策略:(1) 为代表性不足的类别分配更高的权重以抵消其低频率,以及 (2) 引入受标签分布感知方法启发的基于边距的调整,以有效扩大少数类别的决策边界边距。这种双重策略鼓励模型更多地关注困难或罕见的标签,而不会牺牲整体预测稳定性或增加过度拟合的风险。


为了严格评估MFDL的有效性,我们对几种广泛使用的损失函数进行了比较实验,包括AsymmetricLoss [18]、BCEWithLogitsLoss、MLFDL和LDAM。所有实验都遵循标准化的五重交叉验证协议,以确保统计稳健性并最大限度地减少抽样偏差。每个模型变体都保持相同的架构和训练程序,以隔离损失函数的影响。表3总结的比较结果表明,在大多数主要评估指标中,使用MFDL训练的MFTP_MFFP模型始终优于其他变体。尽管 LDAM 的覆盖率略高,但 MFDL 提供了更平衡的表现,有效地提高了少数群体的认可度,同时保持了具有竞争力的整体指标。


为了进一步验证MFDL的优越性,特别是其在各个类别上的性能,我们绘制了每个功能类别的ROC曲线,并使用曲线下面积(AUC)作为总体性能指标来评估模型在每个类别中的分类能力。这种方法可以更直接地评估损失函数的有效性。鉴于类别数量众多,我们从 ROC 曲线中提取了 AUC 值,并将它们呈现为条形图,以更直观地说明模型在低频类别上的性能。这些结果如图1所示。结果表明,用MFDL训练的模型在大多数类别中都取得了最高的AUC,进一步证实了MFDL在减轻失衡相关偏差方面的有效性,并实现了更全面、更可靠的功能肽预测。


MFTP_MFFP与现有方法的性能比较

为了进一步验证MFTP_MFFP模型的有效性,我们与几种最先进的氨基酸序列功能预测方法进行了比较实验。选定的基线包括MPMABP [19]、MLBP [20]、SP-RNN [21]、PrMFTP、ETFC和MFTP-TOOL [22],所有这些都代表了该领域的强有力基准。这些比较提供了对MFTP_MFFP相对于领先方法的能力的全面评估。


为了确保公平和一致的比较,所有模型都在同一数据集上进行了训练和评估,使用相同的训练拆分和预处理管道。为了进一步减少随机抽样的影响并增强鲁棒性,我们随机选择了 80% 的原始测试集来构建五个不同的验证子集。在这些子集上评估每个模型,并对结果进行平均,以获得所有指标的可靠性能估计值。如表 4 所示,MFTP_MFFP 模型在关键评估指标上始终优于所有其他基线方法。观察到的改进可归因于 MFTP_MFFP 的独特设计,它集成了不同的特征编码策略和先进的神经网络组件。与传统模型不同,MFTP_MFFP通过结合 BiLSTM、CNN、GATConv 和门控融合模块提取全面的序列级表示。MFDL 的结合还通过有效解决阶级不平衡来增强模型检测代表性不足的阶级的能力。


总体而言,这些结果表明,与现有方法相比,MFTP_MFFP 实现了卓越的预测性能。其架构创新和强大的学习策略使其成为多标记氨基酸序列功能预测的强大工具。


讨论

在这项研究中,我们提出了MFTP_MFFP模型,这是一种专门为预测多功能治疗肽(MFTP)的功能而定制的新型深度学习架构。该模型集成了多项关键创新,包括旨在减轻严重类不平衡影响的边际焦点骰子损失 (MFDL) 功能,以及动态加权和集成多种异构特征类型的门控特征融合模块。此外,该模型还结合了图注意力卷积,以有效捕获残基级相互作用和拓扑模式,以及多个生物学相关的序列编码和特征模糊化层,以增强表示的灵活性和鲁棒性。


广泛的实验表明,MFTP_MFFP模型表现出强大的能力来捕获嵌入肽序列中的复杂功能和结构模式,在多个评估指标上优于现有方法。MFDL 组件有助于实现更加平衡的训练过程,提高对代表性不足的肽类别的识别,而融合模块则确保来自不同来源的补充信息得到最佳利用。


我们相信MFTP_MFFP模型作为加速 MFTP 发现和表征的有效计算工具具有巨大的前景。在现实场景中,该模型可用于预筛选大规模肽库,以识别多功能候选药物,例如同时具有抗癌和抗菌活性的肽,从而大大减少实验工作量。这一预筛选步骤可以通过优先考虑下游合成、体外和体内验证的肽来简化药物开发管道。此外,该模型可以嵌入到肽工程工作流程中,促进新型治疗药物的合理设计,并降低与早期药物发现相关的成本和时间。


综上所述,所提出的MFTP_MFFP模型在预测多功能治疗肽方面取得了较强的性能,验证了所提方法的有效性。本研究为肽功能筛选提供了一种可行的计算方法,并为将深度学习技术应用于生物序列分析提供了实践经验。


引用

1.达里里 EB-M、李 BH、哦 DH。生物活性肽的当前趋势和前景。Crit Rev 食品科学营养。 2018; 58(13):2273–84. PMID:28604060

查看文章考研/NCBI谷歌学术

2.王 L、王 N、张 W、程 X、Yan Z、邵 G 等。治疗肽:当前应用和未来方向。信号转导靶点 ther。 2022; 7(1):48. PMID:35165272

查看文章考研/NCBI谷歌学术

3.APD3:抗菌肽数据库作为研究和教育工具。核酸研究 2016;44(D1):D 1087-93。PMID:26602694

查看文章考研/NCBI谷歌学术

4.Mathur D、Mehta A、Firmal P、Bedi G、Sood C、Gautam A 等。TopicalPdb:局部递送肽的数据库。公共科学图书馆一号。 2018; 13(2):e0190134。PMID:29432422

查看文章考研/NCBI谷歌学术

5.He B, Yang S, Long J, Chen X, Zhang Q, Gao H, et al. TUPDB:靶标无关肽数据库。跨学科科学 2021; 13(3):426–32. PMID:33993461

查看文章考研/NCBI谷歌学术

6.Xu J、Li F、Li C、Guo X、Landersdorfer C、Shen H-H 等人。iAMPCN:一种用于识别抗菌肽及其功能活性的深度学习方法。简要生物信息。 2023; 24(4):bbad240。PMID:37369638

查看文章考研/NCBI谷歌学术

7.Yan W, Tang W, Wang L, Bin Y, Xia J. PrMFTP:基于多头自注意力机制和类权重优化的多功能治疗肽预测.公共科学图书馆计算生物学 2022;18(9):e1010511。PMID:36094961

查看文章考研/NCBI谷歌学术

8.Lin T. 用于密集物体检测的焦损。arXiv 预印本 2017。

查看文章谷歌学术

9.Li X, Sun X, Meng Y, Liang J, Wu F, Li J. 数据不平衡 NLP 任务的骰子损失。arXiv 预印本 2019。https://arxiv.org/abs/1911.02855

10.Fan H, Yan W, Wang L, Liu J, Bin Y, Xia J. 基于深度学习的多功能治疗肽预测,具有多标记焦点骰子丢失函数。生物信息学。2023;39(6):BTAD334。PMID:37216900

查看文章考研/NCBI谷歌学术

11.Velickovic P、Cucurull G、Casanova A、Romero A、Lio P、Bengio Y. 图注意力网络。2017 年统计;1050(20):10–48550.

查看文章谷歌学术

12.Cao K, Wei C, Gaidon A, Arechiga N, 马 T. 学习具有标签分布感知边际损失的不平衡数据集。神经信息处理系统的进展。2019;32.

查看文章谷歌学术

13.Fushiki T. 使用 K 折交叉验证估计预测误差。统计计算。2009;21(2):137–46.

查看文章谷歌学术

14.了解 LSTM——长短期记忆循环神经网络教程。arXiv 预印本 2019。https://arxiv.org/abs/1909.09586

15.西亚米-纳米尼 S、塔瓦科利 N、纳明 AS。LSTM和BiLSTM在预测时间序列中的表现。在:2019 年 IEEE 大数据国际会议(大数据)。2019. 第 3285-92 页。

16.Kawashima S, Kanehisa M. AAindex:氨基酸指数数据库。核酸研究 2000;28(1):374.PMID:10592278

查看文章考研/NCBI谷歌学术

17.Chen Z, Liu X, Zhao P, Li C, Wang Y, Li F, et al. iFeatureOmega:一个用于工程、可视化和分析分子序列、结构和配体数据集特征的综合平台。核酸研究 2022;50(W1):W434–47。PMID:35524557

查看文章考研/NCBI谷歌学术

18.Ridnik T、Ben-Baruch E、Zamir N、Noy A、Friedman I、Protter M 等。多标签分类的不对称损失。在:2021 年 IEEE/CVF 计算机视觉国际会议 (ICCV)。2021. 第 82-91 页。https://doi.org/10.1109/iccv48922.2021.00015

19.Li Y, Li X, Liu Y, Yao Y, Huang G. MPMABP:一种基于 CNN 和 Bi-LSTM 的生物活性肽多活性预测方法。制药(巴塞尔)。2022;15(6):707.PMID:35745625

查看文章考研/NCBI谷歌学术

20.唐 W、戴 R、Yan W、张 W、Bin Y、夏 E 等。利用多标签深度学习鉴定多功能生物活性肽功能。简要的生物信息。2022;23(1):bbab414。PMID:34651655

查看文章考研/NCBI谷歌学术

21.Otović E、Njirjak M、Kalafatovic D、Mauša G. 基于循环神经网络的治疗肽预测的顺序属性表示方案。J Chem Inf 模型。2022;62(12):2961–72.PMID:35704881

查看文章考研/NCBI谷歌学术

22.Lv Y, Liu T, 马 Y, Lyu H, Liu Z. MFTP-Tool:用于多功能治疗肽预测的广泛深度学习框架。CBIO。2025;20(1):1–17.

查看文章谷歌学术

23.Vaswani A. 你只需要关注。神经信息处理系统的进展。2017.

查看文章谷歌学术

24.Chu Y、Zhang Y、Wang Q、Zhang L、Wang X、Wang Y、et al.一种基于变压器的模型,用于预测肽-HLA I 类结合并优化突变肽以进行疫苗设计。纳特·马赫·英特尔。2022;4(3):300–11.

查看文章谷歌学术

25.吴 X, 张 YT, 赖 KW, 杨 MZ, 杨 GL, 王 H-H.一种新型的集中式联邦深度模糊神经网络,具有多目标神经架构搜索,用于上位性检测。IEEE Trans Fuzzy Syst. 2025;33(1):94–107.

查看文章谷歌学术

26.哈米德爱荷华州。使用高斯隶属函数提高学生评估系统的可靠性和鲁棒性。具有应用程序的专家系统。2011;38(6):7135–42.

查看文章谷歌学术

27.Grasemann H、Shehnaz D、Enomoto M、Leadley M、Belik J、Ratjen F. 囊性纤维化气道中的 L-鸟氨酸衍生多胺。公共科学图书馆一号。2012;7(10):e46618。PMID:23071598

查看文章考研/NCBI谷歌学术

28.宋 FV、苏 J、黄 S、张 N、李 K、倪 M 等。DeepSS2GO:从二级结构预测蛋白质功能。简要的生物信息。2024;25(3):bbae196。PMID:38701416

查看文章考研/NCBI谷歌学术

29.Kondo HX, Iizuka H, Masumoto G, Kabaya Y, Kanematsu Y, Takano Y. 通过卷积神经网络从血红素蛋白中活性位点的三级结构预测蛋白质功能。生物分子。2023;13(1):137.PMID:36671521

查看文章考研/NCBI谷歌学术

30.Cagiada M、Bottaro S、Lindemose S、Schenstrøm SM、Stein A、Hartmann-Petersen R 等。发现蛋白质中功能上重要的位点。纳特公社。2023;14(1):4175.PMID:37443362

查看文章考研/NCBI谷歌学术

31.Saha S、Chatterjee P、Basu S、Nasipuri M、Plewczynski D. FunPred 3.0:使用蛋白质相互作用网络改进蛋白质功能预测。同行J.2019;7:e6830。PMID:31198622

查看文章考研/NCBI谷歌学术

32.吴 Z,潘 S,陈 F,龙 G,张 C,余 PS。图神经网络综合综述。IEEE 跨神经网络学习系统 2021;32(1):4–24.PMID:32217482

查看文章考研/NCBI谷歌学术

33.汉 J,莫拉加 C.sigmoid 函数参数对反向传播学习速度的影响。在:人工神经网络国际研讨会。1995. 第 195-201 页。

34.Mirjalili S, Mirjalili S. 遗传算法。进化算法和神经网络:理论与应用。2019. 第 43-55 页。

35.Xu B. 卷积网络中整流激活的实证评估。arXiv 预印本 2015。https://arxiv.org/abs/1505.00853


阅读3
分享
写下您的评论吧