厦门免费医学论文发表-对多种表观遗传特征的机器学习揭示了 H3K27Ac 是胶质母细胞瘤患者基因表达预测的驱动因素

2025-08-10

厦门免费医学论文发表-对多种表观遗传特征的机器学习揭示了 H3K27Ac 是胶质母细胞瘤患者基因表达预测的驱动因素

吹田佑介,小哈迪·布莱特 ,袁璞,梅里赫·德尼兹·托鲁纳,乔丹·艾德亨,尼科斯·塔皮诺斯 ,里坦巴拉·辛格厦门


抽象

表观遗传机制在驱动胶质母细胞瘤干细胞 (GSC) 的转录本表达和塑造表型可塑性方面发挥着至关重要的作用,有助于肿瘤异质性和治疗耐药性。这些机制动态调节关键致癌和干性相关基因的表达,使GSC能够适应环境线索并逃避靶向治疗。重要的是,表观遗传重编程允许 GSC 在细胞状态之间转换,包括治疗抵抗的间充质样表型,这强调了表观遗传靶向策略来破坏这些适应性过程的必要性。了解基因表达的这些表观遗传驱动因素为旨在根除 GSC 和改善胶质母细胞瘤结果的新型治疗干预措施奠定了基础。使用机器学习 (ML),我们通过结合各种来源的表观遗传特征(包括 ATAC-seq、CTCF ChIP-seq、RNAPII ChIP-seq、H3K27Ac ChIP-seq 和 RNA-seq)对 GSC 中的转录本表达进行跨患者预测。我们为此任务研究了不同的 ML 和深度学习 (DL) 模型,并最终使用 XGBoost 构建了我们的最终管道。在一名患者身上训练的模型推广到其他 11 名高性能患者。值得注意的是,仅来自一名患者的 H3K27Ac 就足以预测所有 11 名患者的基因表达。此外,H3K27Ac峰在所有患者基因组中的分布非常相似。这些发现表明,GSC具有以H3K27Ac为特征的增强子活性的共同分布模式,可用于预测患者GSCs的基因表达。总之,虽然 GSC 以其转录组学和表型异质性而闻名,但我们提出它们具有共同的增强子激活表观遗传模式,该模式定义了它们潜在的转录组学表达模式。这种模式可以预测患者样本中的基因表达,为了解 GSC 的生物学提供有价值的见解。


作者总结

本研究旨在开发一种机器学习 (ML) 管道,可用于研究表观遗传调控对胶质母细胞瘤干细胞 (GSC) 基因转录的作用。我们开发了一种跨患者预测管道,其中包含患者来源的 GSC 的多表观基因组数据来预测基因表达。我们的管线包括特征重要性,它检查了不同表观遗传调节因子的影响,包括染色质可及性 (ATAC-seq)、远端染色质环 (CTCF ChIP-seq)、组蛋白修饰 (H3K27Ac ChIP-seq) 和活性转录 (RNAPII ChIP-seq),对患者基因转录的影响。我们的分析表明,H3K27Ac对于准确预测患者的基因表达至关重要,这表明共同的增强子激活格局定义了异基因患者来源的GSC中的基因表达。


数字

Fig 9Fig 1Fig 2Fig 3Fig 4Fig 5Fig 6Fig 7Table 1Fig 8Fig 9Fig 1Fig 2Fig 3

   

引文: Suita Y, Bright H Jr, Pu Y, Toruner MD, Idehen J, Tapinos N, et al. (2025) 对多种表观遗传特征的机器学习揭示了 H3K27Ac 是胶质母细胞瘤患者基因表达预测的驱动因素。公共科学图书馆计算生物学 21(8): 电子邮件 1012272。 https://doi.org/10.1371/journal.pcbi.1012272


编辑 器: IVAN OVCHARENKO,美国国立卫生研究院


收到: 2024 年 6 月 24 日;接受: 2025 年 6 月 14 日;发表: 8月 7, 2025


版权所有: © 2025 Suita et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。


数据可用性: 代码可用性该研究的代码存储库位于:https://github.com/rsinghlab/ML_epigenetic_features_glioblastoma。数据可用性所有新的测序数据和处理后的数据都已存放在 NCBI 的基因表达综合中,并可通过 GEO 系列登录号 GSE296948 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE296948) 访问。


资金: Y.S. 得到了本庄国际基金会奖学金的支持。NT 非常感谢沃伦·阿尔珀特基金会的支持。RS 和 HB 的努力由美国国立卫生研究院 (NIH) 奖励 1R35HG011939-01 资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。


利益争夺: 提交人声明不存在竞争利益。


1. 简介

胶质母细胞瘤干细胞 (GSC) 的特征是肿瘤引发和自我更新特性。它们是胶质母细胞瘤(glioblastoma, GBM)的侵袭性、治疗耐药性和复发的核心,GBM是最致命的脑肿瘤[1–5]。这些恶性特性和对肿瘤微环境的适应性与GSC的表观遗传学密切相关。了解 GSC 的表观遗传机制不仅为了解 GBM 的生物学提供了新的见解,而且还为治疗干预开辟了新的途径。


许多表观遗传机制和调节因子影响生理学和疾病中的基因转录。在所有表观遗传调节因子中,RNA 聚合酶 II 活性、染色质可及性、CTCF 介导的基因组组织和 H3K27 乙酰化为理解转录调控提供了一个全面的框架,因为这些机制共同控制基因表达动力学。这些机制共同整合了遗传和表观遗传线索,协调对发育、环境和病理信号的转录反应。研究它们的相互作用可以全面了解基因表达是如何调节的,从而为正常生理机能和癌症等疾病状态提供必要的见解。


RNA 聚合酶 II (RNA Pol II) 是负责转录蛋白质编码基因和许多非编码 RNA 的中心酶,在基因表达调控中起着至关重要的作用。其活性通过启动子识别、转录起始、延伸和终止受到严格控制。其 C 端结构域 (CTD) 的磷酸化状态协调转录因子、染色质修饰剂和 RNA 加工机制的募集。RNA Pol II 控制细胞对环境线索、分化程序和癌症等疾病异常转录的反应。


染色质可及性是转录活性的关键决定因素,影响转录因子和 RNA Pol II 与 DNA 结合的能力。开放的染色质区域通常以核小体耗竭和活跃的组蛋白修饰为标志,允许转录机制的募集,而紧凑的异染色质则限制访问并抑制基因表达。染色质可及性的变化在细胞命运决策、应激反应和致癌转化中起着基础性作用,使其成为基因表达控制的关键调节层。


组蛋白 H3 赖氨酸 27 乙酰化 (H3K27Ac) 是与活性转录和增强子激活相关的关键表观遗传修饰。这种乙酰化标记由 CBP/p300 等组蛋白乙酰转移酶 (HAT) 催化,可将活性增强子与静止或非活性增强子区分开来,促进转录共激活因子和 RNA 聚合酶 II 的募集。通过削弱组蛋白-DNA 相互作用,H3K27Ac 促进染色质的可及性,使转录因子能够与调节元件结合并驱动基因表达。H3K27Ac 在增强子和启动子中的存在对于发育、分化和对环境信号的响应中的上下文依赖性基因激活至关重要。其失调在癌症等疾病中经常观察到,其中异常的增强子活性导致癌基因的错误表达和转录重编程。


CCCTC结合因子(CTCF)是一种多功能DNA结合蛋白,通过建立染色质环、绝缘调节元件和促进高阶染色质结构,在基因组组织中发挥关键作用。通过与特定的 DNA 基序结合,CTCF 充当拓扑关联结构域 (TAD) 的关键介质,通过促进或限制增强子-启动子相互作用来影响基因表达。它还具有转录绝缘体的功能,防止抑制性染色质标记的扩散并维持基因组稳定性。通过这些机制,CTCF对于调节细胞特异性转录程序、保护基因组完整性以及促进发育、分化和疾病进展(包括癌症)等过程至关重要[6\u201213]。


增强子、RNAPII、染色质可及性和 CTCF 的作用高度依赖于上下文,反映了表观遗传机制的复杂性和相互关联性。这种复杂性使这些机制对基因转录调控的相对贡献的研究变得复杂。因此,综合分析对于解决这个问题并揭示驱动 GSC 基因调控的精确机制至关重要。基于机器学习 (ML) 的基因表达预测已被用于从表观基因组学大数据中提取模式,例如使用测序测定转座酶可访问染色质 (ATAC-seq)、组蛋白修饰标记或转录因子的染色质免疫沉淀测序 (ChIP-seq),并区分多种表观遗传标记的贡献[14-20]。使用两种表观遗传调节因子(染色质可及性和组蛋白修饰)构建的基于卷积神经网络的模型比使用单一表观遗传调节因子构建的模型表现更好[14]。基于机器学习的模型,包括具有基因组数据、组蛋白修饰和染色质环的XGBoost,能够预测基因表达,并用于解释这些特征的贡献[21]。GC-MERGE采用组蛋白修饰,包括H3K27Ac(一种增强子标记物)和由Hi-C定义的染色质环,使用图卷积网络来预测基因表达[22]。GraphReg采用组蛋白修饰,包括由DNase-seq定义的H3K27Ac和染色质可及性数据,使用卷积层,以及Hi-C数据,使用图注意力网络来预测基因表达[23]。这些研究强调了使用多种类型的表观遗传标记来预测基因表达的重要性。然而,这些模型是使用来自单一来源的细胞系或原代细胞开发的,不能应用于跨患者数据集的细胞,因此在理解人类胶质母细胞瘤的生物学方面提供的价值有限。


跨患者预测是促进对复杂表观遗传机制的理解并将研究结果与人类疾病相关联的关键方法[24]。当跨患者预测模型跨数据集泛化时,该模型是可扩展的,可以用作跨不同人群或研究环境的工具,而无需进行大量微调。我们开发了一种基于机器学习的跨患者预测模型 - Cross 患者-Informed Prediction of Human Epigenetic R调节 (CIPHER) - 用于预测患者来源的 GSC 的基因表达。我们在GSC患者衍生数据集上对多个ML和深度学习(DL)模型进行了基准测试,并使用多个表观遗传调节因子(ATAC-seq、RNAPII ChIP-seq、CTCF ChIP-seq和H3K27Ac ChIP-seq)作为输入,发现XGBoost提供了最佳的经验性能。接下来,我们通过特征分析研究了每个表观遗传特征对基因表达预测的相对贡献。该分析表明,H3K27Ac(定义活性增强子的染色质标记)足以预测我们两个患者样本的基因表达。最后,我们将训练好的 CIPHER 模型应用于另外 10 个具有 H3K27Ac ChIP-seq/RNA-seq 的公开 GSC 患者样本,表明 CIPHER 可以推广到跨患者的数据。此外,我们单独在H3K27Ac ChIP-seq上训练了CIPHER,发现它比使用所有表观遗传特征训练的模型给出了更好的预测。对患者之间 H3K27Ac 信号模式的调查显示,高表达基因和低表达基因之间的相似性,这与跨患者模型的性能一致。因此,我们的结果支持我们的假设,即增强子活性的格局可以作为 GSC 中转录调控的“蓝图”,并且它们暗示了 GSC 中活性增强子周围的共同染色质模式,决定了基因表达。


2. 材料和方法

2.1 数据集和预处理

我们使用 CIPHER 对表观遗传调节因子与患者来源的 GSC 的基因转录之间的关系进行建模和研究。为了实现这一目标,我们使用以下四个标记来组成我们的GSC患者数据集:使用H3K27Ac(增强子标记物),RNAPII(活性转录标记物)和CTCF(远端染色质环标记物)进行ChIP测序,以及ATAC测序(染色质可及性)和RNA测序数据(图1)。该数据集是为我们实验室收集的两个患者来源的 GSC(GSC1 和 GSC2)创建的。为了测试模型的泛化性,我们还纳入了来自Mack等人研究[25]的10个由H3K27Ac标记和RNA-seq数据组成的数据集。我们从 44 组可用的 GSC 测量值中随机选择 10 组数据。有关准备这些数据集的详细信息,请参阅 S1 文本中的 S1 部分。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图1. 表观遗传学驱动的基因转录和表观基因组学测序数据处理的示意图概述。


表观遗传机制的基因转录可分为四类:A) 染色质可及性,B) 活性转录,C) 染色质环,D) 组蛋白修饰。测量每个基因TSS区域两侧的这些测序+ /- 2.5 千克碱基对 (kbp) 的计数,并将其划分为 50 个箱,每个箱代表 100 个碱基对,以创建模型输入的热图。使用 BioRender.com 创建。


https://doi.org/10.1371/journal.pcbi.1012272.g001


由于以前没有探索过GSC患者来源样本的ML建模,我们首先对我们的两个GSC样本进行基因表达与每种表观遗传调节剂(ATAC-seq、H3K27Ac ChIP-seq、CTCF ChIP-seq和RNAPII ChIP-seq)之间的相关性分析。我们观察到GSC1中分别为0.366、0.111、0.208和0.333(分别为H3K27Ac、CTCF、ATAC-seq和RNAPII)的正相关关系,GSC2中为0.412、0.162、0.221和0.359(对于相同阶数的调节剂)(S4A和S4B图)。因此,我们假设ML模型可以学习表观遗传调节因子与基因表达之间的关系。


我们关注每个基因的转录起始位点(TSS)的+/-2.5千克碱基对(kbp)侧翼区域,并将其分为50个箱,每个箱代表100个碱基对——这个箱分辨率是根据之前的研究确定的[22,26]。为了准备用于 ML 建模的基因组数据,我们创建了一个 50 x 4 矩阵,其中行代表 20,015 个基因中每个基因的表观遗传特征的箱和列,每个箱都包含汇总计数。因此,我们将 20,015 x 50 x 4(每个特征 1,000,750 个样本)作为输入传递给我们的模型。因此,每个基因都是训练模型的数据样本,其 50x4 矩阵表示 4 个表观遗传信号作为大小为 50 的输入向量,其表达作为输出。为了准备基因表达输出标记,我们总结了每个基因TSS两侧的+/- 2.5kb计数,并使用每百万个转录本对其进行归一化(图2)。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图2. 预处理后的患者数据集表示。


该图描绘了患者每个基因的标准化表观遗传标记值。它突出显示了模型输入之前数据集的 3D 排列。这里的 X 轴对应于每个特征的 50 个 100 bp 计数的 bin。Y 轴代表每个基因的 4 个表观遗传特征。图的Z轴代表数据集中的基因排列。


https://doi.org/10.1371/journal.pcbi.1012272.g002


第二个预处理步骤包括基因表达测量的单独标准化和log(2)转换[19]。为了考虑不同类型测序和实验条件下计数值的变化,我们使用相应序列数据的平均值来标准化每个测序数据的计数。这种标准化发生在执行训练、验证和测试数据拆分之后。在这里,四个表观遗传特征中的每一个都在训练、验证和测试集中单独标准化。我们选择在这一点上标准化数据,而不是在数据拆分之前,以避免潜在的数据泄露[27]。在数据拆分过程之前,每个基因都有其相应的目标标记log(2)以伪计数1进行转换。有关模型输入过程的其他信息包含在 S1 文本的第 S2 节以及 S1 和 S2 图中。


2.2 机器学习建模

我们测试了几个基于回归的 ML 和 DL 模型,以检查我们的特定表观遗传标记组合在预测 CIPHER 跨患者环境中基因表达的新应用。鉴于这两名患者(GSC1 和 GSC2),我们试图使用 ML 来提取患者之间的共同模式,因为 GSC 在一名患者与另一名患者之间具有高度异质性。因此,对于超参数调整和初步验证,我们通过在患者内交叉染色体设置中将GSC1的数据集拆分为70%用于训练和30%用于验证(非重叠基因集)来训练每个模型[28]。对于每个模型,我们使用针对 Pearson 相关系数 (PCC) 优化的网格搜索进行超参数调整。S1 文本和 S1-S8 表中的 S3 部分包括有关超参数调整的其他信息。一旦我们选择了最后一组超参数,我们就使用来自 GSC1(患者 1)的全套 (100%) 基因观察结果训练 ML 模型,并测试其对所有基因(表示为 GSC1 → GSC2)的 GSC2 基因表达预测。跨患者设置的结果报告在结果部分(S1 文本中的第 4 节)中。


在每种情况下,预测任务都是一个回归,其中模型预测每个基因的 RNA-seq 基因表达值。跨患者预测实验需要两个数据集(一个用于训练和验证,另一个用于测试),每个数据集由ChIP-seq、ATAC-seq和RNA-seq组成。


为了选择最佳的机器学习模型,我们全面测试了深度学习架构,如多层感知器(MLP)、卷积神经网络(CNN)、递归神经网络(RNN)和分支多层感知器(Branched MLP)。使用分支 MLP,我们将来自该区域的基因组序列组合为输入。


传统的机器学习算法包括梯度提升回归 (GBR)、支持向量回归 (SVR) 和多元线性回归 (MLR) 架构。有关这些模型的详细信息,请参见 S1 文本的 S3 节。


此外,评估了传统的数据拆分框架,其中训练和测试数据来自同一分布,因此模型在保留的基因(患者内交叉染色体)上进行测试,以支持我们的跨患者实验。更多详细信息和结果在 S1 文本的 S9 部分。


评估指标。Pearson 相关系数 (PCC) 用作超参数调整、性能评估和特征扰动的主要指标。我们将斯皮尔曼相关系数 (SCC) 作为附加评估指标。


计算考虑。脚本时间注意事项在 S1 文本和 S9 表中的 S6 部分中详细介绍。


2.2.1 模型选择标准。

在所有测试的模型中,我们根据对每个模型的总体 Pearson 相关系数 (PCC) 分数结果的分析选择最终的机器学习模型。


2.2.2 XGBoost 模型详情。

基于 XGBoost 的模型在本研究中表现出所有跨患者实验中最好的平均性能。由于 XGBoost 采用 2 维输入,因此数据集特征被扁平化为 20,015 x 200,而目标变量 (RNA-seq) 变为 20,015 x 1 数组。四个基因特征中每一个的箱的相对定位保持连续(图3A)。因此,我们选择这个带有 XGBoost 的公式作为我们的 CIPHER 模型,用于所有后续测试和分析。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图3. 使用模型 XGBoost 架构的跨患者预测方法。


用于训练和验证的模型输入源自与测试数据集不同的患者 (GSC1)。如图所示,在进入模型之前,矩阵被压平,其中预测 RNA-seq 值。A) 跨患者实验设置的功能视图,其中模型训练在图像的左侧和右侧说明,过渡到使用训练好的模型进行测试。B) 跨患者实验设置的概念视图,说明数据中用于训练和测试的数据集分配和每个特征的观察数量。


https://doi.org/10.1371/journal.pcbi.1012272.g003


损失函数。我们使用均方误差 (MSE) 进行损失函数计算,如下所示:



(1)

在计算中,表示实际的 RNA-seq 测量值,同时表示每个基因对数据集中基因数量的预测值。


2.3 跨多个种子的模型测试

我们在跨患者排列(GSC1 → GSC2)中运行每个模型 10 次(使用不同的随机种子),以评估结果的稳健性。我们研究的实验结果报告了我们指标的平均值、标准差和分布可视化。


当我们将CIPHER应用于Mack等人(S1)的其他数据集时,训练好的模型将使用整个测试GSC数据集(100%)进行评估(图3B)[25]。每个评估数据集使用不同的随机种子运行 10 次。


2.4 跨测试数据集子集的模型测试

为了完整起见,我们还调查了每个测试数据集子集之间模型性能的方差。为了实现这一点,训练数据集 (GSC1)、模型训练过程和模型超参数保持不变。每个测试数据集不是一次使用每个测试数据集(GSC2和所有Mack等人派生的数据集)中的所有样本来评估训练好的模型,而是将每个测试数据集分成10个部分[25]。每个部分中存在的基因信息不与任何其他部分重叠。与某种形式的子集随机选择相反,这种策略确保每个基因的值都得到评估,并且不会无意中排除任何潜在的感兴趣基因。对于 GSC2,第 1-9 部分每个包括 2,002 个基因。GSC2 第 10 部分包括 1,997 个基因(每个表观遗传特征 99,850 个样本)。同时,每个 Mack-GSC 第 1-9 部分包括 1,853 个基因(每个表观遗传特征 92,650 个样本),它们的第 10 个子集包括 1,847 个(每个特征 92,350 个样本)。


训练好的模型使用每个测试子集和不同的随机种子进行评估。对于下面讨论的所有结果,这些附加结果 (S10) 的平均值和标准差遵循相同的趋势。


2.5 扰动实验设置与分析

为了研究每个单独的表观遗传信号对预测的影响,我们应用了一种方法,该方法一次改变 GSC2 数据集的四个表观遗传特征之一。具体来说,通过将测试数据集中所有基因的所有特征值替换为 0.0(标准化的平均值)来实现特定表观遗传信号的扰动。然后使用更改后的数据集对训练好的模型进行 10 次评估,每次使用不同的随机种子。该分析将每组实验的计算平均值和标准差结果与原始模型性能以及彼此进行了比较(S7)。


3. 结果

3.1 机器和深度学习模型在不同的跨患者预测场景下表现相似

我们发现,当模型使用 GSC1(患者 1)训练并使用 GSC2(患者 2)数据(我们称之为 GSC1 → GSC2)进行测试时,XGBoost 回归 (XGBR) 模型获得了最高的 PCC 分数,分别为 0.826199 ± 0.000888。另一方面,多元线性回归 (MLR) 给出的最低性能为 0.676872 ± 0.0;PCC 相差 0.149327(图 4)。MLR性能低于标准表明表观遗传标记之间的关系及其与基因表达的关系是非线性的。其余模型之间的性能在 0.014497 以内,这表明它们也可以有效地捕获数据中的非线性。这表明结果在某种程度上受到所用模型的适度影响,并且更多地依赖于数据集的表观遗传特征。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图4. PCC 跨患者回归模型结果。


我们的实验结果被编译为每个模型 10 次运行的平均 PCC 分数。显示的误差线表示模型结果的标准差。我们基于 XGBoost 的跨患者回归模型在使用 GSC1 进行训练和使用 GSC2 进行测试时(GSC1 → GSC2)的性能高于所有其他架构。


https://doi.org/10.1371/journal.pcbi.1012272.g004


高 PCC 分数凸显了我们的跨患者预测方法的成功,该方法将与基因表达相关的表观遗传输入模式从一名患者推广到另一名患者。请注意,XGBR PCC 分数远高于我们之前进行的简单相关分析和线性回归结果。这一结果表明,表观遗传调节因子在XGBR模型中的输入分辨率更高,使其能够更好地学习它们与基因表达之间的非线性关系。我们研究相应的 SCC 评分结果也呈现了 SCC 评分最高的 XGBR 模型。GBR 和 MLP 交换名次,但落后于 XGBR。同时,MLR 模型的性能再次最低,平均 SCC 分数最低。我们的 SCC 结果在 S1 文本和 S5 图中的 S5 部分中详细介绍。我们根据整体更好的经验性能选择XGBR作为最终的CIPHER模型架构。


3.2. 由 H3K27Ac 表观遗传状态定义的活性增强子本身就足以预测患者 GSC 中的基因表达

为了解释每个表观遗传标记在预测基因表达中的重要性,我们计算了 CIPHER 的 XGBoost 架构的特征重要性。由于数据集被扁平化为二维输入,因此重要性分数是在 bin(或基因组区域)水平计算的。因此,我们将与四个表观遗传标记相对应的个体特征重要性分数相加。


所有组合的表观遗传标记(H3K27Ac、RNAPII、ATAC-seq 和 CTCF)都在不同程度上对基因表达预测做出贡献(图 5)。作为补充分析,我们还进行扰动分析,其中我们去除一个表观遗传因素并观察预测性能的下降,以评估表观遗传标记的贡献。每个表观遗传标记扰动都会导致 PCC 下降,表明每个表观遗传标记都有助于预测基因表达(S7、S9 和 S10 图)。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图5. 从我们的 GSC1 → GSC2 的跨患者 CIPHER 模型中提取的特征重要性分数。


该模型将 H3K27Ac 特征确定为预测 RNA-seq 最重要的特征。可视化的结果是 10 次实验运行的平均值,误差线表示标准差。


https://doi.org/10.1371/journal.pcbi.1012272.g005


有趣的是,H3K27Ac标记物是RNA-seq预测的最重要特征。最大可能重要性值为 1.0,H3K27Ac 的总和值为 0.750977 ± 0.020292。其次是RNAPII(0.096962±0.007921)、ATAC-seq(0.091166±0.023353)和CTCF(0.060894±0.002569)(图5)。重要性顺序(H3K27Ac,然后是RNAPII,ATAC-seq,CTCF)与每个表观遗传标记和RNA-seq之间的相关性顺序一致(S4,S4A和S4B图)。该 H3K27Ac 标记物具有相当大的重要性,其次是 RNAPII、ATAC-seq 和 CTCF 的小特征重要性值,这可能是由于这些标记物对基因表达的重叠活性。H3K27Ac信号,增强子标记物与RNAPII,ATAC-seq和CTCF信号之间的正相关支持了这一点(S4,S4A和S4B图)。


当我们考虑特征重要性观察的优势时,我们认为每个标记的测量值占 GSC1 和 GSC2 患者数据集的 25%。由于四个标记中的每一个在评估中使用的 GSC1 训练数据集和 GSC2 数据集中都平等地表示,因此模型计算的特征重要性的观察结果说明了我们对每个预测标记的相对重要性的评论。PCC 受到每个信号不同程度的扰动影响的观点以及我们对 H3K27Ac 重要性的讨论也得到了这种相等表示的支持 (S7)。


3.3 使用其他患者GSC H3K27Ac表观遗传数据进行跨患者分析,证明了CIPHER的跨患者泛化能力

为了验证我们的跨患者方法并研究H3K27Ac作为预测更多患者群体基因表达的主要贡献者,我们将训练好的CIPHER模型应用于Mack等人研究中唯一公开的GSC的H3K27Ac和RNA-seq数据[25]。我们将GSC H3K27Ac信号输入到训练好的CIPHER模型中。由于该数据集没有其他表观遗传信号,因此我们使用零作为其他特征的输入,并使用 PCC 测量性能。请注意,我们不会使用此数据集对 CIPHER 进行任何重新训练或微调。所有额外 10 组的 PCC 评分与我们初始样本 (GSC2) 的 PCC 评分相似,这表明我们的跨患者方法可推广到来自独立研究的 GSC 数据(图 6)。除了活性增强子标记物 H3K27Ac 在预测基因表达方面的突出贡献外,我们还表明,与 RNAPII、ATAC-seq 和 CTCF 相比,H3K27Ac 在患者群体中具有更高的预测信号。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图6. CIPHER 模型训练推广到其他 GSC 数据集。


然后使用Mack等[25]的GSC H3K27Ac/RNA-seq数据评估使用GSC1数据集训练的CIPHER模型。与其他研究实验一致,每个数据集对每个数据集进行 10 次评估,有 10 种不同的种子。这些实验揭示了来自不同来源的GSC数据之间的相似性。


https://doi.org/10.1371/journal.pcbi.1012272.g006


为了观察总体预测趋势,我们绘制了 GSC2 的 RNA-seq 的真实值和预测值以及来自另一项研究的所有其他 GSC。我们观察到 GSC2 的真实 RNA-seq 值范围为 0 至 12.762008。同时,其他测试 GSC 的最小范围为 0 至 17.674399,最大为 21.003699。此外,训练集 GSC1 的范围为 0 到 12.762008。尽管这些范围存在差异,但所有测试GSC的预测RNA-seq值产生了具有相似趋势的图(图7A-K)。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图7. RNA-seq 真实与预测值散点图说明了 GSC 数据集中类似的预测趋势。


A) GSC2,B) Mack-GSC7,C) Mack-GSC14,D) Mack-GSC18,E) Mack-GSC20,F) Mack-GSC25,G) Mack-GSC27,H) Mack-GSC35,I) Mack-GSC36,J) Mack-GSC38,K) Mack-GSC44。


https://doi.org/10.1371/journal.pcbi.1012272.g007


CIPHER 模型使用 GSC1 数据集的所有表观遗传特征进行训练。每个图都代表为该数据集产生最高 PCC 的模型运行(每个数据集的 10 次运行)。轴表示log2转换后的RNA-seq计数值。GSC2(图 A)的真实数据值与其他数据值(0 到 21.003699)的范围(0 到 12.762008)不同,如 X 轴所示。由于模型使用 GSC1 的目标 RNA-seq 进行训练,因此预测值(Y 轴)具有更相似的范围,最高可达 12.652625。


3.4 使用 GSC 的 H3K27Ac 数据进行训练/测试的跨患者模型实验凸显了其对预测基因表达的影响

为了直接评估单独使用 H3K27Ac 保留了多少预测能力,以及它的贡献与所有表观遗传制造者的综合影响相比如何,我们仅使用 H3K27Ac 特征重新训练 CIPHER,并省略 RNAPII、ATAC-seq 和 CTCF 特征,同时保留原始超参数集。我们使用与训练数据相同的 GSC1 样本设置以及 GSC2 和其他 GSC 作为测试数据的设置来执行此分析,以确保一致性。为了量化模型的性能,我们测量平均PCC,并将其与包含所有特征(H3K27Ac,RNAPII,ATAC-seq和CTCF)时获得的PCC进行比较。


有趣的是,仅具有H3K27Ac特征的CIPHER的PCC分数通常高于具有所有特征的CIPHER的PCC分数。在十分之九的GSC中,仅具有H3K27Ac特征的PCC比具有所有特征的PCC高0.994-2.62%。在一个GSC(GSC2)中,仅具有H3K27Ac特征的PCC比具有所有特征的PCC低1.23%(表1)。这种差异与以下事实相一致:GSC2 是唯一具有所有表观遗传标记(H3K27Ac、RNAPII、ATAC 和 CTCF)的数据集,而其他 GSC 只有 H3K27Ac 可用。这凸显了活性增强子信号(以 H3K27Ac 为标志)在预测患者基因表达方面的充分性,即使来自不同的分布,也强烈表明增强子活性在基因转录调控中的关键作用。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

表 1. 使用 H3K27Ac 进行训练和测试仅导致大多数数据集的平均 PCC 增加。

https://doi.org/10.1371/journal.pcbi.1012272.t001


为了观察预测趋势,我们再次绘制了 GSC2 的 RNA-seq 的真实值和预测值以及来自另一项研究的所有附加 GSC,并与具有所有表观遗传特征的先前图进行比较。这些仅含有H3K27Ac的RNA-seq真实值和预测值的散点图与之前具有所有表观遗传特征的图相似(图7和图8)。这表明跨患者基因表达预测仅依赖于 H3K27Ac,而不是其他表观遗传特征,表明活性增强子足以预测患者之间的基因表达。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图8. H3K27Ac 仅模型生成 RNA-seq 真实与预测值散点图,就像之前的实验设置一样。


A) GSC2,B) Mack-GSC7,C) Mack-GSC14,D) Mack-GSC18,E) Mack-GSC20,F) Mack-GSC25,G) Mack-GSC27,H) Mack-GSC35,I) Mack-GSC36,J) Mack-GSC38,K) Mack-GSC44。每个图都代表为该数据集产生最高 PCC 的模型运行(每个数据集的 10 次运行),轴表示 log2 转换后的 RNA-seq 计数值。每个数据集的真实值和预测值的范围都紧密遵循之前的测试。此外,与之前的测试一样,每个可视化效果中直方图的形状和大小的预测值彼此不同,但遵循相同的趋势。


https://doi.org/10.1371/journal.pcbi.1012272.g008


3.5. CIPHER 学习 H3K27Ac 的共同模式来预测 GSC 中的基因表达,尽管它们已知具有异质性

为了进一步解释 TSS 区域周围 H3K27Ac 信号对预测基因表达的 bin/基因组水平贡献,我们可视化了每个 GSC 数据集中 TSS 区域周围所有基因的 H3K27Ac 计数的平均值。尽管来自不同的研究,但所有GSC都表现出相同的H3K27ac分布,但星等均匀(图9A)。这表明该模型具有学习 H3K27Ac 模式和预测数据集中适当基因表达的一致能力。此外,它表明跨患者预测设置不一定构成重大分布转变。为了进一步研究这些 H3K27Ac 信号与模型泛化能力之间的关系,我们可视化了具有相对“高”真实表达值(log2(RNA-seq 值)10)的基因子集。我们观察到,GSC1和GSC2在bin 25处都比其他GSC具有更明显的峰值和相关下降(图9B)。鉴于该模型是用GSC1训练的,GSC1包含较少数量的“高”表达基因(68),以及数据集中较低的最大表达值(12.652625),该模型在预测其他GSC的“高”表达基因方面不具有相同的有效性。相反,当我们可视化具有“低”真实表达值(0log2(RNA-seq 值)5)的基因的模式时,我们观察到 H3K27Ac 信号在 bin 中较低所有GSC数据与“高”表达和总体均值的比较(图9C)。与 GSC1 数据中“高”表达相比,“低”表达的基因数量更多,表明“低”类别对整体 PCC 的积极影响以及我们在所有 GSC 中注意到的新兴模型泛化。S1 文本中的 S8 部分包括基因表达类别、群体数量和相关模型错误的示例。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图9. 对H3K27Ac标准化计数的分析可直观地显示信号形状的相似性,与峰值处的变化形成对比。


TSS 周围所有 GSC 数据集的 H3K27Ac 计数在 bin 级别可视化。A) 可视化所有基因的 H3K27Ac 信号,无论其 RNA-seq 值如何。所有这些 GSC 都具有相似的 H3K27Ac 表观遗传景观,具有两个不同的峰 B) “高”表达基因的 H3K27Ac 信号(log2(RNA-seq 值)≥ 10) C) “低”表达基因的 H3K27Ac 信号(0log2(RNA-seq 值) 5)。


https://doi.org/10.1371/journal.pcbi.1012272.g009


总体而言,“高”表达组中存在H3K27Ac峰,而“低”表达组中没有H3K27Ac峰,表明我们的跨患者模型学习了Ts区域周围H3K27Ac的共同模式,以预测基因表达水平。这表明,尽管 GSC 具有已知的异质性,但 GSC 具有共同的活性增强子标记模式,该标记决定了转录表达水平。


4. 讨论

GSC适应性的起源和维持受影响DNA、染色质和RNA的内在细胞过程以及有助于传播癌症干细胞表型的外部微环境因素的调节。表观遗传机制在维持GSCs和支持肿瘤持久性方面起着重要作用[29\u201231]。


为了模拟驱动基因表达的表观遗传机制的非线性,特别是多种表观遗传标记的相对贡献,我们构建了 CIPHER,这是一个基于表观遗传批量 NGS 数据组合的机器学习框架。我们的目标是发现可以预测 GBM 患者基因表达的表观遗传标记,并提供对多种表观遗传特征的数据驱动的系统评估。对不同ML模型的综合评估表明,XGBR架构是性能最好的模型(PCC = 0.826),优于传统的相关性分析(0.366 - 0.412)(图3和S4B)。这一结果与XGBR在处理表格数据方面的优势一致[32]。我们的数据集由各种类型的表观遗传调节因子组成,这些表观遗传调节因子的结构为一系列表格。这与之前利用XGBR的研究一致,该研究结合了基因组数据、组蛋白修饰和染色质环,并实现了高AUC(0.79-0.88)[21]。


有几个因素促成了我们模型的高性能:a) 特定的表观遗传标记集和 b) 输入数据的准备方式。先前的研究将H2Az和H3K4me3确定为预测基因转录的关键贡献者,而我们的研究则强调了H3K27Ac的使用[21]。这强化了活性增强子在预测基因表达方面的重要性。此外,先前的研究表明,启动子和基因体周围的信号贡献不同,而在我们的模型中,包含 +/- 2.5kb 侧翼 TSS 位点可能会增强预测性能。


我们研究的另一个重要发现是 CIPHER 在患者中的普遍性。在没有任何模型重新训练的情况下,CIPHER在应用于来自独立研究的11个GSC患者数据集时保持了高性能,而没有过度拟合,如GSC的PCC(0.796-0.826)所示(图3)。这一性能与之前报告的 PCC 分数一致,并且在某些情况下更好。尽管在单个细胞系中使用了图卷积模型和Hi-C数据,但GC-MERGE等先前模型仍返回PCC(0.76-0.79)[22]。同样,GraphReg利用CNN对组蛋白修饰(包括H3K27Ac)和染色质可及性以及跨细胞系H3K27Ac Hi-ChIP和Hi-C的注意力网络进行图分析,报告了R²(0.578-0.607)[22]。CIPHER的更高性能可能是由于XGBoost在组蛋白修饰剂ChIP-seq方面优于CNN,如我们的模型比较所示(图3)。我们还观察到跨患者泛化(图6)比患者内、看不见的基因泛化(S12A和S12B图)表现更好。这可能是由于患者之间的差异有限或跨基因表观遗传模式的冗余。这表明基因水平变异对模型构成的挑战比该数据集中的患者身份更大。


此外,数据集的差异可能对 CIPHER 的泛化性产生影响 - GraphReg 试图从 GM12878(淋巴母细胞)推广到 K562(骨髓淋巴母细胞),反之亦然,而我们的样本则专注于来自不同患者来源数据集的 GSC。无论潜在的贡献者如何,CIPHER 的普遍性凸显了其在更广泛的患者群体中的潜在应用。更重要的是,CIPHER 提供了一个有原则且可解释的框架,用于整合多个表观遗传特征,同时支持跨不同预测设置的特征贡献分析,并且可以识别特定于数据集的相关性分析之外的表观遗传模式。


我们的跨患者特征重要性分析证实了 H3K27ac 的核心调节作用,特别是在所选的多个表观遗传特征之间。结合H3K27Ac表观遗传景观分析,它强调了仅活性增强子的景观就足以预测GSCs中的基因转录。然而,我们承认这种基于 XGBR 的模型无法捕获某些基因,例如那些高度可变或表达的基因。这些可能需要我们当前的表观遗传标记无法捕获的额外监管背景。我们的扰动分析表明,每个表观遗传调节剂的PCC下降之和小于没有扰动的PCC(S7、S9和S10图)。这表明存在预测基因表达的其他潜在贡献者,例如其他组蛋白修饰标记(例如,H3K9me3、H3K27me3 等)和 3D 染色质结构的调节因子。


活性增强子模式在预测来自不同患者分布的 GSC 基因表达方面的潜在作用引发了重要的问题和对转化应用的关键影响。基于CRISPR的增强子扰动研究已经证明了识别对癌细胞增殖至关重要的增强子的潜力[33\u201235]。这种增强子模式可以作为诊断或鉴定治疗靶点的有价值的潜在生物标志物。未来,重要的是要更有信心地识别 GSC 活性增强子周围的可靶向共同表观遗传特征并识别这些特征。对于未来的工作,我们将使用GC-MERGE中所示的图形卷积网络合并Hi-C数据,并使用转换器合并GraphReg中看到的其他DNA序列数据。这种靶点识别方法可以导致表观遗传沉默剂的设计,可以抑制胶质母细胞瘤的致癌转录程序。


五、结论

我们构建了人类表观遗传调控的交叉患者知情预测(CIPHER),这是一个跨患者预测分析框架,系统地评估了多表观遗传学标记对不同研究中预测癌症干细胞基因表达的贡献。通过将该框架应用于 GSC,我们发现 H3K27Ac 信号对预测基因表达的贡献最大,其次是 RNAPII、ATAC-seq 和 CTCF,并且这种贡献在患者中保留下来。此外,我们仅将H3K27Ac ChIP-seq输入到训练模型中,并表现出优异的性能。我们的 H3K27Ac 景观分析显示了来自不同研究的 GSC 的共同景观,表明增强子景观足以预测患者 GSC 的基因表达。总的来说,我们提出了 CIPHER,这是一个跨患者基因表达预测框架,可以对表观遗传驱动的基因表达机制和癌症干细胞的表观遗传景观提出深入的见解。


支持信息

S1 文本 - 对多种表观遗传特征的机器学习揭示了 H3K27Ac 是胶质母细胞瘤患者基因表达预测的驱动因素


显示 1/35: pcbi.1012272.s001.docx


跳至图分享导航

抱歉,我们无法加载您的数据。

1 / 35



下载

无花果分享

S1 文本。

第 S1 节。表观遗传标记和 RNA 测序信息。第 S2 节。数据准备和预处理过程的流程图。第 S3 节。支持预测模型的信息。第 S4 节。相关性突出了每个数据集的表观遗传特征之间的差异。第 S5 节。支持模型结果。第 S6 节。计算考虑。第 S7 节。扰动结果支持模型特征重要性。第 S8 节。支持基因表达计数和模型误差分析。第 S9 节。单患者实验装置展示了与跨患者建模相当的模型预测性能,并呼应了 H3K27Ac 的重要性。第 S10 节。对数据子集的模型评估支持结果中发现的趋势。


https://doi.org/10.1371/journal.pcbi.1012272.s001


(DOCX)


S1 图。 数据集准备过程示例。

从 BAM 格式文件中提取观察到的表观遗传标记值的过程使用一系列实用程序,这些实用程序将单独的数据组合到一个文件中。该过程将基因表观遗传特征的 50 个 bin 值与基因的单个提取的 RNA-seq 值对齐,以保持一致的格式。


https://doi.org/10.1371/journal.pcbi.1012272.s002


(TIFF)


S2 图。 数据预处理过程示意图。

提取每个基因的表观遗传特征值,形成矩阵,并标准化以供模型输入。提取和转换每个基因观察到的 RNA-seq 值,从而创建模型的目标变量。


https://doi.org/10.1371/journal.pcbi.1012272.s003


(TIFF)


S3 图。 Mack等人获得的H3K27Ac和RNA-seq信息的数据集处理过程图示[25]。

我们使用此过程来转换和调整下载的 H3K27Ac 和 RNA-seq 信息,以与我们研究的现有预处理保持一致。


https://doi.org/10.1371/journal.pcbi.1012272.s004


(TIFF)


S4 图。 GSC1 和 GSC2 数据集中的相关性。

这两个可视化传达了我们的两个患者数据集的计算相关值。GSC1 显示在图 A 中,GSC2 显示在图 B 中。在这两个数据集中,这些值都表明表观遗传调节因子和基因表达之间的非线性。


https://doi.org/10.1371/journal.pcbi.1012272.s005


(每股收益)


S5 图。 使用 H3K27Ac 进行模型训练和测试仅强调了该标记在研究的 GSC 数据集中泛化方面的突出地位。

当XGBR模型仅使用GSC1的H3K27Ac标记数据进行训练并使用其他数据集进行测试时,11个数据集中有10个的平均模型性能明显提高。此可视化显示了 10 个不同种子的 10 次模型运行的结果。唯一性能下降的数据集是该研究的 GSC2。这种总体增长可以通过去除训练中其他表观遗传信号以及测试中作为这些信号代理的零来解释“噪声”的可能减少。


https://doi.org/10.1371/journal.pcbi.1012272.s006


(TIFF)


S6 图。 斯皮尔曼相关系数实验结果。

此处可视化的 SCC 结果支持我们的 PCC 结果,我们发现基于跨患者 XGBoost 的模型保持了最高性能。显示了 GSC1 作为训练和 GSC2 作为测试数据集的平均 SCC 值及其在 10 次实验运行中的分布。


https://doi.org/10.1371/journal.pcbi.1012272.s007


(TIFF)


S7 图。 Spearman 相关系数指标 使用所有特征进行模型训练时的比较性能。

当使用研究的 GSC1 数据集和所有 4 个表观遗传特征值训练跨患者设置时,SCC 结果低于所有测试数据集的相应 PCC 结果。


https://doi.org/10.1371/journal.pcbi.1012272.s008


(TIFF)


S8 图。 Spearman 相关系数指标 仅使用 H3K27Ac 特征进行模型训练和测试时的比较性能。

当跨患者设置仅使用 H3K27Ac 值进行训练和测试时,我们观察到 SCC 结果与先前测试的比较。


https://doi.org/10.1371/journal.pcbi.1012272.s009


(TIFF)


S9 图。 使用 XGBoost 的表观遗传信号扰动模型性能比较(GSC1 → GSC2)。

每个表观遗传信号在 10 个单独的实验中受到干扰。显示了每个表观遗传标记(不同的随机种子)的 10 次运行的平均 PCC 模型结果和指示标准差的误差线。使用的超参数与我们的其他测试相同(见表 1)。这些图说明了模型效应信号扰动的顺序,从大到小:H3K27Ac、RNAPII、ATAC-seq 和 CTCF。


https://doi.org/10.1371/journal.pcbi.1012272.s010


(TIFF)


S10 图。 特征扰动下的Spearman相关系数结果。

我们的扰动实验产生了SCC度量结果和PCC结果(S9图)。结果是在相同的 10 次实验运行中编制的,使用我们基于跨患者 XGBoost 的模型和用误差线指示的标准差。当模型用 GSC1 训练并用 GSC2 测试时,每个表观遗传信号都分别受到扰动。与其他信号相比,H3K27Ac信号受到扰动时的模型性能显著下降。


https://doi.org/10.1371/journal.pcbi.1012272.s011


(TIFF)


S11 图。 GSC2 和 Mack-GSC7 的表达式类别计数和均方误差值。

10A) 可视化 GSC2 的表达类别计数,其中我们看到“低”类别的总体比“高”类别的种群更大。这使我们能够深入了解该模型在评估GSC2时实现的相对较低的总体MSE(图B)。Mack-GSC7 具有不同的比例,其中“低”类别的人口数量超过“高”类别(图 C)。因此,该数据集的总体 MSE 误差更高,特别是在我们关注的基因类别中。


https://doi.org/10.1371/journal.pcbi.1012272.s012


(每股收益)


S12 图。 单患者实验结果。

当使用单个 GSC 数据集的拆分训练和测试模型时,PCC 结果(图 A)与从跨患者设置中获得的结果相似。两个数据集的平均PCC值均高于SCC测量值(图B)。


https://doi.org/10.1371/journal.pcbi.1012272.s013


(每股收益)


S13 图。 单个患者的真实/预测值和特征重要性。

图 A (GSC1) 和 B (GSC2) 说明了每个基因的测试数据集观察到和预测的 RNA-seq 计数(log2 转化后)。研究发现,尽管模型的最高预测值在范围的上限低于数据集的真实值,但测试集预测呈右上角趋势,表明模型测试集预测准确性。该研究还观察到,H3K27Ac 是模型预测的最重要特征(图 C 和 D),这与跨患者模型行为一致。


https://doi.org/10.1371/journal.pcbi.1012272.s014


(每股收益)


S14 图。 单患者基因表达类别计数和均方误差。

我们的GSC1(图S14A、S14B、S14C)和GSC2(图S14D、S14E、S14F)数据集在训练和测试集中的“低”表达基因数量都多于“高”表达基因。我们观察到“低”类别的错误率较低,高表达基因的 MSE 较高。


https://doi.org/10.1371/journal.pcbi.1012272.s015


(每股收益)


S15 图。 测试数据子集的 PCC 跨患者回归模型。

结果被编译为平均PCC值,其中测试是GSC2的10个非重叠子集(GSC1→GSC2子集)和每个模型的不同随机种子。结果与图4的趋势一致,我们基于XGBoost的跨患者回归模型的性能高于所有其他架构。此处显示的结果分布的标准差高于图4,而分布均值相似。


https://doi.org/10.1371/journal.pcbi.1012272.s016


(TIFF)


S16 图。 对 GSC2 数据子集进行测试时的 SCC 实验模型结果。

显示了 GSC1 作为训练和 GSC2 的非重叠子集作为测试数据集(GSC1 → GSC2 子集)的平均 SCC 值及其在 10 次实验运行中的分布。此处可视化的这些结果支持我们的 SCC 结果趋势 S6 图,而所有值都低于 PCC 对应值。事实证明,基于 MLP 的模型的平均值略高于该指标的 XGBR 平均值。正如我们在 S15 图中观察到的那样,与 S6 图相比,使用这种测试方法,分布的标准差有所增加。


https://doi.org/10.1371/journal.pcbi.1012272.s017


(TIFF)


S17 图。 XGBR 跨患者模型的特征重要性反映了对 GSC2 数据子集进行测试时的其他结果。

可视化的结果与图5所示的结果几乎相同。H3K27Ac被确定为模型预测的最重要特征。这些结果是通过评估用 GSC1 训练的模型来编译的,并使用 GSC2 的 10 个非重叠子集(GSC1 → GSC2 子集)在每个子集的不同随机种子中进行评估。


https://doi.org/10.1371/journal.pcbi.1012272.s018


(TIFF)


S18 图。 在评估测试数据集的子集时,模型训练会推广到其他 GSC 数据集。

当我们评估Mack等[25]的子集时。使用 GSC1 训练模型的派生数据集,我们在其他测试中观察到相同的泛化。尽管结果分布的标准差大于S6图,但均值之间的差距在0.031 PCC以内。


https://doi.org/10.1371/journal.pcbi.1012272.s019


(TIFF)


S19 图。 Spearman 相关系数指标说明了使用所有特征进行训练并评估测试数据集子集后的模型泛化。

SCC 结果可视化表明,该方法在多个 GSC 数据集中进行了推广。尽管这些值低于 PCC 对应值,但每个分布的平均值彼此相差在 0.4 以内。此处显示的标准差高于我们使用整个测试数据集评估模型时(S7图)。


https://doi.org/10.1371/journal.pcbi.1012272.s020


(TIFF)


S20 图。 仅使用 H3K27Ac 标记进行模型训练和测试,成功地研究了标记在不同 GSC 之间的相似性。

跨每个GSC数据集的子集测试训练好的模型,当整个测试一起使用时,在可观察到的结果中产生相同的趋势(S18图)。Mack等[25]的平均模型性能有所提高。与 S5 相比的派生数据集图。GSC2 是唯一一个在使用不同随机种子和数据子集的 10 次模型运行中平均 PCC 结果下降的数据集。


https://doi.org/10.1371/journal.pcbi.1012272.s021


(TIFF)


S21 图。 使用 H3K27Ac 训练和测试(跨测试数据子集)时的 SCC 结果仅支持其他实验。

与我们使用 10 次运行/随机种子的训练数据子集的其他实验一样,分布的标准差高于(S8 图)中可视化的标准差,趋势是相同的。总体而言,这些值只有 0.044 的范围。


https://doi.org/10.1371/journal.pcbi.1012272.s022


(TIFF)


S22 图。 跨测试数据子集的模型评估可扩展到具有相似结果的单患者实验。

我们开发了 GSC1 → GSC2 子集方法的变体,其中训练和测试都在同一 GSC 数据集中进行。这种安排本质上成为患者内部的交叉染色体设置,对保留数据的子集进行测试。在图A中,GSC1和GSC2的第一部分作为训练集,将第2-10部分作为不同随机种子的单独测试集的PCC结果。正如我们在该研究的其他单患者结果(S12A图)中指出的那样,平均PCC与各种跨患者结果(图4、6和S5)相当。面板 B 可视化了同一数据集子集中同一组实验的 SCC 结果。SCC 值低于 PCC 值,但支持所有其他值。该子集检验方法产生的标准差高于其他检验,而整体模型输出在所有检验中保持一致。


https://doi.org/10.1371/journal.pcbi.1012272.s023


(每股收益)


S23 图。 患者内亚群实验中的特征重要性发现 H3K27Ac 是基因表达预测的最重要特征。

H3K27Ac 是 GSC1 (A) 和 GSC2 (B) 患者体内检测中最重要的特征。


https://doi.org/10.1371/journal.pcbi.1012272.s024


(每股收益)


S1 表。 XGBoost 回归模型超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s025


(XLSX)


S2 表。 多层感知器超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s026


(XLSX)


S3 表。 分支多层感知器超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s027


(XLSX)


S4 表。 卷积神经网络超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s028


(XLSX)


S5 表。 循环神经网络超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s029


(XLSX)


S6 表。 梯度提升回归超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s030


(XLSX)


S7 表。 支持向量回归超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s031


(XLSX)


S8 表。 多元线性回归超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s032


(XLSX)


S9 表。 用于实验设置的平均模型脚本运行时测量值。

https://doi.org/10.1371/journal.pcbi.1012272.s033


(XLSX)


S10 表。 单患者 XGBoost 回归模型超参数。

https://doi.org/10.1371/journal.pcbi.1012272.s034


(XLSX)


S11 表。 当 H3K27Ac 是唯一特征时,11 个测试 GSC 数据集中的 10 个的平均 PCC 增加。

Mack等人数据集的百分比变化值,每个数据集分为10个不重叠的部分,与其他测试策略的百分比变化值一致(表1)[25]。GSC2 是唯一一个仅使用 H3K27Ac 测试时性能下降的数据集。这支持了这样一种观点,即仅 H3K27Ac 信号就足以使用本研究的实验装置进行强基因表达预测。


https://doi.org/10.1371/journal.pcbi.1012272.s035


(XLSX)


确认

这项研究是使用布朗大学计算与可视化中心的计算资源和服务进行的。我们感谢布朗大学 COBRE-CBHD 计算生物学核心成员和阿尔伯特爱因斯坦医学院的 Eduardo Fajardo 的支持。


引用

1.拉西亚 JD、麦克 SC、穆尔卡恩斯-休伯特 EE、瓦伦蒂姆 CLL、里奇 JN。胶质母细胞瘤中的癌症干细胞。基因开发 2015;29(12).

查看文章谷歌学术

2.Patel AP、Tirosh I、Trombetta JJ、Shalek AK、Gillespie SM、Wakimoto H. 单细胞 RNA-seq 突出了原发性胶质母细胞瘤的瘤内异质性。科学。2014;344(6190):1396–401.

查看文章谷歌学术

3.马萨 AT、老鼠 MR、赫恩登 MK、赫恩登 DR、默多克 BM、怀特 SN。全基因组蛋白修饰和 CTCF 富集可预测绵羊巨噬细胞中的基因表达。前基因。2021;11:612031.PMID:33488675

查看文章考研/NCBI谷歌学术

4.ENCODE 项目联盟。人类基因组中 DNA 元素的综合百科全书。自然界。2012;489(7414):57–74.PMID:22955616

查看文章考研/NCBI谷歌学术

5.罗 Y、希茨 BC、加布丹克 I、希尔顿 JA、卡格达 MS、林 B.DNA 元素百科全书 (ENCODE) 数据门户的新进展。核酸研究。2020;48(D1):D 882-9。

查看文章谷歌学术

6.陈 Y、梁 R、李 Y、江 L、马 D、罗 Q 等。染色质可及性:生物学功能、分子机制和治疗应用。信号转导目标 ther.2024;9(1):1–39.

查看文章谷歌学术

7.Bandau S、Alvarez V、江 H、Graff S、Sundaramoorthy R、Gierlinski M 等人 RNA 聚合酶 II 促进 DNA 复制后染色质的组织。EMBO 代表 2024;25(3):1387–414.PMID:38347224

查看文章考研/NCBI谷歌学术

8.Muniz L、Nicolas E、Trouche D. RNA 聚合酶 II 速度:控制和适应转录组组成的关键因素。EMBO J. 2021;40(15):e105740。

查看文章谷歌学术

9.Vaid R, 温 J, Mannervik M. 启动子近端暂停的 Pol II 的释放以响应组蛋白去乙酰化酶抑制。核酸研究。2020;48(9):4877–90.

查看文章谷歌学术

10.组蛋白修饰对染色质的调节 |细胞研究 [互联网]。[引自 2025 年 2 月 2 日]。可从: https://www.nature.com/articles/cr201122

11.Creyghton MP、Cheng AW、Welstead GG、Kooistra T、Carey BW、Steine EJ 等。组蛋白 H3K27ac 将活性增强子与平衡增强子分离并预测发育状态。Proc Natl Acad Sci U S A. 2010;107(50):21931–6.PMID:21106759

查看文章考研/NCBI谷歌学术

12.动态宽表观遗传(H3K4me3、H3K27ac)结构域作为必需基因的标志 |临床表观遗传学 |全文 [互联网]。[引自 2025 年 2 月 2 日]。可从:https://clinicalepigeneticsjournal.biomedcentral.com/articles/10.1186/s13148-021-01126-1

13.Jing F, Zhang S-W, Cao Z, Zhang S.一种综合框架,用于结合序列和表观基因组数据,使用深度学习预测转录因子结合位点。IEEE/ACM Trans Comput,生物生物信息。2021;18(1):355–64.PMID:30835229

查看文章考研/NCBI谷歌学术

14.希茨 BC、李 JW、乔兰基 O、卡格达 MS、格雷厄姆 K、Sud P.ENCODE 统一分析管道。自然方法。2017;14(11):1130–6.

查看文章谷歌学术

15.使用递归神经网络进行基于表观基因组的剪接预测 - PMC [互联网]。[引自 2024 年 6 月 23 日]。可从:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7343189/。

16.张 J、李 D、迪曼 V、江 P、徐 J、麦吉利夫雷 P 等。用于癌症基因组学的综合 ENCODE 资源。纳特公社。2020;11(1):3696.PMID:32728046

查看文章考研/NCBI谷歌学术

17.Meuleman W、Muratov A、Rynes E、Halow J、Lee K、Bates D 等。人类 DNase I 超敏位点的指数和生物光谱。自然界。2020;584(7820):244–51.PMID:32728217

查看文章考研/NCBI谷歌学术

18.Zwiener I, Frisch B, Binder H. 转换 RNA-Seq 数据以提高预后基因特征的性能。公共科学图书馆一号。2014;9(1):e85150。PMID:24416353

查看文章考研/NCBI谷歌学术

19.Hitz B、Kagda M、Lam B、Litton C、Small C、Sloan C 等。ENCODE 门户 [Internet] 上的数据导航。2023 [引用于 2024 年 6 月 23 日]。可从:https://www.researchsquare.com/article/rs-3088639/v1

20.阅读 DF、Cook K、Lu YY、Le Roch KG、Noble WS。使用组蛋白修饰、核小体定位和 3D 定位特征预测人类疟原虫恶性疟原虫中的基因表达。公共科学图书馆计算生物学 2019 年;15(9):e1007329。PMID:31509524

查看文章考研/NCBI谷歌学术

21.Bigness J、Loinaz X、Patel S、Larschan E、Singh R. 整合远程调控相互作用以使用图卷积网络预测基因表达。计算生物学杂志 2022;29(5):409–24.PMID:35325548

查看文章考研/NCBI谷歌学术

22.Karbalayghareh A、Sahin M、Leslie CS. 使用图注意力网络进行染色质相互作用感知基因调控建模。基因组研究 2022;32(5):930–44.PMID:35396274

查看文章考研/NCBI谷歌学术

23.Keys KL、Mak ACY、White MJ、Eckalbar WL、Dahl AW、Mefford J 等。关于基因表达预测模型的跨群体泛化性。公共科学图书馆基因。2020;16(8):e1008927。PMID:32797036

查看文章考研/NCBI谷歌学术

24.麦克 SC、辛格 I、王 X、赫希 R、吴 Q、维拉戈麦斯 R 等。染色质景观揭示了定义人类胶质母细胞瘤的发育编码转录状态。J Exp Med. 2019;216(5):1071–90.PMID:30948495

查看文章考研/NCBI谷歌学术

25.Singh R、Lanchantin J、Robins G、Qi Y. DeepChrome:用于预测组蛋白修饰基因表达的深度学习。Bioinforma Oxf Engl. 2016;32(17):i639-48。

查看文章谷歌学术

26.Kapoor S, Narayanan A. 基于机器学习的科学中的泄漏和可重复性危机 [互联网]。arXiv;2022 [引引于 2023 年 4 月 9 日]。可从:http://arxiv.org/abs/2207.07048

27.惠伦 S、施赖伯 J、诺布尔 WS、波拉德 KS。克服在基因组学中应用机器学习的陷阱。纳特牧师热内特。2022;23(3):169–81.PMID:34837041

查看文章考研/NCBI谷歌学术

28.久保 N、石井 H、熊 X、比安科 S、梅廷格 F、胡 R 等。启动子-近端 CTCF 结合促进远端增强子依赖性基因激活。Nat Struct 分子生物学 2021 年;28(2):152–61.PMID:33398174

查看文章考研/NCBI谷歌学术

29.卡伦 H、斯特里克 SH、布尔斯特罗德 H、加格里卡 S、约翰斯通 E、巴特利特 TE。胶质母细胞瘤干细胞对分化线索有反应,但未能经历承诺和终末细胞周期停滞。干细胞报告。2015;5(5):829–42.

查看文章谷歌学术

30.Dirkse A、Golebiewska A、Buder T、Nazarov PV、Muller A、Poovathingal S 等。胶质母细胞瘤中干细胞相关的异质性是由微环境塑造的内在肿瘤可塑性引起的。纳特公社。2019;10(1):1787.PMID:30992437

查看文章考研/NCBI谷歌学术

31.Auffinger B、Tobias AL、Han Y、Lee G、Guo D、Dey M 等。在胶质母细胞瘤模型中,在原次化疗后将分化的癌细胞转化为癌症干细胞样细胞。细胞死亡不同。2014;21(7):1119–31.PMID:24608791

查看文章考研/NCBI谷歌学术

32.Grinsztajn L, Oyallon E, Varoquaux G.为什么基于树的模型在表格数据上的性能仍然优于深度学习?[互联网]。arXiv;2022 [引用于 2023 年 3 月 29 日]。可从:http://arxiv.org/abs/2207.08815

33.陈 PB、Fiaux PC、张 K、李 B、久保 N、江 S 等。癌细胞适应性和增殖所需的增强子的系统发现和功能解剖。细胞代表 2022 年;41(6):111630.PMID:36351387

查看文章考研/NCBI谷歌学术

34.Zhuang H-H、Qu Q、Teng X-Q、Dai Y-H、Qu J. 超增强子作为脑肿瘤的主要基因调节因子和新的治疗靶点。Exp Mol Med. 2023;55(2):290–303.PMID:36720920

查看文章考研/NCBI谷歌学术

35.聚合酶 III 转录的 Alu 元件的全基因组分析表明细胞类型特异性增强子功能 - PMC [互联网]。[引自 2024 年 6 月 23 日]。可从:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6724667/。

36.XGBoost 中的随机森林 — xgboost 2.0.3 文档 [互联网]。[引自 2024 年 6 月 10 日]。可从:https://xgboost.readthedocs.io/en/stable/tutorials/rf.html

37.XGBoost 参数 — xgboost 2.0.3 文档 [互联网]。[引自 2024 年 6 月 10 日]。可从:https://xgboost.readthedocs.io/en/stable/parameter.htm

38.Singh R、Lanchantin J、Sekhon A、Qi Y. 参加和预测:通过对染色质的选择性关注来了解基因调控。Adv Neural Inf Process Syst. 2017;30:6785–95.PMID:30147283

查看文章考研/NCBI谷歌学术


阅读0
分享
写下您的评论吧