厦门免费医学论文发表-小队列规模的大量 RNA-Seq 差异表达和富集分析结果的可重复性

2025-05-09

厦门免费医学论文发表-小队列规模的大量 RNA-Seq 差异表达和富集分析结果的可重复性

彼得·梅西斯·德根 ,Matúš Medo


抽象

来自 RNA 测序 (RNA-Seq) 实验的转录组学数据具有高维和异质性,这给常规下游分析步骤(如差异表达分析和富集分析)带来了挑战。此外,由于实际和经济限制,RNA-Seq 实验通常仅限于少量的生物学重复。鉴于最近关于临床前癌症研究低可重复性的研究,了解群体异质性和把握度不足的队列规模如何影响 RNA-Seq 研究的可重复性至关重要。使用基于来自 18 个不同数据集的真实基因表达数据的 18'000 个子采样 RNA-Seq 实验,我们发现来自弱功效实验的差异表达和富集分析结果不太可能很好地复制。然而,低可重复性并不一定意味着结果的低精度,因为数据集表现出广泛的可能结果。事实上,18 个数据集中有 10 个实现了较高的中位精度,尽管对于重复次数超过 5 次的队列的召回率和可重复性较低。为了帮助受小队列规模限制的研究人员估计其数据集的预期性能方案,我们提供了一个简单的引导程序,该程序与观察到的可重复性和精度指标密切相关。我们最后提出了实用的建议,以缓解 RNA-Seq 研究能力不足的问题。


作者总结

由于 RNA 测序 (RNA-Seq) 实验的转录组学数据具有高维性和可变性,因此分析起来很复杂且具有挑战性。由于实际和财务限制,这些实验通常涉及有限的生物学重复。最近对癌症研究可重复性的担忧凸显了探索这种有限队列规模和群体异质性的组合如何影响 RNA-Seq 研究可靠性的必要性。为了研究这些问题,我们根据来自 18 个不同数据集的真实基因表达数据进行了 18'000 次子采样 RNA-Seq 实验。我们对每个实验进行了差异表达和富集分析,以获得重要的基因和基因集。我们表明,小队列规模的实验往往会产生难以复制的结果。我们进一步发现,虽然具有少量重复的低功效实验确实会导致几乎不可复制的结果,但这并不意味着结果一定是错误的。根据数据集的特征,结果可能包含大量或少量的误报。为了帮助复制数量有限的研究人员估计他们的数据集是这种情况,我们演示了一个简单的重采样程序来预测分析结果是否容易出现假阳性。


数字

图 3图 4图5图 1表 1图 2图 3图 4图5图 1表 1图 2

 

引文: Degen PM, Medo M (2025) 小队列规模的大量 RNA-Seq 差异表达和富集分析结果的可重复性。PLoS 计算生物学 21(5): e1011630 号。 https://doi.org/10.1371/journal.pcbi.1011630


编辑 器: Chongzhi Zang,美国弗吉尼亚大学


收到: 2023 年 10 月 24 日;接受: 2025 年 4 月 7 日;发表: 5月 5, 2025


版权所有: © 2025 Degen, Medo。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。


数据可用性: 支持本文结论的 GATB、GIPF 和 HSPL 数据集可从 GEO (https://www.ncbi.nlm.nih.gov/geo/) 公开获得。所研究数据集的 GEO 登录号分别为 GSE107994、GSE150910 和 GSE247382。SNF2 酵母数据是从第三方 GitHub 存储库 (https://github.com/Morris-Research-Group/bayexpress) 下载的。TCGA 数据集可从 GDC (https://portal.gdc.cancer.gov/) 公开获得。Zenodo (https://doi.org/10.5281/zenodo.8333519) 上提供了包含 Python 脚本和笔记本的持久性 Git 存储库,用于下载 TCGA 数据和执行分析。该存储库还包括我们用于生成数字的已处理(聚合)数据集,以及每个数据集的真值 DEG 列表和扩充术语。可通过 GitHub (https://github.com/pdegen/BootstrapSeq) 获得用于执行引导分析的独立存储库。


资金: 该研究项目得到了 Werner und Hedy Berger-Janser 癌症研究基金会 (https://www.krebskrankheiten.ch/) 的资助。这笔赠款授予了 MM。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。


利益争夺: 作者已声明不存在相互竞争的利益。


介绍

来自高通量测序技术的大量和高度异质的组学数据的可用性迅速增加,这刺激了适当的统计方法的发展 [1]。差异表达分析是检测实验条件(例如,正常组织与肿瘤组织)之间基因组特征表达水平的系统性差异的问题,是该领域的一个关键问题 [2–4]。这里的术语“基因组特征”可以指基因、外显子、转录本或任何其他感兴趣的基因组区域;为了简化符号,我们今后将使用总称“基因”。基因表达水平通常使用从下一代测序技术(如 RNA-Seq)获得的读长计数进行定量 [5]。由于生物和技术变异的来源多种多样,因此需要进行统计假设检验,以确定观察到的读取计数差异的显著性。在校正多重假设检验后通过显著性阈值的基因被指定为差异表达基因 (DEG)。它们可用于进一步的下游分析,例如富集分析 [6] 或后续湿实验室实验中的独立审查。


RNA-Seq 实验的统计能力自然会随着生物学重复次数的增加而增加。然而,对现有文献的回顾表明,实际的队列规模往往低于推荐的最小队列规模。例如,Schurch 等人。[7] 估计每种情况至少需要 6 次生物学重复才能稳健检测 DEG,当识别所有倍数变化的大多数 DEG 很重要时,增加到至少 12 次重复。Lamarre 等人。[8] 认为给定复制数 n 的最佳 FDR 阈值为 ,这意味着 0.05 和 0.01 的典型阈值需要 5 到 7 次重复。Bacarella 等人。[9] 警告每组不要使用少于 7 个重复,根据差异表达分析工具的选择,分析结果之间存在高度异质性。Ching 等人。[10] 考虑到队列大小和测序深度之间的权衡,在给定的预算限制下估计最佳队列大小。虽然强调队列大小和统计功效之间的关系在很大程度上取决于数据集,但他们的结果表明,大约需要 10 次重复才能获得统计功效。


Despite this body of research warning against relying on insufficient replication numbers, three replicates per condition remains a commonly used cohort size, and many RNA-Seq experiments employ fewer than five replicates [7]. A survey by Baccarella et al. [9] reports that about 50% of 100 randomly selected RNA-Seq experiments with human samples fall at or below six replicates per condition, with this ratio growing to 90% for non-human samples. This tendency toward small cohorts is due to considerable financial and practical constraints that inhibit the acquisition of large cohorts for RNA-Seq experiments, as including more patients in a study requires substantial time and effort, especially for rare disease types. More generally, a study by Dumas-Mallet et al. [11] suggests that as much as half of biomedical studies have statistical power in the 0–20% rage, well below the conventional standard of 80%. Button et al. [12] estimated the average power for neuroscience studies to be 21%. Modeling using optimization theory suggests that current incentive structures in science favor researchers who publish novel results from underpowered studies, resulting in half of all studies supporting erroneous conclusions [13]. In light of the prevalence of underpowered research, there is an urgent need for further investigation into the potentially detrimental effects of low-powered RNA-Seq experiments. Unfortunately, recent literature on this topic is limited.


Cui 等人最近进行了一项研究。[14],他对癌症基因组图谱 (TCGA) [15] 中的 RNA-Seq 数据进行了二次采样,并计算了二次采样队列中 DEG 的重叠。注意到小队列规模的结果重叠率低,作者建议每种情况至少使用 10 个重复,并谨慎解释低功效研究。Wang 等人基于 TCGA 数据进行了另一项研究。[16],他们主要关注的是评估可复制性的不同指标的比较。作者报告了显着异质性的结果,具体取决于所选的可重复性指标和研究的癌症类型。


更一般地说,Ioannidis [17] 提出了一种用于高通量发现导向研究的简单统计模型,其中 RNA-Seq 就是一个典型的例子。此模型可用于证明潜在的高假阳性结果率。尽管作者声称“大多数已发表的研究结果都是错误的”一直是相当多的争论主题 [18, 19],但确实如此,某些领域(如临床前癌症生物学)似乎正在与复制问题研究的高普遍性作斗争 [20, 21]。Errington 等人。[22] 最近进行了一项大规模复制项目,试图在临床前癌症研究中复制 23 篇高影响力论文中 50 次实验的 158 种效应,成功率为 46%。此外,作者发现 92% 的复制效应大小小于原始研究。


在所述问题的推动下,我们的目标是研究从小队列中获得的 RNA-Seq 分析结果的可重复性和可靠性。与 Cui 等人的研究相比。[14] 和 Wang 等人。[16],我们全面探索了各种分析参数和决策的空间,包括更广泛的数据集、差异表达分析工具的选择、倍数变化过滤方法以及对下游基因集富集分析的影响。此外,我们提供了一个实用的 bootstrapping 程序来估计给定数据集的预期可重复性和精度水平。这种广泛的实验使我们能够为处理受队列规模限制的 RNA-Seq 数据集的研究人员制定建议。


材料和方法

我们研究 RNA-Seq 分析结果可重复性的主要策略是基于从大型数据集中重复对小队列进行子采样,并确定这些子样本分析结果之间的一致性水平(图 1)。我们通过查询两个公共数据存储库获得了如此大的数据集:癌症基因组图谱 (TCGA) 和基因表达综合 (GEO)。我们总共获得了 18 个数据集,如表 1 所示。


缩略图下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 1. 研究设计的流程图。


顶板:从公共存储库获得的大型 RNA-Seq 数据集进行二次采样,以产生 100 个大小为 N 的小队列,这些队列分别分析并成对比较以衡量结果之间的一致性水平。此外,对整个源数据集运行相同的分析步骤以定义基本实况,从而可以计算结果的精度和召回率。对 18 个不同的数据集和 10 个不同的队列大小重复此过程,范围从 3 到 15(总共 18'000 个队列)。底板:对于给定的小型队列,使用替换对重复进行重新采样,以产生 25 个引导队列。使用 Spearman 秩相关将自举队列的对数倍数变化分布与原始队列进行比较,该相关性用作线性回归模型中的预测因子,以预测顶部面板中的性能指标。


https://doi.org/10.1371/journal.pcbi.1011630.g001


缩略图下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

表 1. 使用的 RNA-Seq 数据集摘要。

https://doi.org/10.1371/journal.pcbi.1011630.t001


对于每个数据集和目标队列规模,我们通过从完整数据集中随机选择一个具有 N 个重复的小队列,对 100 个 RNA-Seq 实验进行了二次抽样。这些子抽样实验可以解释为独立研究,旨在使用相同的方法回答相同的研究问题,但基于从总体中抽取的不同队列。尽管给定样本可能出现在多个子抽样队列中,但每个队列内部都由唯一的样本组成。我们总共对 18'000 个队列进行了子抽样,并使用多个分析管道分析了每个队列。对于具有配对样本的数据集(即 来自同一供体的正常和肿瘤组织样本),我们的子采样保留了样本的配对。


RNA-Seq 数据集

表 1 列出了本研究中使用的数据集。所有数据集均从公共存储库下载,作为经过预处理的、未规范化的整数读取计数的矩阵。


本研究中使用的数据集分为三种情况:来自 TCGA 的正常与肿瘤组织样本、来自 TCGA 的肿瘤与肿瘤组织样本以及其他非癌症数据集。Replicate (仿) 列列出了每种条件 (对照 vs. 扰动) 中的样本数。设计列列出了用于控制混杂因素的试验设计。配对设计数据具有来自同一患者的匹配正常和肿瘤组织样本。受控数据不匹配,但使用临床变量作为协变量。根据我们从中获得它们的原始研究,两个数据集没有进行混杂因素控制。


我们使用自定义 Python 笔记本下载了 TCGA 数据集,该笔记本访问了美国国家癌症研究所的 Genomic Data Commons [23] 的 API。对于每个原发性癌症部位,我们按实验策略 (RNA-Seq) 和数据类别 (转录组分析) 过滤了可用病例。为了提高统计功效 [10, 24],我们专注于配对设计实验,每位患者有一个正常组织样本和一个匹配的原发性肿瘤样本。有 8 个项目,至少有 50 名患者。为避免队列异质性过大,我们只保留了给定项目中最常见疾病类型的患者。


除了正常与匹配的肿瘤比较外,我们还下载了不匹配的乳腺癌 (BRCA) 组织样本以进行肿瘤组织之间的比较。为此,我们将 BRCA 样本分为四种亚型:管腔 A、管腔 B、基底样和 HER2 富集。亚型标签来自先前使用相同TCGA数据的研究[25]。为了减少混杂因素的数量(在队列规模较小时至关重要),我们删除了少数来自男性供体的样本。


我们还在 GEO 中查询了具有足够多样本的非癌症数据,并确定了三个样本不匹配的数据集。GATB 数据集(系列登录号 GSE107994 [26])比较了对照样本与活动性结核病患者。GIPF 数据集 (GSE150910 [27])比较了对照样本与特发性肺纤维化患者。HSPL 数据集(系列登录号 GSE247382 [28])比较了妊娠早期和妊娠晚期的人胎盘样本。最后,我们纳入了酿酒酵母(酵母)数据集,该数据集用于先前的差异表达分析方法学研究 [7]。该数据集将野生型样本与突变 SNF2 基因的样本进行比较,SNF2 基因是导致转录发生显著变化的转录激活因子的一部分。


所有 18 个数据集的重复次数中位数为 58.5(范围 39-161)。对于每个数据集,我们使用 edegR 中的 filterByExpr 函数过滤了低表达(因此信息量不足)的基因 [4]。


差异表达分析

对于每个子采样实验,我们使用流行的 R 包 edgeR [4] 和 DESeq2 [3] 确定了对照样本和扰动样本之间差异表达的基因。在考虑小样本量 [7] 和整体性能 [10] 时,这两个软件包都位列领先工具之列,截至 2025 年 2 月 20 日,在 Google Scholar 上的引用次数分别为 39'962 和 76'979。


在测试差异表达之前,我们分别使用 edgeR 的 calcNormFactors 函数和 DESeq2 的 estimateSizeFactors 对计数进行归一化。对于正常肿瘤情况,使用配对样本设计矩阵来提高统计功效和对患者水平混杂因素的控制。对于肿瘤-肿瘤情况,样本不匹配,我们反而控制了年龄和肿瘤纯度。对于其余数据集,我们使用相应的原始研究来确定要控制的协变量。具体来说,对于 GIPF 数据集,我们控制了年龄、性别和吸烟史。(种族作为第四个协变量被删除,因为我们的研究调查的是小队列规模。对于最小的队列大小 ,在大多数情况下,具有四个协变量会产生秩缺陷设计矩阵,从而使分析变得不可能。使用 scikit-learn [29] 进行的随机森林特征重要性分析显示,种族是四个协变量中信息量最少的。对于 HSPL 数据集,我们控制了胎儿性别。对于 GATB 和 SNF2 数据集,未考虑其他协变量。


除非另有说明,否则我们在 Benjamini-Hochberg 调整后的 p 值上使用 5% 阈值来确定显着 DEGs,以控制错误发现率 (FDR);今后,我们将使用术语“FDR”来指代调整后的 p 值。为了测试差异表达,我们考虑了几种统计方法,如 S1 文本中的表 A 所列,并在接下来的两段中描述。


首先,需要解决的一个重要问题是最小绝对倍数变化的问题,低于该变化的基因被认为不值得关注。有两种方法可以过滤倍数变化较小的基因。统计原则的方法是正式检验原假设 ,其中 t零是所选的最小有效阈值 [30]。然而,许多从业者反而使用另一种方法,我们将将其命名为事后阈值(在 [31] 中也称为双重过滤)。在这种方法中,仅正式测试零倍变化的零假设,然后进行过滤步骤,其中删除估计倍数变化低于所选截止值的重要基因。这种方法的一个缺点是 FDR 不再被正确控制在指定的显著性水平。与正式的统计测试相比,事后阈值是一种更宽松的方法,因为勉强通过阈值的基因在正式测试中可能无法达到统计学意义。为了简洁起见,我们专注于正文中的正式阈值,并在 S2 文本中包含事后阈值的结果。


对于 DESeq2,我们使用了默认的 Wald 测试,该测试测试高于用户指定的绝对倍数变化阈值的差异表达。对于 edgeR,有多种统计测试可用。当不使用倍数变化阈值时,两种可用方法包括似然比检验 (LRT) 和准似然 F 检验 (QLF)。作者将 QLF 测试描述为当重复次数较少时提供更保守和可靠的 I 型错误控制 [32]。然而,当使用正式的倍数变化阈值时,edgeR 的作者建议使用相对于阈值的 t 检验 (TREAT) [30]。与其他方法一样,TREAT 是一种参数方法,它要求在进行任何测试之前将负二项式模型拟合到数据。用户可以在 glmFit 或 glmQLFit 函数之间进行选择,这两个函数分别用于 LRT 和 QLF 管道。edgeR 中的 TREAT 实现检测使用了哪个功能,并相应地进行修改后的 LRT 或 QLF 测试。因此,我们使用 LRT 和 QLF 标签来表示我们对 TREAT 的使用。


总而言之,我们使用了三个统计测试: DEseq2 Wald 、 edgeR LRT 和 edgeR QLF 。对于每个测试,我们使用了 t 的正式倍数变化阈值零= 1(结果显示在正文中),以及 t零= 0,有和没有 t 的事后阈值发布= 1(结果显示在 S2 文本中)。


富集分析

随后对每个子采样队列进行差异表达分析,我们进行了基因集富集分析 (GSEA) [6]。具体来说,我们在预排序模式下使用了 Python 包 GSEApy [33]。该方法将实验中表达的所有基因的列表作为输入,按用户提供的指标排名,例如对数折叠变化 (logFC) 或签名对数 p 值。然后,该方法测试给定的生物注释基因集是否在排名基因列表的最末端富集,同时考虑到所提供指标的大小。


为了节省计算资源,我们将对 GSEA 结果的调查限制在队列大小 。对于排名指标,我们使用了 logFC,这是一个流行的选择,对应于标准(非预排名)模式下 GSEApy 的默认参数。然而,为了通过 logFC 对基因进行排名,DESeq2 作者建议使用他们包含的收缩估计器之一来获得更稳定的 logFC 估计。因此,我们使用 DESeq2 中的自适应收缩 (ashr) [34] 选项计算了收缩的 logFC 估计。重要的是要记住,根据 DESeq2 作者的建议,缩小的 logFC 估计值仅用于对基因进行排序,而不用于调用 DEG。


对于基因集,我们使用了由 Enrichr [35] 管理并从 GSEApy 访问的文库。具体来说,我们测试了京都基因和基因组百科全书 (KEGG) 中丰富的通路,以及生物过程子域 (BP) 中丰富的基因本体论 (GO) 术语。对于人类数据,我们使用了 KEGG_2021_Human 和 GO_Biological_Process_2023 库。对于酵母数据,我们使用了来自相应 YeastEnrichr 数据库的 KEGG_2019 和 GO_Biological_Process_2018。为了确定基因集的重要性,我们再次在 Benjamini-Hochberg 调整后的 p 值上使用 5% 阈值来控制 FDR。


实验可复制性

我们继续介绍本文中使用的一个基本性能指标。目标是衡量从具有相同队列规模的子抽样实验中获得的结果之间的相互一致性水平(图 1)。为此,我们将分析结果集指定为 S我,其中 S 可以是一组 DEGs、一组富集的 GO 项或一组富集的 KEGG 通路,并为实验编制索引。然后,我们使用 Jaccard 指数(交集对并集)来定义两个子采样实验结果的实验间可重复性,



(1)

该值介于 0(结果无重叠)和 1(完全一致)之间。如果任一 S 为空,我们将可复制性定义为 0。我们报告了所有不同对 (i,j) 的中位实验可重复性。


真值和二进制分类指标

分析管道由倍数变化阈值方法(零、正式、事后)和用于 DEG 识别的统计测试(edgeR QLF、edgeR LRT、DESeq2 Wald)组成。除了测量实验的可复制性外,我们还通过在包含所有仿行的完整数据集上运行相应的管道来定义特定于管道的地面实况(表 1)。这将生成一个 ground truth DEG 及其相应的 ground truth logFC 估计值列表。同样,通过使用来自完整数据集的收缩 logFC 估计进行富集分析,可以获得富集基因集的基本实况。


在确定了 DEGs 和富集基因集的基本事实后,我们计算了两个经典的二元分类指标:精确率(阳性预测值)和召回率(敏感性)。这种方法使我们能够量化小队列规模的结果与从大得多的队列中获得的结果相似的程度。这些指标定义为




其中 TP = 真阳性,FP = 假阳性,TN = 真阴性,FN = 假阴性。当分母为零时(即,当没有基因通过显著性阈值时),精度是不确定的,并且被排除在中位数等汇总统计的计算之外。


引导小型群组

我们的研究设计基于通过对大型 RNA-Seq 队列进行二次采样来创建小型队列。为了满足从业者分析单个小型队列的需求,我们提出了一种简单的重采样策略来估计差异表达和富集结果的预期可靠性。该程序基于成熟的 bootstrap 统计技术 [36],如图 1B 所示。给定一个具有 N 个不同重复的数据集,通过从原始 N 个重复集中替换 N 个“新”重复进行重新采样来创建自举计数矩阵。对于配对设计数据集,匹配的样本始终联合重采样;对于未配对的数据集,每个条件将单独重新采样。接下来,使用引导数据集通过 DESeq2 计算 logFC 估计值。然后将自举的 logFC 估计值与原始数据集中的估计值进行比较,以评估它们的可变性。具体来说,每个基因都根据其 logFC 进行排名,在此基础上计算自举排名和原始排名之间的 Spearman 排名相关性。低相关性表明倍数变化估计对队列构成中的扰动敏感。由于我们对测量给定数据集的内在可变性水平感兴趣,因此我们不对 logFC 使用收缩估计器,因为它会通过设计来减少可变性。


对 k 次试验重复整个 bootstrap 过程,以估计平均 Spearman 相关性。在我们的例子中,我们选择了 k = 25 次试验来限制计算负载。然而,在现实世界的场景中,从业者通常只有少量的数据集,因此可以很容易地增加试验的数量。为了节省计算资源,我们仅使用 DESeq2 演示了引导。最后,我们将评估限制在每个数据集的 50 个大小为 N = 5 和 N = 10 的队列中,总共 45'000 个自举队列。


结果

统计检验的比较

给定统计测试 (QLF、LRT、Wald) 和倍数变化阈值的 DEG 的经验真实值是通过分析给定数据集中的所有重复得出的。S2 文本中的图 A 显示了不同测试和倍数变化阈值的 DEG 数量。根据数据集和阈值方法,地面实况在两个数量级上变化,从 120 到 14'730 度。在不同的统计测试中,真实 DEG 的数量保持相对一致,平均 Jaccard 指数为 0.87,表明一致性很强。S1 文本中的图 A 比较了从子抽样队列得出的结果的三个测试。LRT 和 Wald 测试的性能相当;然而,QLF 测试通常过于保守,无法用于最小的队列规模,尽管它提供了最高的精度。对于 SNF2 数据集,所有 3 项测试的性能都相当。关于倍数变化阈值策略,形式化方法提供了比事后滤波更可靠的 I 类错误控制。此外,当队列规模较大时,根本不使用任何阈值会产生不切实际的大量 DEG。因此,在本文中的其余部分,我们将重点介绍使用正式阈值为 的 Wald 检验得出的结果。其他测试和阈值的结果显示在 S2 文本的图 B-I 中。


DEG 性能指标

我们继续探索 DEG 的性能指标如何随队列大小 N 而变化。图 2A 显示了 100 个子采样队列的中位复制率与队列大小的函数关系。除 SNF2 数据集外,所有数据集对 N = 3 的最小队列规模均显示出低 (<0.5) 复制性。对于 N = 15 的最大队列规模,我们观察到根据数据集的广泛复制性值。DEG 的中位数如图 2B 所示。


缩略图下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 2. DEG 性能指标作为队列规模的函数。


每个符号汇总了 100 个队列的中位数。所有面板都显示使用 DESeq2 Wald 检验的结果。使用其他测试和折叠更改阈值的结果显示在 S2 文本中。


https://doi.org/10.1371/journal.pcbi.1011630.g002


比较 DEG 的精确率和召回率(图 2C 和 2D),我们观察到对于小队列规模,精确率的上升幅度比召回率上升得更陡峭。具体来说,我们观察到 18 个数据集中有 10 个(SNF2、GATB、HSPL 和除 PRAD 之外的所有正常肿瘤数据集)超过 N>5 的精度 0.9,其中 7 个数据集(GATB、LIHC 和 LUAD 除外)达到目标精度 。相比之下,对于除 SNF2 之外的所有数据集,N<7 的召回率都低于 0.5。从这些观察中,我们得出结论,假阴性 (低召回率) 是比假阳性 (低精确度) 更重要的低可重复性驱动因素。


在 18 个数据集中,我们确定了两个数据集,它们代表了观察到的性能指标的极端:SNF2(表现最佳)和 LMAB(表现最差)。我们将在下一节中描述这两个数据集的特征。


种群异质性和倍数变化膨胀

图 3A 和 C 显示了 SNF2 和 LMBA 数据集的样品相关性热图。使用使用 DESeq2 归一化的计数矩阵估计的 logCPM(每百万计数)值计算相关性。在 SciPy [37] 中使用 Ward 方法使用分层聚类对热图行和列进行排序。我们从图 A 中观察到,SNF2 样品完美地聚集在两种条件(野生型和突变型)中,每种条件内具有很高的种群同质性。相比之下,LMAB 样品非常差地聚集在两种条件(管腔 A 和管腔 B)中,样品之间的异质性很高。这些发现与预期一致,因为 SNF2 样本来源于细胞集落,而 LMAB 样本来源于异质性肿瘤组织。此外,管腔 A 与管腔 B 样本相对更相似于其他具有肿瘤比较的数据集,导致所有数据集中条件的聚类分离最差(有关其他热图,请参见 S3 文本中的图 A-H)。


缩略图下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 3. SNF2 和 LMAB 数据集的热图和倍数变化估计。


左列:显示 SNF2 和 LMAB 数据集样本的 logCPM 相关性的热图。热图行和列使用分层 Ward 聚类进行排序。右列:SNF2 和 LMAB 数据集中表达基因的倍数变化估计值。蓝点表示完整数据集的真实估计值。灰色(红色)条形表示从 100 个大小为 N = 3 (N = 15) 的子抽样队列中获得的估计值的四分位距。水平虚线表示用于定义 DEG 的 logFC 阈值。图例列出了与虚线交叉的条形数。


https://doi.org/10.1371/journal.pcbi.1011630.g003


图 3B 和 3D 中的蓝色符号显示了 SNF2 和 LMAB 数据集中表达的所有基因的基本真实 logFC 估计值(忽略了 DESeq2 无法计算 logFC 的一小部分基因)。来自所有 100 个子采样队列的 logFC 估计值的四分位距 (IQR) 也显示为 N = 3 的灰色条和 N = 15 的红色条。对于 SNF2 数据集,来自子采样队列的估计值显示,即使对于最小的队列大小 N = 3,也几乎没有变化。然而,对于 LMAB 数据集,N = 3 估计值显示出很大的变异性,所有基因中有 31.2% 的 IQR 超过了绝对 logFC 阈值 1(我们用它来定义 DEGs)。当 N = 15 时,超过阈值的基因数量下降到 8.99%,这仍然是 N = 3 的 SNF2 数据集相应数量 (4.36%) 的两倍。尽管大多数其他数据集的交叉次数与 LMAB 相当甚至更高(S3 文本中的图 I-P),但 LMAB 在地面实况中的 DEG 数量最少(S2 文本中的图 A)。因此,对于小队列,来自夸大的 logFC 估计的虚假结果的比例很大,导致精度差。


总而言之,SNF2 和 LMAB 在图 2 中分别表现出最高和最低的精度也就不足为奇了。SNF2 数据集是如此同质,并且按条件很好地分离,以至于子抽样对 logFC 估计的影响很小,即使对于最小的队列规模,它也几乎没有变化。相比之下,LMAB 数据几乎没有真正的 DEG,并且 logFC 估计值表现出很大的抽样方差,这导致 logFC 估计值要么被夸大,要么被压缩。在非 DEG 膨胀的情况下,相应的基因更有可能假地通过显著性和倍数变化阈值,从而产生假阳性。这种效应在统计学中也称为回归均值。更普遍地说,在一系列领域中,已经报道了把握度不足的研究可能会夸大效应大小并破坏结果的可靠性[12,38,39]。


扩充性能指标

S2 文本中的图 A 显示了 KEGG 和 GO 文库的基本实况中富集术语(重要基因集)的数量。正文中的图 4 显示了来自 GO 生物过程子域的丰富术语的性能指标。KEGG 的结果在质量上相似,如 S2 文本中的图 J 所示。所有图均显示了从具有自适应收缩率的 logFC 估计中获得的结果。


缩略图下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 4. 扩充性能指标作为队列大小的函数。


每个符号汇总了 100 个队列的中位数。所有面板都显示了来自 GO 生物过程子结构域的富集项。


https://doi.org/10.1371/journal.pcbi.1011630.g004


比较图 2C 和 4C,我们观察到富集项的精度通常比 DEG 的精度差(对于 N = 15,DEG 精度中位数为 0.95,富集精度中位数为 0.75)。相比之下,富集项通常表现出更好的回忆(对于 N = 15,DEG 回忆中位数为 0.41,富集回忆中位数为 0.73)。DEG 和富集项之间的中位复制性相似。


值得注意的是,与 DEG 的精度相比,LMAB 数据集显示丰富术语的精度要高得多。从 S2 文本中的图 A 中,我们还观察到 LMAB 数据集是真实值中最大的富集信号之一,尽管它是高于倍数变化截止值的 DEG 最少的数据集。这表明不适合差异表达分析的数据集不一定不适合富集分析。


图 S2 文本中的西北显示了比较从缩小和未收缩 logFC 估计中获得的富集指标的箱形图。我们观察到,缩小的 logFC 估计在 N = 3 时产生适度更高的精度,但代价是召回率和可复制性较低。对于 N = 15,收缩对度量的影响很小。


总体而言,我们观察到相当多的可能结果,具体取决于数据集,无论我们查看 DEG 还是丰富的术语。这使得在现实世界场景中使用低功效队列尤其成问题,除非从业者可以估计其数据集的可能性能制度。我们将在下一节中讨论这个问题。


引导

我们继续展示了一种实用的方法,以帮助研究人员使用低功率 RNA-Seq 数据集来确定其结果的预期可靠性。这个想法是重复对给定的数据集进行 bootstrap 重采样,并计算 bootstrap 数据集和原始数据集之间基因 logFC 排名的 Spearman 秩相关系数(下面称为 Spearman 相关性)。低相关性表明 logFC 估计对队列构成的变化很敏感,我们预计其精度和可复制性较低。


从图 5 中,我们观察到 Spearman 相关性确实是已识别 DEG 的精度、召回率和可复制性的一个很好的预测指标。特别是,Spearman 的启发式阈值表示高精度 ()。相反,应谨慎解释使用 Spearman 的数据集的结果,因为它们的精度可能很低,并且当将更多样本添加到队列中时,识别的 DEG 可能不再重要。


缩略图下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 5. 引导结果。


DEG 与队列规模的 bootstrap Spearman logFC 相关性的性能指标(精度、召回率和可复制性)。性能指标如图 2 所示。每个符号汇总了 y 轴上 100 个同类群组和 x 轴上 50 个同类群组的中位数。框列出了 Pearson 相关系数 r、决定系数 以及测试数据点基础分布不相关的原假设的 p 值。


https://doi.org/10.1371/journal.pcbi.1011630.g005


S2 文本中的图 K-L 分别显示了来自 KEGG 和 GO 数据库的富集基因集的相同图。结果在质量上与 DEG 获得的结果相似,尽管精度的预测能力适中。尽管如此,这些关联仍然足够强大,因此在使用低功效数据集进行富集分析之前运行引导程序是谨慎的。


S2 文本中的图 M-R 显示了使用两个非自举统计量的等效数字,这两个统计量可以直接从原始队列中计算出来:DEG 的数量和 logFC 分布的标准差。这两个指标都衡量数据中存在的信号强度,人们会预期较弱信号的精度和召回率较低。然而,在所有测试的场景中,这两个统计量的预测因子比自举的 Spearman 相关差得多。S2 文本中的图 S 也总结了三种不同统计数据的相对性能。


图 5 中的符号显示了 50 个队列的中位 Spearman 相关性。但是,如果同期群之间的相关性变化太大,则它就不再是任何给定单个同期群的有用预测因子。因此,我们在 S2 Text 的图 TA 和 TC 中显示了每个数据集 50 个队列的 Spearman 相关性的可变性,以及相应的精度。该图显示,低精度的数据集很少偶然产生具有高 Spearman 相关性的队列。相反,具有高精度的数据集很少产生具有低 Spearman 相关性的队列。S2 文本中的图 TB 和 TD 显示了所有数据集组合的精度和 Spearman 相关性的散点图。根据这些数据点,我们可以计算出精度超过给定阈值的经验概率,条件是 Spearman 相关性超过给定阈值。例如,对于 N = 10,Spearman 相关 >0.9 导致 96% 的案例的精密度为 >0.9,1% 的案例的精密度为 <0.8。更多示例在 S2 文本的第 1.6 节中给出。


讨论

我们全面分析了从小队列中获得的 RNA-Seq 差异表达结果的可重复性和可靠性。与 Cui 等人最近的工作相比。[14],我们使用了更广泛的数据集,考虑了多种分析工具,表征了倍数变化阈值策略,并评估了低可复制性对下游富集分析的影响(有关所用方法的详细比较,请参见 S1 文本中的表 B)。我们支持他们的结论,即从小队列 () 获得的差异表达结果通常会导致低实验间可重复性(他们使用术语“重叠率”)。与 [14] 相反,我们的结果表明,低可复制性并不一定意味着 DEGs 不会推广到更大的队列。根据总体中样本异质性的水平,具有少量重复的数据集仍然可以实现高精度,尽管召回率和可复制性较低。我们进一步表明,我们提出的 bootstrapping 程序可以成功预测我们测试数据集的 DEGs 和富集基因集的精度、召回率和可复制性。


Li 等人。[40] 最近报道称 edgeR 和 DESeq2 存在误报,正如它们在排列输入数据集中识别出的大量 DEG 所证明的那样,在这些数据集中,假设显着差异被排列消除。这个问题似乎与此处分析的 RNA-Seq 数据无关,因为:(1) 只有当样本数量很大时,DEGs 才开始出现在置换数据中 () 和 (2) 与未置换数据中发现的 DEG 数量相比,这样发现的 DEG 数量要小得多(S1 文本中的图 G)。在 [40] 中,对免疫疗法研究进行了最引人注目的观察。我们注意到,该数据集中一些高表达基因有几个已知会导致 edgeR 出现问题的零计数 [41];这可能是导致报告的行为的原因。


我们继续说明子抽样过程的效果。首先,我们注意到我们的结果基于相对较小的父数据集(中位数 N = 58.5)。这意味着我们的子抽样队列不可避免地包含队列之间的共享重复。最极端的情况是,对于最小的数据集 COAD,最大的子抽样队列大小 N = 15,有 39 个重复。在这种情况下,可以对不同的队列进行子采样。但是,两个子抽样队列之间共享的预期仿行数为 。与没有两个重复具有相同表达计数的情况相比,这些共享重复会略微夸大我们计算的可重复性指标。然而,S1 文本中的图 B 显示这种膨胀很小,约为 。


对于我们的 Ground Truth 定义,也可以进行类似的考虑。由于给定的子抽样队列中的样本也有助于我们根据该定义计算性能指标的真值定义,因此分析中存在一定程度的循环性。然而,当父数据集足够大于子采样数据集时,这种影响可以忽略不计(参见 S1 文本中的图 C)。完全避免循环性的另一种策略是从真实定义中排除子抽样的队列,为每个子抽样的队列生成单独的基本实况(类似于统计中的交叉验证技术)。然而,这样的研究设计将需要更多的计算资源,考虑到预期收益最小,这可能不值得付出努力。


我们研究的主要局限性是它专注于人体组织样本;SNF2(酵母细胞培养物)是唯一的例外。我们的结果对其他样本类型和生物体的普遍性仍有待检验。然而,由于 RNA-Seq 实验的广泛适用性,不可能在单一研究的范围内完全回答这个问题。此外,我们的研究仅限于批量 RNA-Seq 数据。对新技术(如单细胞和空间 RNA-Seq)的普遍性仍有待测试。然而,由于单细胞和空间分析管道的复杂性和计算要求大幅增加,基于重复子采样队列的类似可复制性研究将具有挑战性。相反,我们重点介绍了 Squair 等人最近的一项相关研究。[42],他表明不考虑生物变异性的差异表达分析统计方法很容易在单细胞数据中出现错误发现。


由于我们的研究设计对计算要求很高,我们将富集分析结果的探索限制在简单但流行的 GSEA 案例中,其基因由 logFC 预先排序。然而,富集分析是一个复杂的主题,具有许多研究人员的自由度,包括基因排名指标的许多选择。其他指标包括或计算计数矩阵中的信噪比 [43]。我们目前正在进行一项研究,以取代基于子样本的研究设计,以使用集成多种工具和排名指标的集成学习方法来提高丰富分析结果的稳健性。


结论

尽管科学中更广泛的复制危机 [20–22, 44, 45] 包括许多人为因素,例如功能失调的激励系统、选择性报告、统计培训不足和出版偏倚,但在这里,我们假设了其他理想的研究实践,并且只关心由于异质生物种群研究不足而引起的低可复制性。我们的研究结果表明,从小队列规模 () 获得的大多数 RNA-Seq 差异表达结果不太可能在复制实验中得到证实。然而,我们还观察到 DEGs 的低可复制性并不一定意味着假阳性的高普遍性,因为假阴性是低可复制性的更重要驱动因素。对于富集结果,我们发现与 DEG 相比,精度较低,召回率较高。一般来说,根据数据集的特征,性能指标存在很大差异,即使对于相对较小的群组规模,一些数据集也能实现高精度。因此,使用低功效队列规模进行 RNA-Seq 分析的从业者可能会面临错误研究的风险,除非他们能够估计其数据集的可能性能机制。为此,我们成功地使用了一个简单的引导程序来估计给定的小队列中结果是否可能有夸大的假阳性数量,以及预期的可重复性水平。最后,我们总结了对从小队列中获得的 RNA-Seq 数据的从业者的建议:


来自一个小队列的显著 DEGs 在另一个小队列(低复制性)中不太可能显著,除非已知该群体非常同质(例如 细胞培养)。

使用本研究中描述的 bootstrap 程序计算 Spearman 相关性可能有助于评估预期的可重复性和精度水平。如果观察到的 Spearman 相关性为 >0.9,则数据集对队列构成中的扰动具有鲁棒性,这可能会导致高精度和相对较高的可复制性。如果相关性为 <0.8,则数据集对扰动敏感,可能导致精度和可复制性低;因此,应谨慎解释结果。GitHub (https://github.com/pdegen/BootstrapSeq) 提供了用于执行引导和 Spearman 计算的 Python 工作流。

如果仅关注高于最小倍数变化的 DEG,我们建议对超过此阈值的差异表达进行统计测试,以更好地控制 I 型错误,而不是对 DEG 进行事后过滤。

具有正式倍数变化阈值的 DESeq2 Wald 和 edgeR LRT 测试在我们的评估中表现相当。除非数据非常均匀或包含强信号,否则 edegR QLF 测试通常对于非常小的队列来说不够强大,但在检测到任何 DEG 的情况下提供最高的精度。因此,对于验证性分析,我们推荐 QLF,而对于探索性分析,我们推荐 Wald 或 LRT。

支持信息

其他表格和图表。


显示 1/3: pcbi.1011630.s001.pdf


跳至 fig分享导航

很抱歉,我们无法加载您的数据。

1 / 3



下载

无花果分享

S1 文本。 其他表格和图表。

表 A:用于差异表达分析的统计测试。表 B:Cui 等人的比较。[14] 与这项研究。图 A:不同统计测试的性能指标。图 B:带替换的子抽样对可复制性的影响。图 C:真值中包含子样本对精确率和召回率的影响。图 D-F:Wilcoxon 符号秩检验的部分结果。图 G:来自 8 个排列和未排列数据集的 DEG。


https://doi.org/10.1371/journal.pcbi.1011630.s001


(PDF格式)


S2 文本。 其他数字。

图 A:真实大小。图 B-I:其他测试和倍数变化阈值的 DEG 性能指标。图 J:KEGG 富集性能指标。图 K-L:用于富集分析的 Bootstrapping 结果。图 M-R:根据非 bootstrap 统计数据预测性能指标。图 S:预测因子统计量的比较。图 T:Spearman 相关性的变异性。图 U-W:收缩与未收缩 logFC 的富集指标。


https://doi.org/10.1371/journal.pcbi.1011630.s002


(PDF格式)


S3 文本。 其他数字。

图 A-H:其余数据集的热图(不包括 SNF2 和 LMAB)。图 I-P:其余数据集的倍数变化图。


https://doi.org/10.1371/journal.pcbi.1011630.s003


(PDF格式)


确认

计算是在伯尔尼大学的 HPC 集群 UBELIX (http://www.id.unibe.ch/hpc) 上进行的。此处发布的结果部分基于 TCGA 研究网络生成的数据:https://www.cancer.gov/tcga。


引用

1.Baxevanis AD、Bader GD、Wishart DS。生物信息学。威利。2020.

2.Anders S, Huber W. 序列计数数据的差异表达分析。国家普雷克 2010 年。https://doi.org/10.1038/npre.2010.4282.1

3.Love MI, Huber W, Anders S. 用 DESeq2 对 RNA-seq 数据的倍数变化和离散进行调节估计。基因组生物学 2014;15(12):550.PMID:25516281

查看文章PubMed/NCBI谷歌学术

4.Robinson MD、McCarthy DJ、Smyth GK。edgeR:用于数字基因表达数据差异表达分析的 Bioconductor 软件包。生物信息学。2010;26(1):139–40.PMID:19910308

查看文章PubMed/NCBI谷歌学术

5.Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y. RNA-seq:技术重现性的评估以及与基因表达阵列的比较。基因组研究 2008;18(9):1509–17.PMID:18550803

查看文章PubMed/NCBI谷歌学术

6.Subramanian A、Tamayo P、Mootha VK、Mukherjee S、Ebert BL、Gillette MA 等人。基因集富集分析:一种基于知识的方法,用于解释全基因组表达谱。美国国家科学院院刊 2005 年;102(43):15545–50.PMID:16199517

查看文章PubMed/NCBI谷歌学术

7.Schurch NJ、Schofield P、Gierliński M、Cole C、Sherstnev A、Singh V 等人。RNA-seq 实验需要多少次生物重复,您应该使用哪种差异表达工具?核糖核酸。2016;22(6):839–51.PMID:27022035

查看文章PubMed/NCBI谷歌学术

8.Lamarre S, Frasse P, Zouine M, Labourdette D, Sainderichin E, 胡 G 等人.根据生物学重复数和文库大小优化 RNA-Seq 差异基因表达分析。前植物科学 2018;9:108。PMID:29491871

查看文章PubMed/NCBI谷歌学术

9.Baccarella A, Williams CR, Parrish JZ, Kim CC. 样品数量和读取深度对 RNA-Seq 分析工作流程性能影响的实证评估。BMC 生物信息学。2018;19(1):423.PMID:30428853

查看文章PubMed/NCBI谷歌学术

10.Ching T, Huang S, Garmire LX.RNA-Seq 差异表达的功效分析和样本量估计。核糖核酸。2014;20(11):1684–96.PMID:25246651

查看文章PubMed/NCBI谷歌学术

11.Dumas-Mallet E, Button KS, Boraud T, Gonon F, Munafò MR. 生物医学科学中的低统计能力:三个人类研究领域的回顾。R Soc 开放科学 2017;4(2):160254.PMID:28386409

查看文章PubMed/NCBI谷歌学术

12.Button KS、Ioannidis JPA、Mokrysz C、Nosek BA、Flint J、Robinson ESJ 等人。电源故障:为什么小样本量会破坏神经科学的可靠性。Nat Rev 神经科学。2013;14(5):365–76.PMID:23571845

查看文章PubMed/NCBI谷歌学术

13.Higginson AD, Munafò MR. 当前对科学家的激励措施导致研究力度不足,结论错误。PLoS 生物学 2016;14(11):e2000995。PMID:27832072

查看文章PubMed/NCBI谷歌学术

14.Cui W, Xue H, Wei L, Jin J, Tian X, Wang Q. 高异质性破坏了 RNA-Seq 分析中差异表达结果的泛化。嗡嗡基因组学。2021;15(1):7.PMID:33509298

查看文章PubMed/NCBI谷歌学术

15.癌症基因组图谱研究网络,Weinstein JN、Collisson EA、Mills GB、Shaw KRM、Ozenberger BA 等人。癌症基因组图谱泛癌种分析项目。Nat Genet.2013;45(10):1113–20.PMID:24071849

查看文章PubMed/NCBI谷歌学术

16.Wang J, Liang H, Zhang Q, 马 S. 癌症组学数据分析中的可复制性:措施和实证探索。简要的生物信息。2022;23(5):bbac304。PMID:35876281

查看文章PubMed/NCBI谷歌学术

17.约阿尼迪斯 JPA.为什么大多数已发表的研究结果是错误的。PLoS Med. 2005;2(8):e124。PMID:16060722

查看文章PubMed/NCBI谷歌学术

18.Jager LR,Leek JT。对科学错误发现率和对顶级医学文献的应用的估计。生物统计学。2014;15(1):1–12.PMID:24068246

查看文章PubMed/NCBI谷歌学术

19.韭菜 JT,雅格 LR。大多数已发表的研究真的是错误的吗?Annu Rev Stat Appl. 2017;4(1):109–22.https://doi.org/10.1146/annurev-statistics-060116-054104

20.贝格利 CG,埃利斯 LM。提高临床前癌症研究的标准。自然界。2012;483(7391):531–3.https://doi.org/10.1038/483531a

21.信不信由你:我们可以在多大程度上依赖潜在药物靶点的已发表数据?Nat Rev Drug Discov.2011;10(9):712.PMID:21892149

查看文章PubMed/NCBI谷歌学术

22.Errington TM、Mathur M、Soderberg CK、Denis A、Perfito N、Iorns E 等人。研究临床前癌症生物学的可重复性。eLife。2021;10.https://doi.org/10.7554/elife.71601

23.Grossman RL、Heath AP、Ferretti V、Varmus HE、Lowy DR、Kibbe WA 等人。朝着癌症基因组数据的共同愿景迈进。N Engl J Med. 2016 年;375(12):1109–12.PMID:27653561

查看文章PubMed/NCBI谷歌学术

24.Stevens JR, Herrick JS, Wolff RK, Slattery ML. 成对功效:评估成对样本在差异表达测试中的统计价值。BMC 基因组学。2018;19(1):953.PMID:30572829

查看文章PubMed/NCBI谷歌学术

25.Ciriello G、Gatza ML、Beck AH、Wilkerson MD、Rhie SK、Pastore A 等人。浸润性小叶乳腺癌的综合分子图谱。细胞。2015;163(2):506–19.PMID:26451490

查看文章PubMed/NCBI谷歌学术

26.Singhania A、Verma R、Graham CM、Lee J、Tran T、Richardson M 等人。模块化转录特征可识别人类结核病感染的表型异质性。Nat Commun.2018;9(1):2308.PMID:29921861

查看文章PubMed/NCBI谷歌学术

27.Furusawa H、Cardwell JH、Okamoto T、Walts AD、Konigsberg IR、Kurche JS 等人。慢性过敏性肺炎,一种具有不同分子特征的间质性肺病。Am J Respir Crit Care Med. 2020;202(10):1430–44.PMID:32602730

查看文章PubMed/NCBI谷歌学术

28.Gonzalez TL、Wertheimer S、Flowers AE、Wang Y、Santiskulvong C、Clark EL 等人。人胎盘的高通量 mRNA-seq 图谱显示从妊娠早期到妊娠晚期的大量转录组重塑。生物学复制 2024;110(5):936–49.PMID:38271627

查看文章PubMed/NCBI谷歌学术

29.Pedregosa F、Varoquaux G、Gramfort A、Michel V、Thirion B、Grisel O. Scikit-learn:Python 中的机器学习。J Mach Learn Res. 2011 年;12:2825–30.

30.麦卡锡 DJ,史密斯 GK。测试相对于倍数变化阈值的显著性是一种 TREAT。生物信息学。2009;25(6):765–71.PMID:19176553

查看文章PubMed/NCBI谷歌学术

31.Ebrahimpoor M, Goeman JJ. 火山图导致的错误发现率被夸大:问题和解决方案。简要的生物信息。2021;22(5):bbab053。PMID:33758907

查看文章PubMed/NCBI谷歌学术

32.伦 ATL, 陈 Y, 史密斯 GK.它是 DE-licious:在 edgeR 中使用准似然法对 RNA-seq 实验进行差异表达分析的配方。方法 Mol Biol. 2016;1418:391–416.PMID:27008025

查看文章PubMed/NCBI谷歌学术

33.GSEApy:用于在 Python 中执行基因集富集分析的综合包。生物信息学。2023;39(1):btac757。PMID:36426870

查看文章PubMed/NCBI谷歌学术

34.Stephens M. 错误发现率:一项新交易。生物统计学。2017;18(2):275–94.PMID:27756721

查看文章PubMed/NCBI谷歌学术

35.Chen EY, Tan CM, Kou Y, Duan Q, Wang Z, Meirelles GV, et al.Enrichr:交互式和协作式 HTML5 基因列表富集分析工具。BMC 生物信息学。2013;14:128.PMID:23586463

查看文章PubMed/NCBI谷歌学术

36.埃夫隆 B,蒂布希拉尼 RJ。引导程序简介。查普曼和霍尔/CRC。1994.

37.Virtanen P, Gommers R, Oliphant TE, Haberland M, Reddy T, Cournapeau D, et al. SciPy 1.0:Python 中科学计算的基本算法。Nat 方法。2020;17(3):261–72.PMID:32015543

查看文章PubMed/NCBI谷歌学术

38.约阿尼迪斯 JPA.为什么大多数发现的真实关联都被夸大了。流行病学。2008;19(5):640–8.PMID:18633328

查看文章PubMed/NCBI谷歌学术

39.Held L, Pawel S, Schwab S. 复制能力和回归均值。意义。2020;17(6):10–1.https://doi.org/10.1111/1740-9713.01462

40.李 Y, 葛 X, 彭 F, 李 W, 李 JJ. 分析人群样本时用流行的差异表达方法夸大假阳性。基因组生物学 2022;23(1):79.PMID:35292087

查看文章PubMed/NCBI谷歌学术

41.Medo M, Aebersold DM, Medová M. ProtRank:在蛋白质组学数据的差异表达分析中绕过缺失值的插补。BMC 生物信息学。2019;20(1):563.PMID:31706265

查看文章PubMed/NCBI谷歌学术

42.Squair JW、Gautier M、Kathe C、Anderson MA、James ND、Hutson TH 等人。面对单细胞差异表达的错误发现。Nat Commun.2021;12(1):5692.PMID:34584091

查看文章PubMed/NCBI谷歌学术

43.Zyla J, Marczyk M, Weiner J, Polanska J. 基因集富集分析中的排名指标:它们重要吗?BMC 生物信息学。2017;18(1):256.PMID:28499413

查看文章PubMed/NCBI谷歌学术

44.Freedman LP、Cockburn IM、Simcoe TS。临床前研究中可重复性的经济学。PLoS Biol. 2015;13(6):e1002165。https://doi.org/10.1371/journal.pbio.1002165

45.Baker M. 1, 500 科学家揭开了可重复性的盖子。自然界。2016;533(7604):452–4.PMID:27225100

查看文章PubMed/NCBI谷歌学术


阅读0
分享
写下您的评论吧