厦门免费医学论文发表-使用等位基因不平衡数量性状位点模型探索顺式作用基因调控的局限性
Cathal Seoighe ,肖恩·康奈尔,梅哈克·乔普拉
抽象
等位基因之间基因表达的不平衡是顺式作用表达数量性状位点 (eQTL) 的标志,已经开发了几种方法来利用等位基因不平衡来支持 eQTL 的鉴定。等位基因失衡也具有科学意义,并且可能具有临床意义,因为它可以侵蚀有害变异的影响在二倍体生物中缓冲的程度,并且据报道与病理基因组变异的外显率有关。在这里,我们开发并应用了一个统计模型,该模型旨在评估基因座的基因型是否与基因的等位基因不平衡程度相关,并将此类基因座称为等位基因不平衡数量性状基因座 (aiQTL)。我们方法的一个优点是它不依赖于 aiQTL 和相关基因之间的连锁不平衡,因此适用于鉴定在非常远的距离上以顺式作用的 eQTL。我们将模型应用于来自 GTEx 联盟的数据,并检查了 eQTL 与相关基因 TSS 的距离与 eQTL 在顺式中起作用的证据之间的关系。以前的研究使用与靶基因 1Mb 的距离作为 eQTL 在顺式中起作用的指标;然而,我们的结果表明,距离靶基因 TSS 超过 500 kb 的大多数 eQTL 可能在反式中起作用(从而影响两个基因拷贝)。此处使用的模型也非常适合比较样本之间等位基因不平衡的总体程度。我们表明,在某些组织中,等位基因失衡与年龄相关;然而,这种相关性可能是由于免疫细胞群的丰度随年龄的变化,因为我们发现样本水平等位基因失衡与全血样本中多种免疫细胞类型的推断丰度之间存在很强的相关性。
数字
图 4表 1图 1图 2图 3图 4表 1图 1图 2图 3
引文: Seoighe C, Connaire S, Chopra M (2025) 使用等位基因不平衡数量性状位点模型探索顺式作用基因调控的极限。PLoS 基因 21(4): e1011446 号。 https://doi.org/10.1371/journal.pgen.1011446
编辑 器: James J. Cai,美国德克萨斯 A&M 大学
收到: 2024 年 9 月 27 日;接受: 2025 年 3 月 27 日;发表: 4月 30, 2025
版权所有: © 2025 Seoighe et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 基因型和基因表达数据,包括等位基因特异性映射的读取计数,通过 dbGaP (https://dbgap.ncbi.nlm.nih.gov;研究登录:phs000424.v8.p2),在数据访问委员会批准(项目 20932)后。作者在访问数据时没有获得其他研究人员所没有的任何特殊特权(须经数据访问委员会批准)。可以通过 dbGaP (https://dbgap.ncbi.nlm.nih.gov) 发出访问受控访问数据的请求。我们模型的 R 实现(包括示例数据)在 GitHub 上公开提供,网址为 https://github.com/cseoighe/aiQTL。
资金: 本出版物源于在爱尔兰科学基金会的财政支持下进行的研究,资助号为 16/IA/4612 (CS) 和 18/CRT/6214(CS 和 MC)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 作者已声明不存在相互竞争的利益。
介绍
二倍体生物大多数基因有两个拷贝;但是,这两个副本的状态和活动可能非常不同。这种现象被称为等位基因失衡,可以在基因的许多特性中观察到,包括基因转录的 DNA 的染色质状态、来自基因每个等位基因的 mRNA 丰度、mRNA 剪接和转录后调控 [1]。对于某些基因,等位基因不平衡取决于等位基因的起源亲本。这被称为遗传印记,它导致基因表达完全或主要来自父系或母系来源的等位基因 [2]。在其他情况下,在给定细胞中表达的等位基因是随机的。已经发现大量基因至少在一定程度上受到这种随机单等位基因表达 (RMAE) 现象的影响 [3, 4]。等位基因失衡也可能具有遗传起源,这是由影响基因表达水平的顺式作用遗传变异引起的。我们之前曾建议,术语等位基因特异性表达 (ASE) 应专门用于具有遗传来源的等位基因不平衡,因为表达的差异取决于等位基因本身 [1]。
一般来说,影响基因表达的遗传变异(称为表达数量性状位点或 eQTL)可以顺式或反式起作用 [5–8]。顺式作用变异与同一染色体上附近基因的表达相关,而反式作用变异可能与未连接基因的表达相关。然而,eQTL 可能位于相关基因(或 eGene)附近,但变异会影响该基因的两个拷贝 [9, 10]。这样的变体通常不会直接作用于同时包含变体和基因的同一物理分子。为了本文所述的工作,重要的是要清楚地区分与 eGene 位于同一位置的 eQTL(我们称之为近端 eQTL)和直接作用于同一分子的 eQTL,因此仅影响位于同一染色体拷贝上的基因拷贝 [11]。我们仅对后一种情况使用术语顺式作用变体。以前的许多研究都默认或明确地假设近端 eQTL 在顺式中起作用 [12, 13],通常使用从转录起始位点 (TSS) 开始的 1 Mb 阈值来识别顺式作用变异 [12, 14]。在大多数情况下,这一假设可能是正确的,近端 eQTL 与等位基因失衡密切相关的事实证明了这一点 [13]。然而,将近端 eQTL 与其 eGene 分开的距离与 eQTL 在顺式中起作用的可能性之间的关系仍未得到充分探索。
由于顺式 eQTL 通常(但并非总是 [9, 10])导致基因表达的等位基因失衡,因此 ASE 已被用于辅助识别顺式 eQTL [11, 15–18]。相比之下,反式 eQTL 以等位基因非依赖性方式影响基因表达,通常是通过改变调节该基因的因子的活性或表达 [19]。这往往会导致该基因的两个等位基因的表达发生相似的变化 [20],因此 ASE 对反式 eQTL 的鉴定没有用。作为一种检测顺式作用遗传变异的方法,等位基因失衡的优势在于甚至适用于罕见变异,其中没有足够的样本包含替代等位基因,无法通过比较样本中基因的总表达水平来检测 eQTL [12, 21].然而,对等位基因之间统计学上显着的不平衡的观察本身不足以推断这种不平衡具有遗传原因,因为不能排除等位基因不平衡的其他来源。除了用于推断 eQTL 之外,等位基因失衡还被认为对编码区疾病变异的外显率有影响,而包含疾病变异的单倍型显示出表达降低的选择证据 [22]。
已经开发了几种统计模型,可以在推断顺式 eQTL 时考虑基因等位基因之间的不平衡 [17, 18, 23]。这些方法中的大多数需要分阶段数据,并模拟基因单倍型之间的表达不平衡以及两种单倍型的组合表达。这种对分相数据的要求对于模拟长程顺式作用变异来说可能是一个缺点,因为定相精度在大约1兆碱基的长度尺度上开始失效[24]。这里提出的方法不需要分阶段数据,而是关注基因中等位基因不平衡的程度是否取决于推定的 cis-eQTL 的基因型。一项关于等位基因失衡与推定的顺式作用 eQTL 基因型之间关系的早期研究首次进行了统计检验,将样本归类为显示等位基因表达失衡 [25]。然后对 2X3 列联表进行列联检验,按等位基因不平衡和推定顺式调节变异的基因型对样本进行分类。因为这种方法不需要单倍型推断,所以它可以应用于远离 eGene 的顺式调节变异;然而,它的缺点是,样本的二元分类是否不平衡会受到样本中等位基因特异性映射读数数量的偏差。最近的一项研究[16]也将样本分为是否表现出等位基因失衡,并比较了附近单核苷酸多态性(SNP)的基因型组之间等位基因失衡的样本比例,在这种情况下,仅限于比较在SNP上杂合或纯合的样本,而不是三个基因型组之间的比较。然后将该比例差异的证据与与总体表达水平相关的统计检验证据相结合,以推断顺式 eQTL,结果成功地用于帮助精细定位 GWAS 基因座的因果变异 [16]。同样,基因的二元分类是否表现出不平衡有可能限制功效,并因样本之间映射读数数量的差异而引入偏差。在另一种方法中,ASEP [26] 使用有限混合物来模拟等位基因特异性读长计数,假设表达更高的单倍型是已知的并且在样本中是一致的。这也需要假设因果遗传变异和受影响的基因之间存在联系。
在这里,我们开发了一个基于对称 β 分布的统计模型,以识别与基因等位基因不平衡程度相关的遗传变异,并将其称为等位基因不平衡数量性状位点 (aiQTL)。我们的方法不需要 eQTL 和受影响基因中的变异之间的连锁不平衡,也不要求基因的过表达等位基因在个体之间是一致的。使用模拟,我们证明了该模型具有检测顺式作用 eQTL 的能力。将该模型应用于来自 GTEx 联盟的数据 [13],我们确定了 eQTL 与其靶基因的距离与其在顺式中起作用的可能性之间的关系。该模型还使我们能够识别起作用于顺式的 eQTL 示例,尽管它们与 eGene 相隔相对较远。最后,我们探讨了个体之间和组织之间等位基因失衡的总体程度的差异以及这些差异的来源。尽管当 eQTL 位于 eGene 小于一个兆碱基时,它们通常被报道为推定的顺式作用,但我们的研究结果表明,来自 eGene 的半个兆碱基到 1 兆碱基之间的大多数 eQTL 不在顺式中起作用。等位基因失衡的总体程度显示,某些组织与年龄呈弱相关性,组织间存在显著差异。在全血数据中,我们发现等位基因失衡的总体程度与推断的免疫细胞比例显示出相对较强的相关性。免疫相关基因的不平衡和免疫细胞比例的差异可以解释观察到的组织间差异以及与年龄的弱相关性,因为当我们校正免疫细胞类型比例时,等位基因失衡与年龄的相关性在全血中不再显着。
数据和方法
数据
在数据访问委员会批准(项目 20932)后,通过 dbGaP 获得来自 GTEx V8 的基因型和基因表达数据,包括等位基因特异性映射的读取计数。我们还从 GTEx Portal 获得了完整的、开放获取的 cis-eQTL eGene 对集。
模型和实现
给定等位基因特异性映射读数的总数,映射到基因特定单倍型的读数数通常建模为 β 二项式随机变量。当给定试验的成功概率是具有参数 和 的 beta 随机变量时,具有参数 、 的 beta 二项式随机变量可用于对在 N 伯努利试验中观察到的成功次数进行建模。在等位基因特异性表达的应用中,成功是从 A 等位基因衍生的读数(eGene 的等位基因之一被任意指定为 A 等位基因)。我们研究了鉴定 aiQTLs 的两种方法。在第一种研究中,我们使用 R 中 VGAM 包 [27] 中的 vglm 函数,根据推定的 aiQTL 的基因型,为 A 等位基因读数的数量拟合了单独的 β 二项式分布。然后,我们将该模型数据的拟合与基因型组之间具有 β-二项式随机变量共享参数的模型的拟合进行了比较。然而,我们发现,在其中一个基因型组中只有一个样本具有异常强烈的等位基因不平衡的情况下,这种方法可能明显有利于更通用的模型。相比之下,我们希望开发一种方法,可用于评估基因型组之间等位基因不平衡的样本比例差异的证据。为此,我们定义了一个混合模型,其似然函数由下式给出
其中 A我是映射到样本 i, N 中 A 等位基因的读取数我是样本 I 中等位基因特异性映射读数的总数,是 β 二项式随机变量的概率质量函数。我们方法的一个特点是,我们不需要在样本之间共享 A 等位基因的身份。我们认为 A 等位基因是任意选择的,因此,将 A 等位基因计数建模为对称的 β-二项式随机变量(即我们约束 和 相同,因此,我们有一个具有单个自由参数的随机变量,我们称之为 )。混合模型的两个分量分别在带参数的 值以及第一个和第二个分量上有所不同。在每个个体中,任何给定读数源自 eGene 的 A 等位基因的概率被视为来自这两个对称 β 分布的混合物的随机样本(图 1)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 1. 混料模型的图形图示。
这里正在评估一个推定的 aiQTL(在阴影框中)。推定的 aiQTL 和转录区域内第二个变体的两个等位基因(由转录起始位点产生的箭头表示)被任意标记为 x 和 o。aiQTL 的等位基因 x 增加同一染色体上 eGene 等位基因的表达,导致 ASE(每个等位基因的表达由垂直箭头的高度表示)。该基因的等位基因不平衡使用对称的 β 二项式混合物进行建模。从图左侧所示的两个 beta 分布的加权混合物中采样来自转录变体的 x 等位基因的读取比例。为了评估感兴趣的变体是否是 aiQTL,我们允许权重(由从 beta 分布发出的箭头的粗细表示)取决于推定的 aiQTL 是纯合子还是杂合子。该模型适用于检测 aiQTL,即使变体和基因之间没有任何连锁不平衡(由染色体断裂表示),即使存在其他遗传变异也会导致等位基因之间的不平衡,因此并非所有等位基因不平衡都是由于假定的 aiQTL)。
https://doi.org/10.1371/journal.pgen.1011446.g001
为了检验遗传变异与不平衡程度(即 aiQTL)之间关联的证据,我们将拟合与空节点的数据进行了比较,其中(混合概率)在所有个体中都相同,与允许依赖基因型的模型进行了比较,使用对数似然比检验。虽然这可以通过不同的方式完成,但我们主要关注的是 有两个值的情况,一个用于纯合子,另一个用于杂合子。这种形式的模型最适合潜在的因果变异,在这些变异中,我们预计杂合子个体中会看到更大的不平衡,而两个纯合子组中的不平衡量相似。但是,这也可以选取 LD 中具有因果变体的变体。给定一组等位基因特异性映射的读取计数,S磡,在 eQTL 处纯合的个体和一组 Shet,在 eQTL 处杂合的个体中,完整的对数似然由下式给出
其中 和 分别是 eQTL 纯合子和杂合子个体中混合模型的组分 1 的权重。在 null 模型和替代模型中 和 是独立的参数。
我们使用 Nelder-Mead 方法最大化似然函数来估计混合模型的参数,该方法在 R 的 optim 函数中实现。为了避免识别局部最小值,我们尝试了参数的多个起始值,包括在为空模型找到的最优值处初始化备选模型的优化,以及在备选模型找到的最优值处初始化空模型的优化(在后一种情况下,我们使用备选模型中参数的加权平均值来推导出初始化空值优化的单个参数model) 的我们模型的 R 实现(包括示例数据)在 GitHub 上公开提供,网址为 https://github.com/cseoighe/aiQTL。
模拟
采用两种不同的方法进行模拟。在第一个研究中,我们考虑了两个具有不同平均表达水平的单倍型,并将映射到基因的每个单倍型的读数数视为负二项式随机变量的独立样本。该模拟与我们用于检测 aiQTL 的模型无关,因此,当数据不符合模型结构时,提供了测试模型性能的机会。这些模拟数据的特征取决于负二项式的大小参数。对于固定的平均值,此参数的下限值会导致数据高度过度分散,而在大小参数的上限中,负二项式与泊松随机变量相同。因此,我们在从 5(对应于高度过度分散)到 100(适度过度分散)的大小参数值范围内进行了模拟。我们还模拟了为该模拟定义的效应大小的不同值,作为高表达与低表达单倍型的平均表达之比(即表达倍数变化,用 1.2、1.3 和 1.5 的值模拟)。为了测试 I 型错误率,我们进行了 1,000 次模拟,倍数变化为 1(即两种单倍型的平均表达没有差异)。
上述模拟的缺点是它没有考虑到两个等位基因位于同一个个体中,导致共享的反式作用因子和样本特征,因此,两个等位基因的表达水平不独立。我们的 aiQTL 模型也考虑到了这一点,该模型以样本中等位基因特异性定位的读数总数为条件。在第二种模拟类型中,我们假设等位基因特异性映射读数的总数是一个负二项式随机变量,并且映射到其中一个单倍型的这些读数的数量是一个 β 二项式随机变量,其大小参数由等位基因特异性映射读数的总数给出。我们将 alpha 和 beta 参数限制为相同(即使用对称的 beta 分布),但随机确定表达更高的等位基因(对应于 aiQTL 和靶基因之间不存在 LD,相应地,过度/不足的等位基因没有一致性)。为了评估 I 型错误率,我们进行了模拟,其中这种受约束的 β 二项式分布的单个自由参数在所有样本中共享。对于功效模拟,我们对纯合样本使用了 alpha=beta=100 的 β-二项式分布,对对应于杂合样本的 β-二项式随机分布使用了单独的 alpha/beta 值(取决于模拟)。
作为进一步的零模拟,我们模拟了反式 eQTL,以确保我们的方法不会在反式变异的情况下错误地识别 aiQTL。对于这个模拟,我们再次使用两个负二项式随机变量来表示基因的总表达水平。这两个随机变量的平均值取决于调节 SNP 的基因型,替代等位基因的表达比参考等位基因高 1.5 倍。与之前的模拟一样,我们模拟了 670 个个体。对于这些模拟,调节 SNP 的次要等位基因频率固定为 0.1。
与 TSS 的距离与共定位 eQTL 的等位基因不平衡概率之间的关系
我们将 logistic 回归模型拟合到近端 eQTL 被检测为 aiQTL 的概率,作为 eQTL 与 TSS 距离的函数。在这些模型中,我们包括了至少具有两个等位基因特异性映射读数的样本数量、至少具有两个此类读数的样本中位基因特异性映射读数的数量以及次要等位基因频率作为预测变量。通常,每个基因有多个近端 eQTL,导致非独立观察。在这种情况下,我们选择了与给定基因相关的所有 eQTL 中相关性最强的 eQTL。我们还将 eQTL 关联的对数转换 p 值作为协变量包含在 logistic 回归模型中。结果部分中显示的显著 aiQTL 的预测概率对应于 500 个样本,每个样本的中位数为 30 个等位基因特异性映射读数,以及 P 值为 的 eQTL。
跨组织的 aiQTL
我们开发的混合模型可用于评估基因跨组织不平衡的变异,并比较给定 aiQTL 跨组织的影响。为了比较组织之间不平衡的程度,我们分别估计了每个样本的参数,并比较了组织之间估计值的分布。我们将基因表达反卷积应用于 GTEx 的全血样本,以评估血细胞类型比例变化对等位基因不平衡程度的影响。为此,我们使用 CIBERSORTx [28] 从 755 个样本的全血基因表达数据中估计细胞类型比例。首先使用 biomaRt [29, 30] 和 Ensembldb [31] R 包将 Ensembl 基因 ID 转换为 HGNC ID,然后去除冗余基因。我们使用对应于 547 个基因和 22 个人类造血细胞的 LM22 白细胞基因特征矩阵 [32] 作为参考,并使用 100 个排列的 B 模式批量校正应用 CIBERSORTx。
结果
型
我们使用混合模型鉴定 aiQTLs,该模型由对称 β-二项式随机变量组成。模型的输入由每个样本中每个基因的计数对组成,对应于已映射到基因每个等位基因的读数数。重要的是,这两个等位基因是任意标记的,并且每个样本的等位基因的身份不需要相同。该方法在 方法.简而言之,在给定样本中观察到的给定基因等位基因特异性计数的可能性来自两个具有不同参数的 β 二项式随机变量的加权和(图 1)。我们使用对称 β-二项式随机变量,它是一个二项式随机变量,其 p 参数本身就是一个对称 beta 随机变量。对称 beta 随机变量只有一个参数,我们在这里称为 。它的均值始终为 0.5,方差与 成反比。为了测试单个核苷酸多态性是否是该基因的 aiQTL,我们比较了所有个体的混合权重相同的零模型的拟合度,与两个 β-二项式成分的混合权重分别估计候选 aiQTL 杂合子的个体和基因座上参考或替代等位基因纯合子的个体的模型拟合度。零模型嵌套在备择模型中,因此可以使用似然比检验来比较它们的拟合。
模拟结果
执行了三种不同的零模拟(在数据和方法中详细描述),在所有情况下,测试统计量的分布都与预期的零分布紧密匹配(图 2A)。这些无效模拟表明,该模型在与基因表达无关(即不是 eQTL)或是 eQTL 但不在顺式中起作用的基因座上未检测到 aiQTL。模拟还使我们能够评估影响检测 aiQTL 能力的因素。在一种类型的 aiQTL 模拟中,总体基因表达是一个负二项式随机变量,一个等位基因的读数数是一个对称的 β-二项式随机变量,杂合子中的方差更高(即参数值更高)。检测这种效应的能力取决于次要等位基因的频率和基因型之间参数差异的大小(图 2B、C)。在第二组 aiQTL 模拟中,一个基因的两个等位基因的表达水平被建模为独立的负二项式随机变量,其中一个等位基因的平均值增加了一个常数因子(图 2D 中所示的倍数变化)。这种模拟与我们为识别 aiQTL 而开发的模型不同,并且对我们的方法更具挑战性,因为负二项式随机变量的特征性过度分散可能导致与候选 aiQTL 的基因型无关的基因的两个等位基因的表达值非常不同。这种模拟也可能比真实数据更具挑战性,因为二倍体中基因的两个等位基因共享反式作用因子,因此该基因在样本中的表达差异可能大于等位基因之间的差异。尽管如此,我们发现当负二项式随机变量的大小参数足够大(对应于适度的过度离散)时,该模型具有良好的检测具有中等效应大小的 aiQTL 的能力(图 2D)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 2. 仿真结果。
A) 零模拟。将三种不同类型的零模拟的结果(如数据和方法中所述)与预期的零分布(具有一个自由度的卡方分布,以红色虚线显示)进行比较。模拟对应于 (1) 来自两个等位基因(蓝色)的表达的两个独立的负二项式分布,(2) 整体表达水平的一个负二项式分布,结合来自参考等位基因(绿色)的读取比例的对称 beta 分布,以及 (3) 对应于反式-eQTL (紫色)。B) 用于模拟弱(蓝色)、中度(绿色)和强(红色)ASE 的对称 beta 分布。在这些模拟中,从紫色 beta 分布中采样模拟 aiQTL 纯合子个体中参考等位基因的读数比例,而从 aiQTL 杂合子个体中来自参考等位基因的读数比例从蓝色、绿色或红色 beta 分布中采样(取决于模拟的 aiQTL 效应的强度)。C) 功率作为次要等位基因频率的函数,用于模拟单个负二项式(对于总读取计数)和对称 β 分布,用于参考等位基因的读取比例。红色、绿色和蓝色线对应于图 B 中所示的相同颜色的对称 β 分布。D) 幂作为负二项式大小参数的函数,用于模拟两个独立的负二项式分布,两个等位基因之间具有小(蓝色)、中等(绿色)和大(红色)表达倍数变化。表达式 fold-changes 显示在图例中。
https://doi.org/10.1371/journal.pgen.1011446.g002
与其他方法的比较。
以前的一些研究已经测试了 eGene 的等位基因失衡与 eQTL 基因型之间的关联 [21, 25]。一种方法是进行统计检验(如二项式检验)来推断 eGene 的等位基因失衡,然后比较由 eQTL 基因型定义的组之间基因上表现出显著失衡的个体比例 [25]。显著的关联可用于推断 eQTL 是 aiQTL(即在顺式中起作用)。我们将这种方法称为二项式方法(为了与我们的方法保持一致,我们在推定的 aiQTL 中比较了杂合子和纯合子之间的不平衡比例)。另一种方法是对等位基因比例使用固定阈值,如果参考等位基因的比例超出此阈值,则再次将个体二进制指定为 ASE。在之前的一项研究中,这种方法被用于定义等位基因失衡,该研究使用它来协助精细定位调节变异 [16]。我们采用等位基因不平衡的定义来定义 aiQTL 测试,并将其称为阈值方法。根据 [16],我们将参考比例小于 0.35 或大于 0.65 的个体指定为 ASE。最后,在一项研究 [21] 中,使用 Wilcoxon 秩和检验比较了 eQTL 的杂合子和纯合子之间等位基因比例与相等性的绝对偏差。我们将其称为 wilcox 方法。这里介绍的基于模型的方法在模拟中比其他方法表现得更好(S1 图 )。更重要的是,我们的模拟表明,所有其他方法都可能将反式作用 eQTL 误认为是顺式作用 eQTL(S1 图)。在所有情况下,ASE 信号都不独立于基因的表达水平,这导致变异在 cis 中起作用的假阳性推断(S1 图)。我们还以全血作为示例组织,在来自 GTEx 的真实数据上比较了上述定义 aiQTL 的不同方法的结果(S2 图)。尽管许多 aiQTLs 都可以通过所有方法鉴定出来,但方法之间也存在很大差异,在许多情况下,wilcox 方法似乎是异常值。wilcox 方法还鉴定了最大数量的推定 aiQTL,但如 S1 图 所示,该方法容易产生假阳性 aiQTL。
共定位的 eQTl 在顺式中起作用的概率与距 TSS 的距离呈函数关系
我们使用我们的模型研究了影响位于相应 eGene 附近的 eQTL (定义为在 TSS 的 1Mbp 范围内,此处称为近端 eQTL)是否显示 aiQTL 的证据的因素。在这里,我们描述了 GTEx 全血样品作为示例组织获得的结果。使用 logistic 回归模型,我们发现几个因素对近端 eQTL 是否被检测为 aiQTL 有非常显著的影响;即,eQTL 与 TSS 的距离 (P = )、具有多个等位基因特异性映射读数的样本数 (P = )、eQTL 的对数 P 值 (P = )、eQTL 的次要等位基因频率 (P = ) 和等位基因特异性映射读数的中位数(在具有多个等位基因特异性映射读数的样本中;P = 0.008)。这些因素包括可能与检测 aiQTL 的能力相关的因素(例如,具有多个等位基因特异性定位读取的个体数量)以及可能与近端 eQTL 是否在顺式中起作用相关的一个变量(到 TSS 的距离)。eQTL 的密度及其统计显著性随着与 TSS 的距离而急剧下降(图 3A)。更重要的是,对于我们的目的,eQTL 被检测为 aiQTL 的概率也是与 TSS 距离的强函数(图 3B)。使用图例中给出的参数,检测到 eQTL 的 aiQTL 的概率从 TSS 的 0.58 降低到 TSS 上游 500 kb 距离的 0.16。如果我们假设 TSS 的所有 eQTL 都以顺式(上限)起作用,这意味着对于这些参数值,我们检测 aiQTL 的能力为 0.58,进一步意味着在 500 kb 距离处大约 0.28 (0.16/0.58) 的 eQTL 起作用于顺式。从 TSS 中检测 1 Mb 时,检测到 aiQTL 的预测概率不再超过 aiQTL 测试的显著性水平。该图还表明,下游变异比上游变异长距离作用于顺式的可能性更大。这可能是因为,对于某些远距离相互作用,与基因的距离可能比与 TSS 的距离更相关;事实上,对于一些非常长的基因,该区域内的变异可能已经与 TSS 相距甚远。总体而言,我们的结果表明,推断距离其 eGene 数百 kb 的 eQTL 以顺式方式起作用是不安全的,并且在这些距离上检测到的许多关联可能是间接效应。这与之前报道的 [12] 一致,该方法使用需要分阶段数据的方法,并应用于使用群体定相推断的数据,考虑了定相误差。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 3. eQTL 状态与距转录起始位点 (TSS) 的距离呈函数关系。
A) GTEx 全血 cis-eQTL 的对数 P 值与距 TSS 的距离的函数关系。B) 作为与 TSS 距离的函数,预测检测到 eQTL 的 aiQTL 的概率。预测源自 logistic 回归模型,假设 500 个样本具有等位基因特异性映射读数,每个样本的中位数为 30 个等位基因特异性映射读数,eQTL 的 P 值为 0.05,次要等位基因频率为 0.05。
https://doi.org/10.1371/journal.pgen.1011446.g003
潜在的长片段顺式作用 eQTL 的例子
尽管大多数远离 eGene 的 eQTL 可能在反式中起作用,但已经报道了远距离起作用的增强子的例子 [33–36],我们可以找到许多远离 eGene 转录起始位点 (TSS) 的 aiQTL 的例子。补充信息中提供了这种长片段 aiQTL 的一个例子(S3 图)。在这种情况下,aiQTL 实际上位于基因的一个内含子内,距离 TSS 下游超过 570 kb。从支持 aiQTL 的同一组织(主动脉)捕获 Hi-C 数据表明,将包含 aiQTL 的区域与启动子连接起来的染色质相互作用(S3 图)。我们将模型拟合到 GTEx 联盟报道的所有 GTEx 组织的所有顺式 eQTL [13]。对于 19% 的显著顺式-eQTL 基因关联,零假设被拒绝,为 eQTL 对基因的直接顺式作用提供支持。对于更强的 eQTL 和接近 eGene 的 eQTL,这个比例要高得多(如图 3 所示)。我们注意到,对于其余的一些基因,eQTL 也可能以顺式方式起作用,但在 eQTL 杂合子的个体中没有足够的等位基因特异性定位读数来积极确认 aiQTL。
样品和组织之间的等位基因不平衡
为了比较个体之间和组织间等位基因不平衡的程度,我们估计了每个样本对称 β-二项分布参数的单个值。这使我们能够估计样本的二项式参数在所有基因中的分布。具有高值的样本往往具有接近 0.5 的二项式参数值,相应地,其基因的两个等位基因的表达相对平衡。值较低的样本具有更分散的二项式参数分布。这与基因表达不平衡的趋势一致,二项式参数的值远非 0.5 的概率相对较高。我们注意到,该分析对所有不平衡来源(包括印记和随机单等位基因表达)都很敏感,并且不限于与遗传原因的不平衡。尽管如此,我们发现总体杂合性 (以个体杂合的位点数测量) 与样本水平等位基因不平衡 (除三个 GTEx 组织外,所有组织中未调整的 P >0.05) 并不密切相关,这可能令人惊讶。当我们按性别比较个体时,我们没有发现等位基因不平衡程度的显着差异,尽管比较在两个食管组织的多次测试校正中幸存下来:食管 - 肌层和食管 - 胃食管交界处(Holm 校正 P 值 = 0.014 和 0.029,分别为)。
我们还测试了等位基因失衡与年龄之间的关联。我们假设 DNA 损伤和/或体细胞突变的积累可能导致等位基因之间基因表达的不平衡随时间增加;这将反映在 age 与样本的对称 β 二项分布参数的拟合值之间的负相关中。事实上,我们发现在三个组织的多次测试校正(使用 Holm 方法)中存活下来的微负相关:子宫、乙状结肠和食管肌层(校正 P = 0.0010、0.0051、0.016,分别为;S4 图)。对于一种组织,全血,相关性在相反的方向上是显著的 (校正 P = 0.0014)。这可能是由于血液的细胞组成随时间变化所致(见下文)。在组织之间观察到的不平衡程度存在很大差异(图 4),在参与者来源的细胞系中发现的最低值(对应于最大的等位基因不平衡量),其次是全血,在睾丸中观察到的最高值(最少的不平衡)。鉴于细胞系相对于未转化细胞的基因组和转录组改变 [37],细胞系失衡加剧并不奇怪。事实上,已经注意到 [38, 39] 淋巴母细胞样细胞系 (LCL) 的高度克隆性意味着随机单等位基因表达会混淆使用 LCL 的 ASE 研究。全血失衡升高和睾丸失衡减少都可以由这些组织中免疫细胞的比例来解释(见讨论)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 4. 样品之间和组织间等位基因不平衡程度的变化。
该图中的结果是通过拟合每个样品的对称 beta 分布参数的单个值而获得的。A) 跨 GTEx 组织为每个样品推断的参数的箱线图。B) 全血(红色)和睾丸(蓝色)样品估计的参数密度图。
https://doi.org/10.1371/journal.pgen.1011446.g004
等位基因失衡与全血中推断的细胞组成相关
我们使用 CIBERSORTx [28] 对全血基因表达数据进行了基因表达反卷积,并测试了样本中对称 β-二项式分布参数与每种细胞类型的推断比例之间的相关性。几种组成细胞类型与该参数高度显著相关,表明细胞类型之间等位基因不平衡程度的差异(表 1)。与 CD8 T 细胞的正相关最强(对应于等位基因失衡减少),与中性粒细胞最强的负相关(对应于等位基因失衡增加)(表 1)。每种细胞类型的推断比例也彼此相关(S5 图 ),这使得将等位基因不平衡的差异归因于特定细胞类型的任务复杂化。当我们在线性模型中包括中性粒细胞或 CD8 T 细胞的推断比例时,等位基因失衡与年龄(如上所述)之间的关系不再显著,这表明上述报告的等位基因不平衡随年龄的增长而降低,实际上可能是细胞类型比例随年龄变化的结果。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 1. 等位基因失衡与推断的血细胞类型比例之间的 Spearman 相关性。
https://doi.org/10.1371/journal.pgen.1011446.t001
讨论
影响基因表达的遗传变异 (eQTL) 对表型变异性和复杂疾病易感性有重大贡献 [8]。此类变体可以顺式或反式作用,但人们更多地关注顺式作用的变体,因为检测反式作用变体并将其与间接效应区分开来更具挑战性。与它们相关的基因位于同一位置的变异通常被认为在顺式中起作用;然而,不能保证与其靶基因并置的变体(此处称为近端 eQTL)在 ci 中起作用,并且不清楚 eQTL 与其靶基因的物理距离与其在 cis 中起作用的概率之间的确切关系。更一般地说,尽管已经报道了在非常长的距离上调节基因的增强子的例子(在某些情况下超过兆碱基 [35, 36]),但尚不清楚这有多普遍。在这里,我们提出了一个统计模型来评估靶基因的等位基因不平衡程度是否与 eQTL 的基因型相关,并将与不平衡程度相关的基因座称为等位基因不平衡 QTL (aiQTL)。该模型可用于评估近端 eQTL 起作用于顺式的证据。
我们的模型使用对称 β-二项分布的混合,这有助于根据样本组之间混合比例的差异进行统计测试,由推定的 aiQTL 的基因型定义。我们还探索了将独立的 β 二项式分布拟合到基因型组的模型的使用(参见数据和方法);然而,这种模型对具有大量等位基因特异性定位读数的单个样本很敏感,并且可能会给出误导性结果(例如,当其中一个基因型组中的单个样本由于与基因型组无关的原因而具有高度不平衡时,提示 aiQTL)。基于混合模型中权重的检验避免了这个问题,并适当地对其中一个组中与另一个组相比或多或少不平衡趋势的证据进行加权。限制对称的 β-二项式分布对我们的模型有两个重要优势:它有助于检测远离其靶基因的 aiQTL,因为 aiQTL 和靶基因之间没有连锁不平衡的假设,也不需要分阶段数据;此外,对称 β 二项分布只有一个自由参数,与拟合一般 β 二项分布的混合相比,减少了拟合模型和提高统计能力的挑战。
我们的 aiQTL 模型还可能有助于探索通过特定遗传变异起作用的顺式调节效应的比例。例如,在某些 aiQTL 的情况下,拟合混合物模型具有一个非常高的参数值,与几乎没有等位基因不平衡的样本子集一致(二项式参数非常接近 0.5)和低得多的值 ,对应于高度不平衡的样本。我们确定了 eQTL 的例子,其中低组分的估计混合接近杂合子的 1,而纯合子的高组分的估计重量接近 1。这与作用于该基因的大多数顺式调节作用一致,涉及 aiQTL (或与其密切相关不平衡的变体)。在其他情况下,杂合子的不平衡更大 (较低),但纯合子的 值也相对较低,这表明在考虑了 aiQTL (以及可能与它一起存在于 LD 中的其他变体) 的影响后,仍然存在相当大的不平衡。这种研究遗传变异对等位基因失衡贡献的方法提供了一种替代方法,即从估计的 eQTL 效应估计等位基因倍数变化的方法 [14, 40]。
一种评估 eQTL 和 ASE 之间关系的早期方法,由 Zou 等人提出。[16] 将 aiSNP 定义为杂合基因型与附近基因的等位基因失衡相关的 SNP。这种方法与我们的方法之间的一个重要区别是,Zou 等人将等位基因失衡视为二进制量(给定个体中的基因是否显示等位基因不平衡,具体取决于应用于该个体中等位基因特异性映射序列读数的统计测试的结果)。相比之下,我们的方法不需要对给定个体的基因是否失衡进行二元测定。不进行这种二元测定的一个关键优点是,我们的方法即使对于低表达基因也可以有效,因为它可以在多个个体中积累证据,即使任何给定个体的等位基因不平衡的证据不足,因为从该个体获得的序列读数总数较低。使用样本的二元分类来判断是否表现出等位基因不平衡也存在偏差,因为在基因表达较高的个体中,将有更大的能力来检测不平衡。这可能导致推断出反式 eQTL 在顺式中起作用(S1 图 1)。此外,如果 ASE 存在其他贡献者(遗传性或非遗传性),则首先执行 ASE 检测,然后比较由 eQTL 基因型定义的组之间显示显著 ASE 的样本比例的方法可能无法检测 aiQTL。在这种情况下,大多数甚至所有样本可能表现出具有统计学意义的 ASE,特别是对于更高表达的基因,较高的读取计数提供了更大的能力来拒绝两个等位基因平衡表达的零假设。旨在检测显示 ASE 的样本比例差异的统计检验可能对 aiQTL 杂合子与纯合子的不平衡程度的差异不敏感。最后,我们的方法的优点是它适合研究个体和组织之间等位基因不平衡的普遍性的变化,因为对称 β 分布参数的估计不应受到样本之间映射读数数量差异的影响。
将对称 β-二项分布拟合到单个样本,也使我们能够研究可能影响样本中等位基因不平衡程度的因素。可能影响样本不平衡程度的最明显因素是杂合性程度。调控区遗传变异的发生可能导致杂合性较高程度的个体表达失衡的趋势增加;然而,我们没有找到强有力的证据。在所有组织中,全血中发现的等位基因失衡最大,睾丸中失衡最小。我们假设这两个结果可能反映了几个免疫相关基因显示出高度随机单等位基因表达的事实 [41]。需要注意的是,个体水平分析不检测 aiQTL,而是对单个样本中基因间的不平衡程度敏感。随机单等位基因表达将有助于这一点(尽管对 aiQTL 信号没有影响,这需要基因型组之间不平衡程度的差异)。这可能导致免疫细胞比例高的组织样本(如全血)表现出更大的等位基因失衡倾向,而免疫活性率较低的组织(如睾丸,具有免疫特权[42])平均等位基因失衡较少。
在个体样本水平上,性别差异和与年龄相关性的证据有限。我们认为观察到的与年龄的相关性可能反映了细胞类型的组成。例如,不同免疫细胞类型的丰度随年龄的变化可能导致样品失衡程度的变化。为了探索血液情况下的这一假设,我们进行了基因表达反卷积,并测试了不平衡程度(通过我们模型的参数)与不同血细胞类型的推断丰度之间的关联。当我们考虑细胞类型比例时,血液与年龄的相关性完全消失。等位基因失衡与年龄之间缺乏关联的一般趋势表明,体细胞突变和 DNA 损伤随时间的积累不会导致等位基因之间表达不平衡的增加。然而,细胞类型比例与失衡程度之间的相关性可以为细胞类型之间等位基因失衡程度的差异提供有用的见解。在血液中观察到的相关性与基因之间平均不平衡程度较高(例如中性粒细胞)和 CD8 T 细胞中较低程度的不平衡一致。在不同状态下的相同细胞类型之间观察到一些差异;例如,结果与初始 CD4 T 细胞中基因表达的更大不平衡和静息记忆 CD4 细胞中较低的不平衡一致。这些结果可以简单地反映在这些细胞状态之间上调或下调的基因之间作用于基因表达的选择性限制的差异,因此顺式作用变体导致的等位基因不平衡在一种细胞类型或细胞状态中或多或少。识别显示细胞状态之间失衡增加或减少的基因和基因集可能很有趣,以探索特定于细胞类型的潜在非遗传失衡来源,例如随机单等位基因表达的差异。
aiQTLs 的鉴定能够补充用于研究基因表达遗传变异的现有方法。以前几种推断 eQTL 的方法结合了样本中基因表达变异和等位基因之间表达水平变化的证据 [17, 18, 23]。我们建议通过对不平衡本身的遗传学进行单独分析来补充这种方法是有价值的,该分析被视为一种数量特征。aiQTL 信号与样本表达水平变化的 eQTL 证据正交,并通过提供明确测试 eQTL 效应是否出现在顺式中的能力来补充表达水平分析。我们可以只利用一小部分定位的 RNA-Seq 读数来推断 aiQTL,因为我们的分析仅限于可以映射到特定等位基因的读数,这需要跨越杂合变异的读数。对数据进行下采样表明,额外的样本将揭示更多的 aiQTL(S6 图),这与我们只能检测到位于靠近 TSS 的大约一半的强 eQTL 存在 aiQTL 效应的事实一致(图 3)。鉴于长读长测序技术的发展,未来的转录组数据集可能具有更强的检测 aiQTL 的能力,因为更大比例的读长将跨越杂合基因座。这将增强通过推断 aiQTLs 来探索顺式调控效应的能力。
支持信息
与基于模拟结果的其他方法的比较。
显示 1/6: pgen.1011446.s001.png
跳至 fig分享导航
很抱歉,我们无法加载您的数据。
1 / 6
下载
无花果分享
S1 图 与基于模拟结果的其他方法的比较。
A) 我们的方法(在图例中称为“模型”)与其他三种方法可以测试 ASE 与 eQTL 基因型之间关联的方法(从而推断 eQTL 在顺式中起作用)的功效比较。显示的结果基于图 2A、B 中所示的模拟,对应于中等效应大小的 aiQTL。B) aiQTL 的假阳性推断与负二项分布的大小参数的函数关系。这些结果基于与图 1D 所示等效的模拟,但具有反式作用 eQTL(导致基因表达增加 1.3 倍)。红色虚线显示测试的显著性水平(即预期的假阳性率)。
https://doi.org/10.1371/journal.pgen.1011446.s001
(巴布亚新几内亚)
S2 图 Disrupt 图显示了四种不同方法检测到的 aiQTL 数量的比较,包括此处开发的方法(在图中称为“模型”)。
针对全血中每个表达的基因检测最强的 eQTL,次要等位基因频率至少为 0.05。仅考虑可以使用所有四种方法检测 eQTL 的情况。
https://doi.org/10.1371/journal.pgen.1011446.s002
(巴布亚新几内亚)
S3 图 长片段 aiQTL。
启动子支持的长片段 aiQTL 示例使用 3D 基因组服务器 (3dgenome.fsm.northwestern.edu/chic.php) 在同一组织(主动脉)中捕获 Hi-C 数据。受影响的基因是 GPC6,这是 13 号染色体上的一个 glypican 基因,长度远超过兆碱基。红色弧线表示源自 Capture Hi-C 数据的染色质相互作用,该相互作用将启动子区域与 aiQTL 联系起来,aiQTL 位于基因的内含子 2 中,与启动子相距超过 570 kb。所示坐标适用于 hg19 人类基因组组装。
https://doi.org/10.1371/journal.pgen.1011446.s003
(巴布亚新几内亚)
S4 图 散点图说明了四个 GTEx 组织中统计量与受试者年龄之间的关系。
在 (A) 子宫、(B) 结肠 - 乙状结肠和 (C) 食管 - 肌层的情况下,统计数据显示与年龄呈弱负相关,这与老年受试者等位基因不平衡增加的趋势一致。在全血 (D) 中,相关性方向相反。每个面板中显示的 P 值已针对使用 Holm 方法的多次测试进行了调整。
https://doi.org/10.1371/journal.pgen.1011446.s004
(巴布亚新几内亚)
S5 图 热图说明了 GTEx 全血样本中不同免疫细胞类型的推断比例之间的 Pearson 相关性。
https://doi.org/10.1371/journal.pgen.1011446.s005
(巴布亚新几内亚)
S6 图 对全血中检测到的 aiQTL 进行下采样 (标称 P < 0.01)。
A) 日志10aiQTL 的 P 值与下采样样本量的函数关系。线条由原木着色10使用所有 670 个样本获得的 P 值。虚线对应于 P 值 0.01。y 轴被截断为最小对数10P 值为 -30。B) 检测到的 aiQTL 的比例,作为下采样样本量的函数。误差线显示比率标准误差的两倍(大约对应于 95% 置信区间)。
https://doi.org/10.1371/journal.pgen.1011446.s006
(巴布亚新几内亚)
确认
我们感谢 Liam Seoighe 在手稿修订方面的帮助。
引用
1.Cleary S, Seoighe C. 等位基因特异性表达的观点。Annu Rev Biomed Data Sci. 2021;4:101–22.PMID:34465174
查看文章PubMed/NCBI谷歌学术
2.Barlow DP, Bartolomei MS. 哺乳动物的基因组印记。冷泉港透视生物学 2014;6(2):a018382。PMID:24492710
查看文章PubMed/NCBI谷歌学术
3.Chess A. 广泛随机单等位基因表达的机制和后果。Nat Rev Genet.2012;13(6):421–8.PMID:22585065
查看文章PubMed/NCBI谷歌学术
4.Eckersley-Maslin MA,Spector DL。随机单等位基因表达:一次调节一个等位基因的基因表达。趋势基因。2014;30(6):237–44.PMID:24780084
查看文章PubMed/NCBI谷歌学术
5.Doss S、Schadt EE、Drake TA、Lusis AJ。小鼠顺式作用表达数量性状位点。基因组研究 2005;15(5):681–91.PMID:15837804
查看文章PubMed/NCBI谷歌学术
6.Cookson W, Liang L, Abecasis G, Moffatt M, Lathrop M. 将复杂疾病性状与全球基因表达作图。Nat Rev Genet.2009;10(3):184–94.PMID:19223927
查看文章PubMed/NCBI谷歌学术
7.Michaelson JJ, Loguercio S, Beyer A. 表达数量性状位点 (eQTL) 的检测和解释。方法。2009;48(3):265–76.PMID:19303049
查看文章PubMed/NCBI谷歌学术
8.阿尔伯特 FW,克鲁格利亚克 L.调节变异在复杂性状和疾病中的作用。Nat Rev Genet.2015;16(4):197–212.PMID:25707927
查看文章PubMed/NCBI谷歌学术
9.Pastinen T. 全基因组等位基因特异性分析:对调节变异的见解。Nat Rev Genet.2010;11(8):533–8.PMID:20567245
查看文章PubMed/NCBI谷歌学术
10.Bader DM、Wilkening S、Lin G、Tekkedil MM、Dietrich K、Steinmetz LM 等人。负反馈缓冲了监管变体的影响。分子系统生物学 2015;11(1):785.PMID:25634765
查看文章PubMed/NCBI谷歌学术
11.考尔斯 CR、赫希霍恩 JN、阿尔特舒勒 D、兰德 ES。检测小鼠基因中的调节变异。Nat Genet.2002;32(3):432–7.PMID:12410233
查看文章PubMed/NCBI谷歌学术
12.GTEx 联盟、数据分析与协调中心 (LDACC) — 分析工作组、统计方法组 — 分析工作组、增强 GTEx (eGTEx) 小组、NIH 共同基金等。对人体组织基因表达的遗传影响。自然界。2017;550(7675):204–13.PMID:29022597
查看文章PubMed/NCBI谷歌学术
13.GTEx 联盟。GTEx Consortium 人体组织遗传调控效应图谱。科学。2020;369(6509):1318–30.PMID:32913098
查看文章PubMed/NCBI谷歌学术
14.Mohammadi P, Castel SE, Brown AA, Lappalainen T. 使用等位基因倍数变化量化顺式作用遗传变异的调节效应大小。基因组研究 2017;27(11):1872–84.PMID:29021289
查看文章PubMed/NCBI谷歌学术
15.van de Geijn B, McVicker G, Gilad Y, Pritchard JK.WASP:用于稳健分子数量性状基因座发现的等位基因特异性软件。Nat 方法。2015;12(11):1061–3.PMID:26366987
查看文章PubMed/NCBI谷歌学术
16.Zou J、Hormozdiari F、Jew B、Castel SE、Lappalainen T、Ernst J 等人。利用等位基因不平衡来优化 eQTL 研究的精细定位。PLoS 基因。2019;15(12):e1008481。PMID:31834882
查看文章PubMed/NCBI谷歌学术
17.熊坂 N、骑士 AJ、加夫尼 DJ。使用 RASQUAL 和 ATAC-seq 精细定位细胞 QTL。Nat Genet.2016;48(2):206–13.PMID:26656845
查看文章PubMed/NCBI谷歌学术
18.太阳 W.使用 RNA-seq 数据进行 eQTL 定位的统计框架。生物测定学。2012;68(1):1–11.PMID:21838806
查看文章PubMed/NCBI谷歌学术
19.Võsa U、Claringbould A、Westra HJ、Bonder MJ、Deelen P、Zeng B 等人。大规模顺式和反式 eQTL 分析可识别数千个调节血液基因表达的遗传位点和多基因评分。Nat Genet.2021;53(9):1300–10.PMID:34475573
查看文章PubMed/NCBI谷歌学术
20.Wittkopp PJ, Haerum BK, Clark AG.顺式和反基因调控的进化变化。自然界。2004;430(6995):85–8.PMID:15229602
查看文章PubMed/NCBI谷歌学术
21.Battle A、Mostafavi S、Zhu X、Potash JB、Weissman MM、McCormick C 等人。通过对 922 个个体的 RNA 测序来表征转录组多样性的遗传基础。基因组研究 2014;24(1):14–24.PMID:24092820
查看文章PubMed/NCBI谷歌学术
22.Castel SE、Cervera A、Mohammadi P、Aguet F、Reverter F、Wolman A 等人。顺式调节变异修饰编码变异的外显率有助于疾病风险。Nat Genet.2018;50(9):1327–34.PMID:30127527
查看文章PubMed/NCBI谷歌学术
23.van de Geijn B, McVicker G, Gilad Y, Pritchard JK.WASP:用于稳健分子数量性状基因座发现的等位基因特异性软件。Nat 方法。2015;12(11):1061–3.PMID:26366987
查看文章PubMed/NCBI谷歌学术
24.Choi Y, Chan AP, Kirkness E, Telenti A, Schork NJ.全人类基因组的定相策略比较。PLoS 基因。2018;14(4):e1007308。PMID:29621242
查看文章PubMed/NCBI谷歌学术
25.Lefebvre JF、Vello E、Ge B、Montgomery SB、Dermitzakis ET、Pastinen T 等人。基于基因型的检测,用于从等位基因特异性表达数据中定位顺式调节变异。公共科学图书馆一号。2012;7(6):e38667。PMID:22685595
查看文章PubMed/NCBI谷歌学术
26.Fan J, 胡 J, 薛 C, 张 H, Susztak K, Reilly MP, et al. ASEP:通过 RNA 测序对群体中个体的等位基因特异性表达进行基于基因的检测。PLoS 基因。2020;16(5):e1008786。PMID:32392242
查看文章PubMed/NCBI谷歌学术
27.易 TW。用于分类数据分析的 VGAMPackage。J 统计软。2010;32(10).
查看文章谷歌学术
28.Newman AM、Steen CB、Liu CL、Gentles AJ、Chaudhuri AA、Scherer F 等人。使用数字细胞术测定大量组织的细胞类型丰度和表达。国家生物技术.2019;37(7):773–82.PMID:31061481
查看文章PubMed/NCBI谷歌学术
29.Durinck S、Moreau Y、Kasprzyk A、Davis S、De Moor B、Brazma A 等人。BioMart 和 Bioconductor:生物数据库和微阵列数据分析之间的强大链接。生物信息学。2005;21(16):3439–40.PMID:16082012
查看文章PubMed/NCBI谷歌学术
30.Durinck S, Spellman PT, Birney E, Huber W. 用于将基因组数据集与 R/Bioconductor 包 biomaRt 集成的映射标识符。Nat Protoc.2009;4(8):1184–91.PMID:19617889
查看文章PubMed/NCBI谷歌学术
31.Rainer J、Gatto L、Weichenberger CX。ensembldb:一个 R 包,用于创建和使用基于 Ensembl 的注释资源。生物信息学。2019;35(17):3151–3.PMID:30689724
查看文章PubMed/NCBI谷歌学术
32.Newman AM、Liu CL、Green MR、Gentles AJ、Feng W、Xu Y 等。来自组织表达谱的细胞亚群的稳健计数。Nat 方法。2015;12(5):453–7.PMID:25822800
查看文章PubMed/NCBI谷歌学术
33.Levine M, Cattoglio C, Tjian R. 循环回头跳:转录进入新时代。细胞。2014;157(1):13–25.PMID:24679523
查看文章PubMed/NCBI谷歌学术
34.安德森 E,希尔 RE。声波刺猬基因的长程调控。Curr Opin Genet Dev. 2014;27:54–9.PMID:24859115
查看文章PubMed/NCBI谷歌学术
35.Herranz D、Ambesi-Impiombato A、Palomero T、Schnell SA、Belver L、Wendorff AA 等人。NOTCH1 驱动的 MYC 增强子可促进 T 细胞发育、转化和急性淋巴细胞白血病。Nat Med. 2014;20(10):1130–7.PMID:25194570
查看文章PubMed/NCBI谷歌学术
36.Yashiro-Ohtani Y、Wang H、Zang C、Arnett KL、Bailis W、Ho Y 等人。长程增强子活性决定了 T 细胞白血病中 Myc 对 Notch 抑制剂的敏感性。美国国家科学院院刊 2014 年;111(46):E4946-53。PMID:25369933
查看文章PubMed/NCBI谷歌学术
37.Lopes-Ramos CM、Paulson JN、Chen CY、Kuijjer ML、Fagny M、Platig J 等人。细胞系与其来源组织之间的调控网络变化。BMC 基因组学。2017;18(1):723.PMID:28899340
查看文章PubMed/NCBI谷歌学术
38.Plagnol V、Uz E、Wallace C、Stevens H、Clayton D、Ozcelik T 等人。淋巴母细胞样细胞系中的极端克隆性,对等位基因特异性表达分析有影响。公共科学图书馆一号。2008;3(8):e2966。PMID:18698422
查看文章PubMed/NCBI谷歌学术
39.Baran Y、Subramaniam M、Biton A、Tukiainen T、Tsang EK、Rivas MA 等人。不同成人组织的基因组印记景观。基因组研究 2015;25(7):927–36.PMID:25953952
查看文章PubMed/NCBI谷歌学术
40.Ehsan N, Kotis BM, Castel SE, Song EJ, Mancuso N, Mohammadi P. 顺式调控效应的单倍型感知模型突出了 eQTL 数据中仍然存在的空白。Nat Commun.2024;15(1):522.PMID:38225224
查看文章PubMed/NCBI谷歌学术
41.Reinius B, Sandberg R. 常染色体基因的随机单等位基因表达:随机转录和等位基因水平调控。Nat Rev Genet.2015;16(11):653–64.PMID:26442639
查看文章PubMed/NCBI谷歌学术
42.Fijak M, Meinhardt A.睾丸处于免疫特权中。免疫学修订版 2006;213:66–81.PMID:16972897
查看文章PubMed/NCBI谷歌学术