厦门免费医学论文发表-一种为牛复杂性状确定候选致病基因优先级的综合方法
穆罕默德·戈雷希法尔 ,爱奥娜·麦克劳德,阿曼达·张伯伦,刘志倩,托马斯·洛普德尔,马修·利特尔约翰,向瑞东
抽象
全基因组关联研究 (GWAS) 已经确定了许多与复杂性状相关的数量性状位点 (QTL),主要在非编码区,对确定致病变异及其靶基因构成了挑战。三种类型的证据可以帮助识别 QTL 起作用的基因:(1) 接近最重要的 GWAS 变体,(2) 基因表达与性状的相关性,以及 (3) 基因在性状中的生理作用。然而,这些方法在识别正确基因方面的成功仍然存在不确定性。在这里,我们在与牛奶中极性脂质浓度相关的一系列相对简单的性状中测试了这些方法的能力。我们对 336 头奶牛的 ~1400 万个插补变异和 56 个个体乳中极性脂质 (PL) 表型进行了单性状 GWAS。GWAS 的多性状荟萃分析确定了 10,063 个重要的 SNP,FDR ≤ 10% (P ≤ 7.15E-5)。使用遗传评分组学回归 (GSOR) 方法分析来自血液 (~12.5K 基因,143 头奶牛) 和乳腺组织 (~12.2K 基因,169 头奶牛) 的转录组数据。该方法将观察到的基因表达与遗传预测的表型联系起来,并用于发现基因表达与 56 种 PL 表型之间的关联。GSOR 在血液中鉴定了 2,186 个基因,在乳腺组织中鉴定了 1,404 个基因,与至少一种 PL 表型相关 (FDR ≤ 1%)。我们将基因组划分为 100 Kb 的非重叠窗口,以测试 GSOR 鉴定的基因和 GWAS 信号之间的重叠。我们发现这两个数据集之间存在显著重叠,表明 GSOR 显著基因比不包含 GWAS 信号的基因更有可能位于 100 Kb 窗口内 (P = 0.01;比值比 = 1.47)。这些窗口包括在乳腺组织中表达的 70 个重要基因和在血液中表达的 95 个重要基因。与每个组织中所有表达的基因相比,这些基因富集了脂质代谢基因本体论 (GO)。也就是说,70 个显著的乳腺转录组基因中有 7 个(P < 0.01;比值比 = 3.98)和 95 个显著血液基因中的 5 个 (P < 0.10;比值比 = 2.24)参与脂质代谢 GO。候选致病基因包括 DGAT1 、 ACSM5 、 SERINC5 、 ABHD3 、 CYP2U1 、 PIGL 、 ARV1 、 SMPD5 和 NPC2,这两个组织之间有一些重叠。GWAS 、 GSOR 和 GO 分析之间的重叠表明,这些方法一起更有可能识别介导 QTL 的基因,尽管它们的能力仍然有限,这反映在适度的比值比上。更大的样本量将增强这些分析的效力,但连锁不平衡等问题仍然存在。
作者总结
复杂性状受许多遗传变异的影响。尽管其中一些变异已被定位到基因组区域,但事实证明很难确定致病突变或介导其对性状影响的基因。我们结合了三个证据来源,以确定导致牛奶中极性脂质 (PLs) 浓度变化的基因。我们选择这些表型是因为我们假设影响这些性状的基因具有已知的生理功能。事实上,我们旨在识别相关基因并提供进一步的证据来支持这些基因是可能的相关基因。我们检查了 PLs 浓度与> 14,000,000 个全基因组遗传变异之间的关联,其中约 0.07% 与 PL 表型显著相关。我们还检查了 PL 表型与 > 13,000 个基因活性之间的关联,其中约 10% 与 PL 表型显著相关。全基因组分析表明,鉴定出的基因和遗传变异在基因组中彼此靠近。这些基因导致 PLs 浓度变化的结论得到了以下发现的支持:与其他基因相比,这些基因中更高比例参与脂质代谢。
数字
图 2表 1图 1表 2表 3表 4表 5图 2表 1图 1表 2
引文: Ghoreishifar M, Macleod IM, Chamberlain AJ, Liu Z, Lopdell TJ, Littlejohn MD, et al. (2025) 一种优先考虑牛复杂性状候选因果基因的综合方法。PLoS 基因 21(5): e1011492 号。 https://doi.org/10.1371/journal.pgen.1011492
编辑 器: Martien Groenen,瓦赫宁根大学与研究中心,荷兰,王国
收到: 2024 年 11 月 10 日;接受: 2025 年 5 月 8 日;发表: 5月 30, 2025
版权所有: © 2025 Ghoreishifar 等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究期间生成或分析的数据包含在本已发表的文章及其补充文件中。所有基因表达数据均取自先前发表的研究,如材料和方法中所述。Polar Lipids 数据在 Dryad 存储库中公开提供。https://doi.org/10.5061/dryad.bcc2fqzph。
资金: 这项研究是 DairyBio 计划的一部分,该计划由澳大利亚乳业协会(澳大利亚墨尔本)、维多利亚农业协会(澳大利亚墨尔本)和加德纳基金会(澳大利亚墨尔本)共同资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 作者已声明不存在相互竞争的利益。
介绍
全基因组关联研究 (GWAS) 测试数百万个变异(例如单核苷酸多态性 (SNP))和复杂性状之间的统计关联。虽然GWAS在鉴定大量数量性状位点(QTL)方面已经有效,但很难确定哪些是它们影响表型的特定致病变异和靶基因[1–4],主要是因为大多数效应的样本量小,附近变异之间高度的连锁不平衡(LD),以及大多数QTL位于基因组的非编码区。有三种类型的证据可用于识别 QTL 起作用的基因:(1) 最显著 GWAS 变异附近的基因,(2) 表达与性状相关的基因,以及 (3) 生理作用与性状相关的基因 [5]。虽然这三种证据都不是决定性的,但如果它们都指向相同的基因,那将是证明已识别基因是正确的很好的证据。本文研究了这三种类型证据的一致程度,以及最接近 QTL 的基因是可能的候选致病基因的频率。
非编码 GWAS 基因座可能通过调节其靶基因的表达来影响数量性状,这些靶基因称为表达 QTL (eQTL)。eQTL 有两种类型:(1) 顺式-eQTL 是调节性变体,影响其靶基因的表达,这些靶基因不仅位于同一染色体上,而且位于附近的基因组区域内,通常在基因转录起始位点 (TSS) 的 1 Mb 范围内;(2) trans-eQTLs 调节位于不同染色体上或远离同一染色体上变体的靶基因的表达。
如前所述,表达与性状相关的基因可能是 QTL 影响该性状的基因。鉴定这些基因的一种方法是全转录组关联研究 (TWAS)。TWAS 将表达参考面板(同时具有基因表达和基因型数据的个体)与 GWAS 数据集(具有表型和基因型数据的个体)相结合,以揭示基因-性状关联 [1,2]。事实上,TWAS 使用表达参考组合来训练使用顺式变体的每基因预测表达模型,即 SNP 通常位于基因 TSS 的 500 kb 至 1 Mb 范围内 [1,2]。然后,可以使用可用的基因型和表型数据计算GWAS队列的预测基因表达[1,2],并计算表型和预测基因表达之间的相关性,这通常称为TWAS[1–4]。
识别表达与表型(遗传)相关的基因的另一种方法是估计基因表达与性状之间的遗传相关性 [6]。最近引入的一种估计观察到的基因表达与遗传预测表型之间相关性的方法称为遗传评分组学回归 (GSOR) [7]。该方法使用基于一组基因组变异的预测方程来预测感兴趣的性状或表型。所有SNP效应的这种线性组合在动物遗传学中被称为基因组估计育种值(GEBV),在人类遗传学中被称为多基因评分(PGS)[8]。通常,对基因表达最显着的影响是顺式效应,因此为了利用这一事实,GSOR 使用该 GEBV/PGS 的局部成分(即,通常位于基因 TSS 的 1 Mb 范围内的 SNP 的累积效应),然后计算该局部 GEBV 与基因表达之间的相关性。因此,与 TWAS 相比,GSOR 的优势在于将局部 GEBV/PGS 用作响应变量。
基因作用的功能知识是介导 QTL 的基因的第三种证据。基因的功能知识记录在基因本体论(GO)数据库等数据库中[9,10]。我们预计影响特定性状的基因列表将针对与该性状相关的功能注释进行丰富。对于生理上简单的性状(例如,人类骨矿物质密度 [5] 或牛的牛奶成分),这种富集应该比产奶量等性状更清晰,后者受许多生理途径的影响。在这里,我们选择了牛奶中各种极性脂质 (PL) 的浓度作为我们的表型,假设这些性状预计具有比许多其他复杂表型更简单的遗传结构。
乳极性脂质主要包括磷脂、鞘脂和鞘糖脂,占总脂肪的 2% <,主要位于脂肪球膜中 [11]。磷脂磷脂酰胆碱 (PC)、磷脂酰乙醇胺 (PE)、磷脂酰丝氨酸 (PS) 和磷脂酰肌醇 (PI) 和鞘脂鞘磷脂 (SM) 是牛奶中存在的主要极性脂质类别,而乳糖神经酰胺 (LacCer) 和葡萄糖神经酰胺 (GluCer) 等鞘糖脂的浓度要低得多 [11]。
所有这 3 种类型的证据都是不完美的,因为它们仍然会出现假阳性或假阴性结果。每种方法鉴定的基因之间的重叠程度证明了所有方法的强大功能。此外,所有方法鉴定的基因最有可能正确 [5]。
本研究的具体目标是: (1) 根据多性状 GWAS (即 GWAS ) 的荟萃分析确定与 PL 表型相关的基因组区域元);(2) 鉴定来自白细胞 (WBC) 和乳腺组织的基因,其表达与 GSOR 推断的 PL 表型显著相关;(3) 对所有重要的 GSOR 基因(以下简称 GSOR 命中)进行基因列表富集分析,以确定可能参与牛奶 PL 调节的基因本体 (GO) 术语,以及 (4) 研究 GWAS 和 GSOR 之间的重叠;(5) 研究 GWAS 近端 GSOR 命中率的富集元信号。这些分析可以从三个不同的信息来源提供因果关系的证据:GWAS、基因表达和这些基因的生理作用 [5]。
结果
PL 表型的遗传力估计和 GWAS
使用 REML 估计的 56 种 PL 表型的遗传力 (±SE) 范围为 0.07 ± 0.12 至 0.7 ± 0.13。我们在 S1 数据中展示了这些结果。使用 336 只动物和 14,056,074 个插补变异对 56 种 PL 表型进行了单性状 GWAS(表 1)。共有 9,923 个变异在 20 种单独的 PL 表型中表现出显著关联 (P ≤ 2.78E-5;FDR ≤ 10%),而其余 PL 未发现显著关联。在显著关联中,~ 78% 仅位于两条染色体上,包括 BTA 24 (41%) 和 BTA 14 (37%)。GWAS 测试统计量的基因组膨胀 (λ) 范围为 0.94 至 1.07,56 个 PL 的平均值为 1.01(S1 数据)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 1. 本研究的数据描述。
https://doi.org/10.1371/journal.pgen.1011492.t001
来自 GWAS 的汇总统计数据元S2 数据和图 1 中的曼哈顿图提供了 56 种 PL 表型的 (参见材料和方法)。在 GWAS 中元,10,063 个 SNP 显著 (P ≤ 7.15E-5;FDR ≤ 10%),其中 13% 位于 BTA 24,27% 位于 BTA 14,不到 1% 位于 BTA 29 和 21% 位于 BTA 26。GWAS 的这个区别元关于各种常染色体中重要 SNP 分布的单性状 GWAS,可能是因为仅发现 21 个个体 PL 表型存在显著关联,而所有 56 个 PL 表型都包含在 GWAS 中元分析。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 1. 多性状荟萃分析的曼哈顿图牛奶中 ~1400 万种插补变异和 56 种极性脂质的 GWAS。
https://doi.org/10.1371/journal.pgen.1011492.g001
GSOR analysis
我们测试了乳腺数据集中 12,237 个基因的表达与 56 种 PL 的局部 GEBV 之间的关联(p 值显示在 S3 数据中)。总的来说,我们发现了 1,404 个与至少一种 PL 表型显著相关的基因 (S4 Data)。单个 PL 表型的乳腺 GSOR 命中数从 136 到 212 不等,每个性状平均有 173 个基因。
我们测试了 WBC 数据集中 12,533 个基因的表达与 56 种 PL 的局部 GEBV 之间的关联(p 值显示在 S5 数据中)。总共鉴定了 2,186 个与至少一个 PL 相关的基因 (S6 数据)。单个 PL 性状的 WBC GSOR 命中数从 277 到 349 个基因不等,平均每个性状 314 个基因。
基因列表的功能注释
使用 DAVID 数据库 [9,10],我们对 1,404 个乳腺 GSOR 命中与 12,237 个背景基因以及 2,186 个 WBC GSOR 命中与 12,533 个背景基因进行了基因列表富集分析(S3、S4、S5 和 S6 数据)。结果如表 2 所示。对于乳腺 RNA-seq 数据,观察到 GO 术语脂质代谢的显着富集,其中列出了 59 个基因 (FDR < 0.01),GPI 锚定生物合成具有 8 个基因 (FDR < 0.05)。对于 WBC RNA-seq 数据,观察到 GO 术语细胞粘附 (36 个基因;FDR < 0.05)、免疫反应、T 细胞介导的细胞毒性的阳性调节和细胞间粘附 (FDR < 0.05)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 2. 乳腺和白细胞 GSOR 基因的基因列表富集分析。
https://doi.org/10.1371/journal.pgen.1011492.t002
GSOR 命中是否与 GWAS 一致元信号?
我们调查了 GSOR 命中和 GWAS 之间的一致性元使用 100 Kb 和 500 Kb 的非重叠窗口的信号。我们观察到 GSOR 命中和 GWAS 之间存在显著重叠元两种组织的信号 (P ≤ 0.05)。这些结果如表 3 所示。例如,使用 100 Kb 窗口,我们确定了 24,869 个非重叠窗口,其中 839 个包含 GWAS元信号。在我们的 1,404 个乳腺 GSOR 命中中中,有 70 个是在这 839 个带有 GWAS 的窗口中发现的元信号,导致 Fisher 精确检验 p 值为 0.003(比值比 = 1.47)。此外,对于具有相同窗口大小的 WBC 数据,2,184 次 GSOR 命中总数中的 95 次位于 839 个 GWAS 标记的窗口内(参见材料和方法),导致 p 值为 0.024(比值比 = 1.28)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 3. 调查 GSOR hits 与 GWAS 之间的协议元使用各种大小的非重叠窗口的信号。
https://doi.org/10.1371/journal.pgen.1011492.t003
GSOR 命中是否位于 GWAS 标记的窗口内,富集了基因本体术语脂质代谢?
我们专注于位于 GWAS 标记窗口内的 GSOR 命中子集,并根据每个列表中发现的参与脂质代谢 GO 术语的基因比例将它们与背景基因进行比较。结果在表4中列出,背景基因在S3和S5数据中列出。位于 GWAS 标记窗口中的乳腺 GSOR 命中富含所有窗口大小的脂质代谢 GO 项 (P ≤ 0.01)。WBC 数据的这一结果接近显着性水平 (P < 0.10),仅使用 100 Kb 窗口。使用 100 Kb 非重叠窗口获得最佳结果 (比值比)。例如,在乳腺 RNA-seq 数据中,12,237 个背景基因中有 332 个包含脂质代谢 GO 术语,而 70 个 GSOR 命中中有 7 个包含该 GO 术语。这导致 P 值为 0.003,比值比为 3.98。对于 WBC 数据,12,533 个背景基因中有 302 个与脂质代谢 GO 术语一起列出,而 GWAS 标记窗口内的 95 个 GSOR 命中中有 5 个包含相同的 GO 术语 (P = 0.08;比值比 = 2.24)。
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 4. 与背景基因相比,使用不同的非重叠窗口大小,位于脂质代谢 GO 中 GWAS 标记窗口内的 GSOR 命中富集。
https://doi.org/10.1371/journal.pgen.1011492.t004
因此,来自位于 GWAS 标记窗口中的乳腺和 WBC 数据且已知参与脂质代谢(基于 GO 注释)的 GSOR 命中是潜在的候选致病基因,因为多个信息来源支持它们的因果关系(表 5)。这些候选致病基因包括来自乳腺的 DGAT1、SERINC5、PIGL、CYP2U1、ABHD3、CSM5 和 ARV1,以及来自 WBC 数据的 DGAT1、PIGL、CYP2U1、SMPD5 和 NPC2。图 2 说明了两个示例(DGAT1 和 SERINC5),显示了它们附近的乳腺 GSOR 命中和背景基因,以及 GWAS 的曼哈顿图元.
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
表 5. PL 性状的候选致病基因是位于 GWAS 标记的 100 Kb 非重叠窗口中的 GSOR 基因的子集,并参与脂质代谢 GO 项。
https://doi.org/10.1371/journal.pgen.1011492.t005
缩略图下载:
PPT的PowerPoint 幻灯片
PNG放大图片
国际电影节原始图像
图 2. GWAS 和 GSOR 信号围绕两个优先基因 DGAT1 和 SERINC5。
该图的第一级显示了 GWAS meta 分析的曼哈顿图,第二级显示了在乳腺和/或 WBC 数据中表达与至少一种 PL 表型显著相关的基因(用绿色突出显示的基因是潜在的候选致病基因),第三级图表示在乳腺数据中表达的背景基因。
https://doi.org/10.1371/journal.pgen.1011492.g002
讨论
GWAS已经确定了许多与复杂性状相关的变异,例如人类身高[12]或畜牧生产性状[13]。如果相关基因位于编码区,则因果变异可能直接指向相关基因。然而,研究报告称,大多数与 GWAS 的复杂性状相关的变异位于非编码区 [14,15],因此具有未知的功能。非编码区的 QTL 可以通过调节基因表达(即 eQTL)来影响表型 [16,17]。主要由于 LD 带来的挑战不仅在于确定非编码区的实际致病变异,还在于找到它们影响表型的目标基因 [2,4,7]。因此,已经开发了 TWAS 和其他方法来优先考虑 GWAS 基因座的致病基因 [1]。
在这项研究中,我们将 GWAS 整合元使用 GSOR 分析来确定影响复杂性状表型 (即牛奶中 PL 浓度) 的潜在候选致病基因。对 56 个单性状 GWAS (GWAS元),确定了 10,063 个关联。GWAS的元之所以使用这种方法,是因为荟萃分析可以通过利用相关性状之间的共享遗传结构来增强检测遗传变异的能力 [18]。接下来,进行 GSOR 以确定 PL 表型的基因表达与局部 GEBV 之间的显着关联。我们的 GSOR 分析显示,来自 WBC 和乳腺转录组的 2,186 和 1,404 个基因与至少一种 PL 表型显著相关。然而,并非所有基因-性状关联都是因果关系。TWAS 方法(包括 GSOR)通常每个基因座可检测多个重要基因 [2,5]。
LD 可导致 TWAS 假阳性 [2]。例如,当一个影响表型的 eQTL 与另一个 eQTL 在 LD 中时,这将导致两个基因的表达与性状之间存在相关性,但这种关系对于第二个基因来说不是因果关系 [2]。在我们的研究中,DGAT1 和 SLC52A2 基因都是 GSOR 命中,前者是影响乳脂的众所周知的致病基因 [19–23](图 2a)。SLC52A2 可能是错误的 GSOR 命中,因为它的表达与乳腺中 DGAT1 的表达高度相关 (r = 0.5,p = 2.8E-12)。 另一个例子是 SERINC5 和 PSMC6 基因之间的表达相关性 (r = -0.34;p = 3.7E-6);虽然前者是我们优先考虑的候选致病基因之一,但后者更有可能是假命中(图 2b)。因此,假设基因表达介导对复杂性状的遗传影响,GSOR 或 TWAS 关联并不能提供基因表达与这些性状之间因果关系的直接证据。相反,它们代表了表达水平和表型之间的关联 [2]。因此,需要额外的证据来源来确定候选因果基因-性状关联的优先级。
我们评估了 GSOR 命中和 GWAS 之间的一致性元信号。通过将基因组划分为不同大小的不重叠窗口,包括 0.1 和 0.5 Mb,我们证明 GSOR 命中明显更有可能位于 GWAS 标记的窗口内。这种显著的重叠支持了 GSOR 命中包括介导 GWAS 效应的致病基因的假设元PL 表型上的信号。
如果 GSOR 点击由 GWAS 标记元信号(即位于 GWAS 标记窗口内的那些基因)并包含致病基因,它们应该显示生物学相关 GO 的富集。牛奶 PL 是检验这一假设的有前途的目标表型。产奶量等性状并不简单,许多途径可能会影响最终的表型。然而,识别具有生理简单表型(如牛奶 PL)的富集通路应该更容易。此外,大多数 PL 表型的中高遗传力增加了检测到遗传关联的可能性,即使样本量较小。我们通过调查与总背景基因相比,位于 GWAS 标记窗口内的 GSOR 命中基因的脂质代谢 GO 术语的富集来检验这一假设。结果表明,这些 GSOR 命中对脂质代谢 GO 的显着富集(表 4),特别是在乳腺组织中,其中 100 Kb 窗口显示出最强的相关性(比值比 = 3.98;P = 0.003)。然而,位于 GWAS 标记窗口内的 70 个乳腺 GSOR 命中中中只有 7 个 (10%) 包含脂质代谢 GO 术语。因此,像 GO 这样的注释分析的能力可能会受到对基因所扮演的多重作用的不完全了解的影响,尤其是在人类以外的物种中。这些基因是 PL 表型的潜在候选致病基因。
优先作为候选致病基因的乳腺 GSOR 命中是 DGAT1 、 ABHD3 、 SERINC5 、 CYP2U1 、 PIGL 、 ARV1 和 ACSM5。我们的研究结果显示,DGAT1 在乳腺中的表达与不同的 PL 表型相关,包括磷脂酰丝氨酸、鞘脂鞘磷脂、磷脂磷脂酰胆碱、磷脂酰肌醇和葡萄糖神经酰胺表型。据报道,DGAT1 基因对牛产奶量和成分的表型变异有显著影响 [24,25]。脂肪球的大小是牛奶中极性脂质的关键决定因素;它们越小,膜就越多。这可能有助于解释影响牛奶脂肪酸组成的基因(如 DGAT1)的影响。虽然已经确定了该基因的蛋白质编码突变 [25,26],但本研究和以前的研究 [21,24,27] 揭示了 DGAT1 的顺式调节作用,这可能归因于多种致病突变。乳腺组织的 GSOR 分析发现 BTA24 上的 ABHD3 显著;我们观察了 2ND最重要的 GWAS元峰。在牛中,低分辨率的 GWAS 在 BTA 24 上发现了一个广泛的区域,包括 ABHD3 以及许多其他与牛奶脂肪酸浓度相关的基因 [28]。在人类 GWAS 中,该基因与循环磷酸化和鞘脂浓度有关 [29],最近血浆脂质组上的 GWAS 报告了导致这种关联的错义突变 [30]。在一项关于 ABHD3 的代谢组学研究中,该基因被注释为靶向中链和氧化截短磷脂的脂肪酶,确立了其在脂质代谢中的生理作用 [31]。这是首次报道了将乳腺中 ABHD3 基因的表达与牛奶中 PL 浓度联系起来的顺式调节机制。我们的研究结果表明,ABHD3 基因在乳腺中的表达主要与鞘脂鞘磷脂和磷脂磷脂酰胆碱有关,但也与磷脂乙醇胺和磷脂酰丝氨酸有关。另一个基因是 BTA 25 上的 ACSM5 (酰基辅酶 A 合成酶中链家族成员 5),其在乳腺中的表达主要与 SM 表型相关,但也与磷脂酰乙醇胺表型之一有关。ACSM5 催化 CoA 激活脂肪酸以产生酰基辅酶 A,这是脂肪酸代谢的第一步。ACSM5 参与脂肪酸生物合成过程和酰基辅酶 A 代谢过程 (https://www.genecards.org/)。BTA28 上的 ARV1 基因在乳腺中的表达与葡萄糖神经酰胺表型相关,与几个 GO 术语一起列出,包括鞘脂、胆固醇、胆汁酸代谢以及胆固醇和甾醇转运。据报道,缺乏 ARV1 基因的酵母细胞存在鞘脂代谢缺陷 [32]。
我们的研究有一些局限性。首先,尽管 PL 性状的生理学相对简单且遗传力较高,但用于预测 GEBV 和估计它们与基因表达相关性的样本量很小。这可能限制了 BayesR3 识别对 PL 浓度影响较小的变体的能力。尽管样本量很小,但我们的结果显示,我们仍然能够识别出相关的遗传信号。但是,我们建议使用更大的数据集来测试此处介绍的方法。此外,复杂性状的遗传性很大一部分可能与反式 eQTL 有关,即位于不同染色体上或距离超过 5 Mb 的 eQTL [33],而这些不包括在本研究中。然而,对 trans-eQTLs 的研究需要大量的表达参考样本,以确保足够的统计能力。
总之,GWAS 、 GSOR 和 GO 鉴定的基因之间的显著重叠表明,这三种方法在鉴定介导 QTL 的基因方面都有一定的能力。然而,表 3 和表 4 中的比值比不是很高,因此这些方法的功效是有限的。较大的样本量可能会增加功效,但我们预计一些问题(例如 LD)将持续存在。然而,方法的组合确实给出了假阳性较少的候选基因列表。
材料和方法
道德声明
本研究没有进行新的动物实验。所有数据均来自先前发表的研究。
GWAS data description
Phenotypic data for Australian Holstein cows, including records for the concentration of 59 species of PLs in milk, were obtained. All experimental cows were maintained in the research herd at the Department of Economic Development, Jobs, Transport and Resources’ Ellinbank Centre in Victoria, Australia, and the experimentation was conducted in accordance with the Australian Code of Practice for the Care and Use of Animals for Scientific Purposes. Cow diet varied through the milking season, but the majority of the cows’ nutrient intake was usually derived from grazed pasture supplemented with bought-in feedstuff fed according to different strategies.
Three hundred sixty multiparous Holstein cows that calved in late winter/early spring were used in this study. The experiment was conducted over three years (2013, 2014, and 2015), with 120 cows participating each year. Milk samples were collected each year in three batches (40 animals per batch) over the period of mid-October to late-November. On each sampling occasion, the total milk from the afternoon and morning milking was collected into test buckets, pooled for each cow, and a subsample was taken for analysis. Milk samples were transported to the laboratory on ice and kept at -80 °C before analysis.
Polar lipids were extracted from raw milk as previously described [11]. Internal standard (PS 34:0) was added prior to lipid extraction. An Agilent 1290 UPLC system coupled to an LTQ-Orbitrap MS (Thermo Scientific) was used for polar lipid quantification. Chromatographic separation of polar lipids was achieved using a Luna HILIC column (250 × 4.6 mm, 5 µm, Phenomenex) maintained at 30 °C. The mobile phase was composed of 5 mM aqueous ammonium formate (A) and acetonitrile containing 0.1% formic acid (B). The flow rate was 0.6 mL/min with a gradient elution of 2–21% A over 25 min. The injection volume was 5 µL. The detection of lipids was by LTQ-Orbitrap mass spectrometer (Thermo Scientific) operated in electrospray ionization positive (for most polar lipid classes) or negative (for analysis of PI) Fourier transform mode. The resolution was set to 60,000 for both positive and negative modes. Identification of lipid species present in milk was performed as previously reported [11]. The quantification of selected polar lipid species was based on the peak area of parent ions after normalization based on the internal standard.
牛奶极性脂质性状的 GWAS 数据可在 Dryad 数据存储库中公开获得 [34]。遗传力 (h2) 是使用 GCTA 中的 --reml 命令估计这些性状的 [35]。使用了以下模型:,其中 是表型记录的向量; 是协变量矩阵(即 batch 和 year 的综合效应,有 9 个水平); 是随机多基因效应的向量,其中 G 是使用 50K SNP 基因型估计的基因组关系矩阵 [36],是由 50K SNP 解释的加性遗传方差,是残差向量,其中 I 是同位矩阵,是残差方差。遗传力定义为遗传效应方差与总方差的比率。
由于遗传力为零,排除了 3 个 PL,留下 56 个 PL 用于 GWAS 分析(表 1)。平均表型中 SD 为 ±4 的记录被排除在分析之外(即,对于 15 个 PL 性状,排除的记录数范围为 1 到 6;对于其余 41 个 PL,因此没有记录被排除)。
这 336 头奶牛已经进行了基因分型,因为该政府研究牛群的先前实验中涉及各种亚组:181 头奶牛使用标准 50K SNP 芯片进行基因分型,17 头奶牛使用高密度 (HD) 700K 进行基因分型,其余奶牛使用低密度 ~ 7.5K。将 336 头奶牛的基因型数据归因于全基因组序列 (WGS) 水平(表 1)。Minimac3 [37] 用于以 1000 Bull Genomes 项目的 Run7 作为参考人群 [38] 来插补基因型。插补的细节在 [39] 中描述。
表达式参考面板数据
使用了来自 WBC 和乳腺组织的两组不同的转录组学数据。
WBC 基因表达来自 143 只澳大利亚荷斯坦动物,这是更大的多品种数据集的一个子集。这些奶牛是从单个农场(Ellinbank Smart Farm)中选择的,唯一的标准是它们是泌乳奶牛。然而,DIM 是作为固定效应安装的。样品的处理、RNA提取、文库制备、RNA测序等在[33,40,41]中有详细描述(表1)。该数据与 GWAS 数据集没有重叠。如上所述,使用 1000 Bull Genomes 项目的 Run7 作为参考群体 [38] 对 WBC RNA-seq 动物的 WGS 基因型进行归因。
获得了 169 头新西兰荷斯坦奶牛的乳腺基因表达数据 [42–44](表 1)。对于该数据集,使用 1,298 只参考动物(包括 306 只荷斯坦-弗里斯兰、219 只泽西、717 只 HF × J 和 56 个其他品种)估算了 12,622,468 个变异,如 [45] 所述。
GWAS 分析
插补准确度低的变体 (Minimac R2< 0.5),次要等位基因频率 (MAF) < 0.01,以及偏离 Hardy-Weinberg 平衡的变体 χ2 排除 1E-6 < p 值。使用 14,056,074 个插补变异对 56 种 PL 表型 (S1 数据) 进行单性状 GWAS。对于 GWAS,我们使用了在 GCTA 软件中实现的混合线性模型离开一条染色体 (MLM-LOCO) 方法 [35,46]。GCTA 最初调整了固定效应的表型 (批次和年份的组合效应有 9 个水平),然后使用以下模型:
(1)
其中 是调整后的表型值的记录向量; 是 1 的向量;μ 是特征的平均值; 是被测 SNP 的加性等位基因取代效应; 是等位基因剂量的向量(编码为 0、1 或 2); 是多基因效应的向量,其中 G 是使用 SNP 50K 基因型计算的基因组关系矩阵 [36],不包括位于带有测试 SNP 的染色体上的变异(LOCO 方法); 是由 50K SNP 解释的加性遗传方差;和 是 的残差向量,其中 I 是单位矩阵,是残差方差。为了解决多个测试问题,使用 p.adjust R 函数 [48] 中实现的 Benjamini-Hochberg 方法 [47] 调整获得的 p 值。FDR ≤ 0.10 的变异被视为显著的。
我们还计算了基因组膨胀因子 (λ)。为此,我们使用具有一个自由度的分位数函数分布将 GWAS p 值转换为卡方 () 检验统计量。然后,我们使用公式 ,其中分子是观察到的卡方检验统计量的中位数,分母是原假设下卡方分布的预期中位数。
多性状 GWAS 荟萃分析
我们使用 56 个单性状 GWAS(以下简称 GWAS )的输出进行了荟萃分析元) [18]. GWAS 的以下公式元被使用 [18]:
(2)
其中 是 的 N × 1 的有符号 t 值的向量,n 是使用的特征数; 是 的转置 和 是相关矩阵的逆矩阵,其中两个性状之间的相关性是两个性状的 14,056,074 个估计的 SNP 效应(符号 t 值)的相关性; 是具有 i 自由度的卡方统计量thSNP;i 的 p 值th使用具有自由度 [18] 的 pchisq R 函数 [48] 计算 SNP。为了解决多个测试问题,使用 p.adjust R 函数 [48] 中实现的 Benjamini-Hochberg 方法 [47] 调整获得的 p 值。FDR ≤ 0.10 的变异在 GWAS 中被视为显著元.
预测表达参考面板奶牛的 GEBV
我们使用 PLINK v1.9 [49] 对 GWAS 奶牛的基因型进行了 LD 修剪,参数为 --indep-pairwise 5000 500 0.95,以排除强 LD 中的变异 (r2> 0.95)。使用具有 1,236,780 个 SNP 的 LD 修剪 GWAS 数据集来训练带有 BayesR3 软件 [50] 的模型,以预测表达参考面板奶牛上 PL 性状的 GEBV(表 1)。来自表达参考面板的个体具有相同的 1,236,780 个 SNP 基因型。对于每个单独的 PL,使用以下模型:
(3)
其中 是表型记录的列向量,其中 是记录数; 是一个入射矩阵,× 1 个固定效应向量,是固定效应的数量,包括批次和年份的组合效应(九个水平); 是编码的基因型,代表观察到的每个个体的基因型;g 是 SNP 效应的向量;a 是 SNP 无法解释的随机遗传效应向量,其多基因方差表示为 ,其中 ,,A 是关系矩阵;e 是残差项。BayesR3 运行了 50,000 次 MCMC 迭代和 25,000 次老化。在 BayesR3 模型中,SNP 效应遵循四个正态分布的混合,均值为零,加性遗传方差为零、0.0001、0.001 和 0.01 倍的遗传方差。四个 SNP 效应分布的比例的起始值分别定义为 0.994、0.0055、0.00049 和 0.00001。
一旦估计了 SNP 对单个 PL 表型的影响,就可以使用位于该基因 TSS ±1 Mb 内的 SNP 的影响来计算对应于特定基因的表达参考组中奶牛的局部 GEBV。
遗传评分组学回归 (GSOR)
对于单个 PL 和 RNA-seq 数据集(即组织),应用了以下每基因 GSOR 模型:
(4)
其中 是局部 GEBV 的向量(对应于一个基因); 是该基因表达的向量;m 是动物的数量; 是 on 的回归系数 ; 表示固定效应的设计矩阵(见下一段),并且是固定效应的向量(对于 RNA-seq 数据);是随机多基因效应的向量(对于 RNA-seq 数据),其中 G 是使用 50K SNP 基因型计算的基因组关系矩阵 [36],是由 50K SNP 解释的加性遗传方差; 是 的残差向量,其中 I 是单位矩阵,是残差方差。
WBC RNA-seq 数据集的模型使用实验 (对应于采样时间的五个水平) 作为分类固定效应,使用奶中天数 (DIM) 作为定量固定效应进行拟合,平均值和 SD 为 86 (± 36) 天。不需要为乳腺 RNA-seq 数据集拟合固定效应。一旦估计了 RNA-seq 数据集中所有基因与单个 PL(即对应于该基因的奶牛的局部 GEBV)之间的关联,就针对多个测试问题调整了 p 值 [47],分别针对每个性状进行。FDR ≤ 0.01 的基因被认为是显著的。
功能注释分析
使用在 56 种 PL 表型中具有显著性的 GSOR 基因分别对每个组织进行基因集富集分析,其中每个 RNA-seq 数据集中的基因总数(测试基因)用作背景基因。我们使用了 DAVID (The Database for Annotation, Visualization, and Integrated Discovery) 生物信息学工具 [9,10],并认为 FDR ≤ 0.05 的生物学术语具有显著意义。
GSOR 命中是否与 GWAS 一致元信号?
我们将基因组分为 100 Kb 和 500 Kb 的非重叠窗口,其中我们确定了包含至少一个重要 GWAS 的窗口元SNP(以下简称 GWAS 标记窗口)。然后,我们计算了在这些窗口中发现的 GWAS 标记窗口和 GSOR 命中率。如果基因的起始位置在 GWAS 标记的窗口内,则认为该基因的 GSOR 命中位于该窗口内。将这些值与非重叠窗口的总数和 GSOR 命中总数进行比较。使用 Fisher 精确检验,≤ 0.05 的 P 值被认为显著。
在 GWAS 标记的窗口中找到的 GSOR 命中是否针对相关的 GO 术语进行了丰富?
我们计算了两组基因的脂质基因(即参与脂质代谢 GO 的基因)的丰度,包括 (1) 在 GWAS 标记的窗口中发现的 GSOR 命中和 (2) 背景基因(即,该 RNA-seq 数据中测试基因的总数)。如果该基因存在于脂质代谢 GO 中,我们将每组的基因标记为 involved_in,否则not_involved_in。我们使用 Fisher 精确检验来调查两组之间差异的显著性。我们认为 P 值≤ 0.05 是显著的。
支持信息
基于 REML 的遗传力估计和 56 种牛奶极性脂质表型的 GWAS 基因组膨胀因子。
显示 1/6: pgen.1011492.s001.csv
跳至 fig分享导航
很抱歉,我们无法加载此页面。
55003145.csv
1 / 6
下载
无花果分享
S1 数据。 基于 REML 的遗传力估计和 56 种牛奶极性脂质表型的 GWAS 基因组膨胀因子。
https://doi.org/10.1371/journal.pgen.1011492.s001
(CSV)
S2 数据。 来自 GWAS 的汇总统计数据元对于 56 种 PL 表型。
https://doi.org/10.1371/journal.pgen.1011492.s002
(邮编)
S3 数据。 使用乳腺数据集计算的 GSOR p 值。
第一列是 Gene Ensemble ID,从第 2 列开始是 GSOR p 值(每列对应一个特定的 PL)。
https://doi.org/10.1371/journal.pgen.1011492.s003
(文本)
S4 数据。 确定了乳腺转录组的 1,404 个 GSOR 命中。
https://doi.org/10.1371/journal.pgen.1011492.s004
(文本)
S5 数据。 使用白细胞 (WBC) 数据集计算的 GSOR p 值。
第一列是 Gene Ensemble ID,从第 2 列开始是 GSOR p 值(每列对应一个特定的 PL)。
https://doi.org/10.1371/journal.pgen.1011492.s005
(文本)
S6 数据。 鉴定出白细胞转录组的 2,186 个 GSOR 命中。
https://doi.org/10.1371/journal.pgen.1011492.s006
(文本)
确认
我们感谢 Bolormaa Sunduimijid 博士对具有极性脂质表型的牛的序列变异进行插补,并感谢 1000 Bull Genomes Project 的 Run7 的合作伙伴进行数据访问。
引用
1.Gamazon ER、Wheeler HE、Shah KP、Mozaffari SV、Aquino-Michaels K、Carroll RJ 等。一种基于基因的关联方法,用于使用参考转录组数据绘制性状。Nat Genet.2015;47(9):1091–8.PMID:26258848
查看文章PubMed/NCBI谷歌学术
2.Wainberg M、Sinnott-Armstrong N、Mancuso N、Barbeira AN、Knowles DA、Golan D 等人。转录组范围关联研究的机遇和挑战。Nat Genet.2019;51(4):592–9.PMID:30926968
查看文章PubMed/NCBI谷歌学术
3.Gusev A, Ko A, Shi H, Bhatia G, Chung W, Penninx BWJH 等人。大规模转录组范围关联研究的综合方法。Nat Genet.2016;48(3):245–52.PMID:26854917
查看文章PubMed/NCBI谷歌学术
4.Mancuso N, Shi H, Goddard P, Kichaev G, Gusev A, Pasaniuc B. 将基因表达与汇总关联统计相结合,以识别与 30 个复杂性状相关的基因。Am J Hum Genet.2017;100(3):473–87.PMID:28238358
查看文章PubMed/NCBI谷歌学术
5.Al-Barghouthi BM、Rosenow WT、Du KP、Heo J、Maynard R、Mesner L 等人。转录组范围关联研究和 eQTL 共定位确定了导致人骨矿物质密度 GWAS 关联的潜在致病基因。Elife 的。2022;11:e77285.PMID:36416764
查看文章PubMed/NCBI谷歌学术
6.Lim KS、Cheng J、Tuggle C、Dyck M、Canada P、Fortin F 等人。对年轻健康猪的血液转录组进行遗传分析,以提高疾病恢复力。Genet Sel Evol.2023;55(1):90.PMID:38087235
查看文章PubMed/NCBI谷歌学术
7.Xiang R, Fang L, Liu S, Liu Ge, Tenesa A, Gao Y, et al.遗传评分组学回归和多性状荟萃分析可检测塑造牛复合体性状的广泛顺式调节作用。生物Rxiv。2022.
查看文章谷歌学术
8.Xiang R, Kelemen M, Xu Y, Harris LW, Parkinson H, Inouye M, et al.多基因评分的最新进展:翻译、公平性、方法和 FAIR 工具。基因组医学 2024;16(1):33.PMID:38373998
查看文章PubMed/NCBI谷歌学术
9.黄 DW, 谢尔曼 BT, 伦皮克 RA.使用 DAVID 生物信息学资源对大型基因列表进行系统和综合分析。Nat Protoc.2009;4(1):44–57.PMID:19131956
查看文章PubMed/NCBI谷歌学术
10.Sherman BT, Hao M, Qiu J, Jiao X, Baseler MW, Lane HC, et al. DAVID:用于基因列表功能富集分析和功能注释的 Web 服务器(2021 年更新)。核酸研究。2022;50(W1):W216–21。
查看文章谷歌学术
11.Liu Z, Moate P, Cocks B, Rochfort S. 通过液相色谱-质谱法对牛奶中的综合极性脂质进行鉴定和定量。J Chromatogr B 分析技术生物医学生命科学 2015;978–979:95–102.PMID:25531876
查看文章PubMed/NCBI谷歌学术
12.Yengo L、Vedantam S、Marouli E、Sidorenko J、Bartell E、Sakaue S 等人。与人类身高相关的常见遗传变异的饱和图谱。全国 2022;610(7933):704–12.
查看文章谷歌学术
13.江 J, 马 L, 普拉卡彭卡 D, 范拉登 PM, 科尔 JB, 达 Y.美国荷斯坦牛的大规模全基因组关联研究。遗传学前沿。2019.
查看文章谷歌学术
14.Hoffman GE, Bendl J, Girdhar K, Schadt EE, Roussos P. 使用深度学习对遗传变异进行功能解释可预测对染色质可及性和组蛋白修饰的影响。核酸研究 2019;47(20):10597–611.PMID:31544924
查看文章PubMed/NCBI谷歌学术
15.李 B,里奇医学博士。从 GWAS 到基因:全转录组关联研究和其他功能理解 GWAS 发现的方法。前基因。2021;12:713230.PMID:34659337
查看文章PubMed/NCBI谷歌学术
16.Majewski J, Pastinen T.RNA-seq 对 eQTL 变异的研究:从 SNP 到表型。趋势基因。2011;27(2):72–9.PMID:21122937
查看文章PubMed/NCBI谷歌学术
17.Ghoreishifar M、Chamberlain AJ、Xiang R、Prowse-Wilkins CP、Lopdell TJ、Littlejohn MD 等。导致组蛋白修饰的 ChIP-seq 峰高的等位基因特异性结合变异在表达 QTL 注释中未富集。Genet Sel Evol.2024;56(1):50.PMID:38937662
查看文章PubMed/NCBI谷歌学术
18.Bolormaa S、Pryce JE、Reverter A、Zhang Y、Barendse W、Kemper K 等人。用于检测肉牛身材、脂肪和繁殖多效性多态性的多性状荟萃分析。PLoS 基因。2014;10(3):e1004198。PMID:24675618
查看文章PubMed/NCBI谷歌学术
19.Bovenhuis H, Visker MHPW, van Valenberg HJF, Buitenhuis AJ, van Arendonk JAM.DGAT1 多态性对整个泌乳期测试日产奶性状的影响。乳品科学杂志 2015;98(9):6572–82.PMID:26142855
查看文章PubMed/NCBI谷歌学术
20.江 J, 马 L, 普拉卡彭卡 D, 范拉登 PM, 科尔 JB, 达 Y.美国荷斯坦牛的大规模全基因组关联研究。前基因。2019;10:412.
查看文章谷歌学术
21.Kühn C、Thaller G、Winter A、Bininda-Emonds ORP、Kaupe B、Erhardt G 等人。DGAT1 基因座的多个等位基因的证据更好地解释了对牛乳脂含量有重大影响的数量性状基因座。遗传学。2004;167(4):1873–81.PMID:15342525
查看文章PubMed/NCBI谷歌学术
22.Lehnert K、Ward H、Berry SD、Ankersmit-Udy A、Burrett A、Beattie EM 等人。表型群体筛选确定了牛 DGAT1 中导致不饱和乳脂的新突变。科学代表 2015;5:8484。PMID:25719731
查看文章PubMed/NCBI谷歌学术
23.Schennink A, Stoop WM, Visker MH, Heck JM, Bovenhuis H, van der Poel JJ, et al. DGAT1 是奶牛乳脂组成巨大遗传变异的基础。动画基因。2007;38(5):467–73.
查看文章谷歌学术
24.Fink T、Lopdell TJ、Tiplady K、Handley R、Johnson TJJ、Spelman RJ 等人。一种常见突变的新机制 - 牛 DGAT1 K232A 通过多连接外显子剪接增强来调节基因表达。BMC 基因组学。2020;21(1):591.PMID:32847516
查看文章PubMed/NCBI谷歌学术
25.Grisart B、Coppieters W、Farnir F、Karim L、Ford C、Berzi P 等人。奶牛 QTL 的位置候选克隆:鉴定对产奶量和成分有重大影响的牛 DGAT1 基因中的错义突变。基因组研究 2002;12(2):222–31.PMID:11827942
查看文章PubMed/NCBI谷歌学术
26.Fürbass R, Winter A, Fries R, Kühn C. 与 14 号染色体上乳脂 QTL 相关的牛 DGAT1 可变数量的串联重复序列的等位基因可以刺激基因表达。生理基因组学。2006;25(1):116–20.PMID:16534144
查看文章PubMed/NCBI谷歌学术
27.Hosseinzadeh S, Rafat SA, Javanmard A, Fang L. 基于转录组范围关联研究鉴定与牛奶产生和乳腺炎相关的候选基因。动画基因。2024;55(3):430–9.PMID:38594914
查看文章PubMed/NCBI谷歌学术
28.Atashi H、Chen Y、Wilmot H、Vanderick S、Hubin X、Soyeurt H 等人。双重用途比利时蓝奶牛中选定牛奶脂肪酸的单步全基因组关联。乳品科学杂志 2023;106(9):6299–315.PMID:37479585
查看文章PubMed/NCBI谷歌学术
29.Demirkan A、van Duijn CM、Ugocsai P、Isaacs A、Pramstaller PP、Liebisch G 等人。全基因组关联研究确定了与循环磷酸化和鞘脂浓度相关的新位点。PLoS 基因。2012;8(2):e1002490。PMID:22359512
查看文章PubMed/NCBI谷歌学术
30.Ottensmann L、Tabassum R、Ruotsalainen SE、Gerl MJ、Klose C、Widén E 等人。血浆脂质组的全基因组关联分析确定了 495 个遗传关联。Nat Commun.2023;14(1):6934.PMID:37907536
查看文章PubMed/NCBI谷歌学术
31.Long JZ、Cisar JS、Milliken D、Niessen S、Wang C、Trauger SA 等人。代谢组学注释 ABHD3 为中链磷脂的生理调节因子。Nat Chem Biol. 2011 年;7(11):763–5.PMID:21926997
查看文章PubMed/NCBI谷歌学术
32.Swain E、Stukey J、McDonough V、Germann M、Liu Y、Sturley SL 等人。缺乏 ARV1 基因的酵母细胞在鞘脂代谢中存在缺陷。人 ARV1 的互补。J Biol Chem. 2002 年;277(39):36152–60.PMID:12145310
查看文章PubMed/NCBI谷歌学术
33.Xiang R, Fang L, Liu S, Macleod IM, Liu Z, Breen EJ, et al.基因表达和 RNA 剪接解释了牛复杂性状的大部分遗传性。细胞基因组学。2023;3(10).
查看文章谷歌学术
34.Ghoreishifar M、Macleod IM、Chamberlain AJ、Liu Z、Lopdell TJ、Littlejohn MD 等人。一种综合方法,用于优先考虑牛复杂性状的候选致病基因。精。2025.
查看文章谷歌学术
35.GCTA:全基因组复杂性状分析工具。Am J Hum Genet.2011;88(1):76–82.PMID:21167468
查看文章PubMed/NCBI谷歌学术
36.Yang J、Benyamin B、McEvoy BP、Gordon S、Henders AK、Nyholt DR 等人。常见的 SNP 解释了人类身高遗传性的很大一部分。Nat Genet.2010;42(7):565–9.PMID:20562875
查看文章PubMed/NCBI谷歌学术
37.Das S、Forer L、Schönherr S、Sidore C、Locke AE、Kwong A 等人。下一代基因型插补服务和方法。Nat Genet.2016;48(10):1284–7.PMID:27571263
查看文章PubMed/NCBI谷歌学术
38.Daetwyler HD、Capitan A、Pausch H、Stothard P、van Binsbergen R、Brøndum RF 等人。对 234 头公牛进行全基因组测序有助于绘制牛的单基因和复杂性状。Nat Genet.2014;46(8):858–65.PMID:25017103
查看文章PubMed/NCBI谷歌学术
39.Xiang R、Breen EJ、Bolormaa S、Jagt CJV、Chamberlain AJ、Macleod IM 等人。突变等位基因差异地塑造牛的适应性和其他复杂性状。Commun Biol. 2021;4(1):1353.PMID:34857886
查看文章PubMed/NCBI谷歌学术
40.Chamberlain A、Hayes B、Xiang R、Vander Jagt C、Reich C、Macleod I 等人。使用 RNA 序列数据鉴定奶牛的调节变异。收录于:第 11 届世界遗传学大会应用于畜牧业生产会议记录,2018 年。11–6.
41.Xiang R、Hayes BJ、Vander Jagt CJ、MacLeod IM、Khansefid M、Bowman PJ 等人。与牛 RNA 剪接变异相关的基因组变异在组织之间广泛共享。BMC 基因组学。2018;19(1):521.PMID:29973141
查看文章PubMed/NCBI谷歌学术
42.Littlejohn MD, Tiplady K, Fink TA, Lehnert K, Lopdell T, Johnson T, et al. 基于序列的关联分析揭示了对牛奶组成具有多效性影响的 MGST1 eQTL。科学代表 2016;6:25376。PMID:27146958
查看文章PubMed/NCBI谷歌学术
43.Lopdell TJ, Tiplady K, Struchalin M, Johnson TJJ, Keehan M, Sherlock R, et al. 基于 DNA 和 RNA 序列的 GWAS 强调膜转运基因是牛奶乳糖含量的关键调节因子。BMC 基因组学。2017;18(1):968.PMID:29246110
查看文章PubMed/NCBI谷歌学术
44.Prowse-Wilkins CP、Lopdell TJ、Xiang R、Vander Jagt CJ、Littlejohn MD、Chamberlain AJ 等人。组蛋白修饰和基因表达的遗传变异可识别牛乳腺中的调节变异。BMC 基因组学。2022;23(1):815.PMID:36482302
查看文章PubMed/NCBI谷歌学术
45.Trebes H、Wang Y、Reynolds E、Tiplady K、Harland C、Lopdell T 等人。Bos taurus 染色体 X. J 乳品科学 2023 上候选新生产变异的鉴定;106(11):7799–815.PMID:37562645
查看文章PubMed/NCBI谷歌学术
46.Yang J, Zaitlen NA, Goddard ME, Visscher PM, Price AL. 混合模型关联方法应用的优势和陷阱。Nat Genet.2014;46(2):100–6.PMID:24473328
查看文章PubMed/NCBI谷歌学术
47.Benjamini Y, Hochberg Y. 控制错误发现率:一种实用而强大的多重测试方法。皇家统计学会杂志:B 系列(方法论)。1995;57(1):289–300.
查看文章谷歌学术
48.R:一种用于统计计算的语言和环境。可从:https://www.R-project.org/。
查看文章谷歌学术
49.Chang CC, Chow CC, Tellier LC, Vattikuti S, Purcell SM, Lee JJ. 第二代 PLINK:迎接更大、更丰富数据集的挑战。Gigascience。2015;4:7.PMID:25722852
查看文章PubMed/NCBI谷歌学术
50.Breen EJ、MacLeod IM、Ho PN、Haile-Mariam M、Pryce JE、Thomas CD 等人。BayesR3 支持快速 MCMC 阻断处理,用于大规模多性状基因组预测和 QTN 定位分析。Commun Biol. 2022;5(1):661.PMID:35790806
查看文章PubMed/NCBI谷歌学术,