厦门免费论文发表-使用公开可用的全基因组废水测序数据检测 SARS-CoV-2 隐匿谱系

2025-06-13

厦门免费论文发表-使用公开可用的全基因组废水测序数据检测 SARS-CoV-2 隐匿谱系


雷尼尔·苏亚雷斯,德文·格雷戈里,大卫·贝克,克莱顿·拉什福德,托林·亨特,尼古拉斯·米诺,


抽象

从 2021 年初开始,使用测序策略在废水下水道中零星发现独特且高度不同的 SARS-CoV-2 谱系,该测序策略专注于扩增 SARS-CoV-2 发展最快的区域,即受体结合域 (RBD)。由于这些 RBD 序列与已知的流行菌株不匹配,并且其来源未知,因此我们称它们为“隐秘谱系”。迄今为止,已经使用以 RBD 为重点的测序策略鉴定了 20 多个隐秘谱系。在这里,我们从提交给 NCBI 序列读取档案 (SRA) 的 SARS-CoV-2 废水序列中鉴定并表征了其他隐秘谱系。筛选废水序列数据集中的单个序列读数,这些读数包含在隐秘谱系中经常发现的突变组合,但不包括当代循环谱系。使用这种方法,我们鉴定了 18 个神秘谱系,这些谱系出现在来自同一下水道的多个 (2-81) 样本中,其中包括 12 个以前未报道的谱系。通过提取和映射包含隐性特异性突变的序列,为每个隐性谱系生成部分共有序列。令人惊讶的是,在神秘谱系中收敛出现的 7 个突变是在 SARS-CoV-2 相关的肠道蝙蝠 Sarbecoviruses 中高度保守的序列的回归。蝙蝠 Sarbecovirus 序列的明显回归与 SARS-CoV-2 适应在 COVID-19 大流行之前在呼吸道组织中有效复制的观点一致。


作者总结

在 SARS-CoV-2 大流行期间,废水监测已被用于监测病毒活动和病毒谱系的传播。有时,废水中的 SARS-CoV-2 序列会揭示来自未知来源的独特进化高级 SARS-CoV-2 谱系,这些谱系被称为隐匿谱系。全国许多团体还使用废水监测来追踪病毒并将该信息上传到 NCBI 的 SRA 数据库。筛选该序列数据以识别全球 18 个隐秘谱系,并识别整个隐秘谱系基因组中的趋同突变,这些突变表明恢复到 SARS-CoV-2 相关 Sarbecoviruses 中常见的残基。


数字

Fig 6Table 1Fig 1Fig 2Fig 3Fig 4Fig 5Fig 6Table 1Fig 1Fig 2

   

引文: Suarez R、Gregory DA、Baker DA、Rushford CA、Hunter TL、Minor NR 等人 (2025) 使用公开可用的全基因组废水测序数据检测 SARS-CoV-2 隐秘谱系。PLoS 病原体 21(6): e1012850 号。 https://doi.org/10.1371/journal.ppat.1012850


编辑 器: Daniel Blanco-Melo,美国 Fred Hutchinson 癌症中心


收到: 2024 年 12 月 22 日;接受: 2025 年 5 月 25 日;发表: 6月 9, 2025


版权所有: © 2025 Suarez et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。


数据可用性: 所有相关数据都在手稿及其支持信息文件中。


资金: 该项目部分由美国国立卫生研究院 (NIH) 合同 75N93021C00045 资助,用于约翰霍普金斯大学流感研究卓越中心与 MCJ。该项目由 Heart of Racing 的礼物和 Inkfish(MCJ 和 DHO)的赠款资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。


利益争夺: 作者已声明不存在相互竞争的利益。


介绍

废水监测已被广泛用于识别化学物质和微生物[1–3]。在 SARS-CoV-2 大流行期间,这项技术因其有效追踪各种令人担忧的变体而受到关注 [4]。我们小组于 2021 年初开始追踪废水中的 SARS-CoV-2 谱系,并于 2021 年 3 月发现了第一个进化先进的 SARS-CoV-2 受体结合域 (RBD) 单倍型实例,该单倍型在单个下水道中重复出现,我们后来将其称为“隐秘谱系”[5]。目前,世界各地都有隐秘谱系的例子[5–11]。免疫功能低下患者持续性 SARS-CoV-2 感染的基因组与隐蔽谱系之间的相似性表明,这些基因可能存在于免疫功能低下的个体中 [8,12,13]。此外,源自 2021 年初停止流通的谱系的单个隐秘谱系在 2022 年底被追溯到一栋商业建筑,废水的 12S 核糖体 RNA 测序表明,唯一导致废水的有意义的物种是人类 [13]。因此,人们认为隐秘谱系来源于长期感染 SARS-CoV-2 的个体。


隐晦谱系通常预示最终通过循环谱系获得的突变。例如,在 Omicron 之前,在任何主要流通谱系中都没有发现刺突替代 N440K、S477N、E484A 和 Y505H。然而,早在 Omicron 出现之前,这些突变就已经在隐秘的谱系中反复出现 [5,6]。隐蔽的谱系突变也预示着后来的 Omicron 谱系获得的许多变化 [13]。在隐性谱系中发现的突变与最终在循环谱系中发现的突变之间的趋同表明,隐性谱系和主要循环谱系具有一定的选择性压力。然而,在隐秘谱系中反复出现的许多突变尚未在任何主要的循环谱系中变得突出 [13]。目前尚不清楚主要循环谱系最终是否会获得这些突变,或者这些突变是否解释了不同于循环谱系的选择压力。


在世界各地,许多组织使用全基因组测序 (WGS) 来检测和识别废水样本中的 SARS-CoV-2 变体。这些数据中的大部分被上传到美国国家生物技术信息中心 (NCBI) 的测序读取档案 (SRA) 或其国际等效数据库之一,即国际核苷酸序列数据库合集 (INSDC)。在本报告中,我们筛选了来自 45 个国家/地区 2000 多个地点的 135,672 个样本,并展示了筛选 SRA 数据库以检测 SARS-CoV-2 隐匿谱系并分析其突变的可行性。


结果

使用保守阈值,我们的实验室通过扩增废水样本中 SARS-CoV-2 RNA 的 RBD 序列,鉴定了 20 多个隐秘谱系 [5,6,13]。根据先前发现的隐秘谱系,我们编制了一份在隐秘谱系中观察到的突变列表,这些突变在循环谱系中并不常见(S1 图)。加标 RBD 中的 69 个氨基酸替换列表被称为“神秘谱系定义氨基酸替换”。


使用搜索词“SARS-CoV-2 废水”,我们从 2024 年 2 月 18 日获得的 SRA 废水 SARS-CoV-2 序列读数(S2 数据)中下载了样本采集日期在 2023 年 10 月 31 日或之前,将这些读数映射到 SARS-CoV-2 基因组 (NC_045512),并使用 SAM Refiner 程序对其进行处理 [14].我们在 SRA 数据集中鉴定了包含至少两个神秘谱系定义氨基酸替换的单个测序读长 (S1 Data)。这些使用自动脚本进行分析,然后进行手动验证,以识别与患者样本中的任何已知序列不匹配且出现在来自同一下水道的至少两个样本中的单倍型。使用已识别序列的子集,我们发现测序读数与 18 个独立的隐匿谱系一致。在已确定的 18 个谱系中,我们之前报道的 3 个谱系和 3 个谱系已被其他群体报道 [5–7,9,11,13]。检测持续时间在隐晦谱系之间差异很大;检测到隐蔽谱系的最短时间是一个月(CA-1 和 NY-2),而检测到两个隐蔽谱系的时间超过一年(UK-1 和 WI-1)(表 1)。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

表 1. 已识别的神秘谱系列表及其位置、样本量和检测日期。

https://doi.org/10.1371/journal.ppat.1012850.t001


覆盖率表示通过与隐蔽特异性突变的联系可以明确分配给隐蔽谱系的基因组部分。系统发育软件程序 Nextclade [15] 和 Usher [16] 用于确定神秘谱系起源于哪个变体。标明了检测到隐蔽谱系的时间段和隐蔽谱系亲本谱系循环的时间段。


在根据 RBD 序列鉴定出隐蔽谱系后,我们回顾性地确定了来自同一下水道的其他数据集,这些数据集在 RBD 之外具有隐蔽的定义特征,以部分重建谱系基因组。我们将包含神秘谱系的下水道废水样本中存在的单个 SARS-CoV-2 序列与同一时间段内收集的邻近(同一州)下水道样本中的序列进行了比较,并在可能的情况下由同一机构进行测序(S2 和 S3 数据)。在隐蔽下水道的至少三个样本中出现的个体突变,并且在含有隐蔽的下水道中的普遍性至少比在邻近的下水道中流行 50 倍,被认为是推定的隐蔽特异性突变(图 1a)。此外,任何经常出现在与隐蔽特异性突变相同的序列中的突变都被推定存在于隐蔽谱系中(图 1b;具体标准见方法)。对所有 18 个隐性谱系重复此过程,以近似每个谱系中存在的多态性 (S4 和 S5 数据)。使用其隐蔽特异性突变和出现在与隐性特异性突变相同的读取上的序列,为每个隐性谱系生成一个共有序列(图 1b,S6 数据)。在大多数情况下,为每个隐悍谱系生成完整的共有序列是不可能的,因为排除了没有任何隐晦定义突变的区域。因此,隐匿谱系之间的序列覆盖率不同,最高覆盖率为 73.97% (MI-1),最低为 11.43% (CO-1)。共有序列用作系统发育软件程序 UShER [16] 和 Nextclade [15] 的输入,以确定其预测的亲本 SARS-CoV-2 谱系(表 1)。预计所有隐蔽谱系都来自在废水中检测到前数月至数年停止循环的谱系(表 1)。隐秘谱系的系统发育树说明了这些谱系的极端多样性(图 2)。使用来自具有共同祖先的不同谱系混合物的共有序列可能会影响系统发育树中的分支长度,并且可能无法完全捕捉每个神秘谱系中的真实多样性。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 1. 工作流程示意图。


将来自包含神秘谱系的下水道棚设施的样本(黄色)与来自不包含神秘谱系的邻近下水道棚的样本(橙色)进行了比较。A) 以 CH-1 隐匿谱系为例,在至少两个隐蔽样本中发现的突变,隐匿样本中的患病率高出 50 倍,暂时被认为是隐匿特异性的(绿色)。B) 将包含隐秘特异性突变(红框)的序列读数映射到 SARS-CoV-2 基因组上,在整个基因组中具有不同的覆盖度,以创建共有序列(中间基因组)。要映射到基因组上,隐秘的特异性序列必须出现在两个或多个样本中。


https://doi.org/10.1371/journal.ppat.1012850.g001


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 2. NextClade 生成的系统发育树说明了神秘谱系的多样性。


将共有序列上传到 Nextclade 并与 Wuhan-胡-1/2019 (MN908947) 进行比较。系统发育树突出了检测到的隐匿谱系之间的多样性。


https://doi.org/10.1371/journal.ppat.1012850.g002


有趣的是,我们在共有序列中观察到相同的突变出现在多个独立的隐性谱系中。这种收敛变化不太可能是测序伪影,可能反映了对常见选择压力的适应。出现在三个或更多神秘谱系中的突变被映射到 SARS-CoV-2 基因组图上,同时排除在亲本谱系的共有序列中发现的突变(图 3a、3b;S7 数据)。我们在至少 3 个隐秘谱系中观察到 85 个核苷酸变化。刺突最常见的变化是 K417T (78%) 和 Q493K (56%),它们已被证明会影响抗体逃逸 [17,18],并且可能对 ACE2 结合也有很小的影响,根据遗传背景,结合效果从略微增加到略度降低不等 [19]。尽管 K417T 存在于令人担忧的 Gamma 变体和一些 Omicron 亚谱系(如 BA.2.18)中,但它存在于人类发现的流通谱系中不到 1%。相比之下,Q493K 极为罕见,在任何命名的 PANGO 谱系中都没有成为谱系定义变化。刺突外最常见的隐匿特异性突变是在 ORF1a (K1795Q) 和 ORF3a (H182D) 中,分别在 50% 的已鉴定隐匿谱系中观察到。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 3. 在 ≥ 3 个谱系中发现的收敛隐匿变化。


A) 出现在至少三个隐蔽谱系中的收敛突变根据它们在所有隐蔽谱系中的位置和流行率被映射到刺突蛋白上。B) 针对 SARS-CoV-2 基因组定位的收敛非刺突突变。在同一位置包含多个变化的位置表示为堆叠条形和颜色编码。


https://doi.org/10.1371/journal.ppat.1012850.g003


在至少三个隐性谱系中收敛发生的 85 个核苷酸变化中,79 个通过非同义变化或缺失改变了蛋白质序列。在没有改变蛋白质序列的 4 个变化中,2 个是沉默的 (C25162A/Spike: L1200L, 22.22%),3 个在非编码区 (T78A (16.67%)、A178G (16.67%) 和 T29758G (33.33%))。有趣的是,我们观察到尖峰变化C25162A (L1200L) 总是与相邻的 C25163A (Q1201K) 变化相关联。这两个突变共同产生了序列 TCTAAAAGAACT,它与共有的 SARS-CoV-2 转录调节序列 (TRS) TCTAAACGAACT 几乎完美匹配 [20]。虽然C25162A和C25163A在患者序列中相对罕见[21],但这两种变化通常同时发生(>60%的时间)。虽然这个额外的 TRS 的功能尚不清楚,但它可能是无声 C25162A 变化收敛的可能解释。


隐匿谱系中一个特别显着的收敛非编码变化是 SARS-CoV-2 基因组的 3' UTR,T29758G。这种突变位于茎环二基序 (s2m) 的高度保守区域,这在许多冠状病毒和其他 RNA 病毒中都有发现 [22–24]。值得注意的是,SARS-CoV-2 中的 s2m 偏离了其他 RNA 病毒(包括 Sarbecovirus)中发现的共有 s2m,T29758G突变使 SARS-CoV-2 恢复到共有 s2m 序列 [24,25]。s2m 茎环对于复制不是必需的,因为该序列在 Omicron 谱系 BA.2 及其所有衍生物中都被删除了;因此,它在流通谱系中几乎不存在两年多[26]。然而,在隐蔽谱系的情况下,该序列经常将 SARS-CoV-2 s2m 恢复为 Sarbecovirus 共有序列。


隐秘谱系中几种最常见的收敛变化,例如 ORF1a:K1795Q 和 T29758G,是转换为在密切相关的蝙蝠 Sarbecovirus(如 RaTG-13)中发现的序列。尽管 SARS-CoV-2 是一种人类呼吸道病原体,但最密切相关的 Sarbecovirus 主要感染马蹄蝠,并且主要被认为是肠道病原体。为了探索隐秘谱系中的其他收敛变化是否代表 Sarbecovirus 共有序列的回归,将 7 种密切相关的 Sarbecovirus(RpYN06、RaTG-13、BANAL-52、BANAL-103、BANAL-116、BANAL-236 和 BANAL-247)的序列与 SARS-CoV-2 进行了比较,以确定在所有 7 种 sarbecoviruses 中保守,但在原始 SARS-CoV-2 A 和 B 谱系中不同的氨基酸位置。


共鉴定出 26 个氨基酸替换,其中 SARS-CoV-2 序列与所有 7 种蝙蝠 sarbecovirus 不同。在这 26 个位置中,隐蔽谱系中的 12 个替换在至少一个隐谱系中恢复到 Sarbecovirus 共有序列,其中 7 个逆转发生在至少 3 个隐谱系中(图 4)。截至 2023 年 10 月 31 日,在这 26 个位置中,只有一个替代恢复到 Sarbecovirus 序列 (ORF1a: A3143V),该序列出现在所有住院 SARS-CoV-2 序列的约 1% 中。然而,患者序列中的低患病率并不一定意味着突变不能提供适应度优势。Bloom 和 Neher 的一项研究检查了 SARS-CoV-2 独立获得特定突变的频率与预期随机获得的频率 [27]。由此,他们为单个 SARS-CoV-2 突变分配了一个健康分数。在至少三个神秘谱系获得的 7 个 Sarbecovirus 逆转中,只有 2 个被预测为有利的。有趣的是,预测最有害的变化是 Spike: A372T。之前已经注意到了这个位置,因为除 SARS-CoV-2 之外的所有 Sarbecovirus 都在 370 位点包含一个预测的糖基化位点,而 A372T 会恢复该位点。除了包含 A372T 的五个神秘谱系外,另外两个神秘谱系也通过改变 S371N 和 A372DEL 来恢复这个糖基化位点。实验证明,通过 A372T 突变恢复 SARS-CoV-2 的糖基化可以减少病毒在人肺细胞中的复制 [28]。此外,已经证明,消除蝙蝠 Sarbecoviruses 中 370 位点的糖基化位点会使病毒对 pH 值为 5.5 的胰蛋白酶消化高度敏感 [29]。因此,在隐蔽谱系中频繁回归到共有蝙蝠 sarbecovirus 序列与隐蔽谱系受到与其肠道祖先类似的选择压力是一致的。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 4. 偏离共识 Sarbecovirus 氨基酸序列的 SARS-CoV-2 氨基酸图表。

https://doi.org/10.1371/journal.ppat.1012850.g004


在 SARS-CoV-2(黄色)中不同的 7 种蝙蝠 Sarbecovirus(橙色)中发现的共有氨基酸。观察到变化但与 Sarbecoviruses 和 SARS-CoV-2 不同的氨基酸位置以蓝色突出显示。显示了 CoV-Spectrum [21] 报告的患者序列频率,到 2023 年 10 月或 2024 年 11 月恢复到 Sarbecovirus 共识。图中显示了由 Bloom 和 Neher 计算器 [26] 计算的相同时间段内每个突变的独立发生率,包括其适应度分数和效应。未出现在 Bloom 和 Neher 计算器中的突变被指定为未确定 (ND)。


发现其中 5 个隐秘谱系有小插入(图 5)。其中 3 次插入发生在结构蛋白的胞外域,特别是在刺突和 M 基因中,如前所述,一个隐匿谱系,另外 2 次插入发生在非结构基因 ORF3a 和 ORF7a 中 [13]。对插入的核苷酸序列的仔细观察发现,5 个插入中有 4 个是来自 SARS-CoV-2 基因组其他部分的重复序列。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 5. 插入序列主要来源于重复。

https://doi.org/10.1371/journal.ppat.1012850.g005


将插入位点映射到 SARS-CoV-2 基因组上,以直观地表示重复序列(红色)发生的位置以及相对于隐蔽谱系检测到插入的位置。


在 SRA 数据集中检测到一个神秘的谱系,来自相距约 40 英里的两个不同下水道。从两个下水道中独立获取样本,并测试是否存在神秘谱系。来自两个下水道的样本都包含一个隐蔽的谱系,该谱系与 SRA 序列中观察到的序列非常匹配(S2 和 S3 图)。与我们在威斯康星州 (WI-1) [13] 中发现的神秘谱系的发现类似,俄亥俄州神秘谱系的序列在 9 个月内并非一成不变(图 6)。俄亥俄州的两个下水道流域在 SRA 中检测到的整个日期中具有高度相似的隐蔽特异性突变图谱。值得注意的是,在同一天从两个下水道流域首次检测到刺突蛋白突变,特别是 N460K、F486P、Q493T 和 P499T,强烈表明该谱系是从单一来源沉积到废水中的。 可能是在两个地点之间通勤的人。俄亥俄州的神秘谱系一直持续到 2023 年 6 月才消失。从独立获得的样本中成功检测到俄亥俄州隐秘谱系,这是对该方法从公共存储库中检测隐秘谱系的能力的宝贵验证。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 6. 俄亥俄州随时间推移的隐秘特异性 RBD 突变。

https://doi.org/10.1371/journal.ppat.1012850.g006


这两个位置在 RBD 中具有高度相似的突变谱,不同的突变大约同时出现在两个位置(N460K、F486P 和 P499T)。划掉的单元格表示覆盖率低或没有覆盖率的区域。


讨论

筛选 NCBI 的 SRA 数据库中的神秘谱系低估了这些谱系的患病率。我们的筛选依赖于对隐晦谱系常见的特定变化的检测,但可能还有其他隐晦谱系不具有这些保守的隐晦谱系特征。此外,只有全球废水序列的一个子集提交给 SRA,并且隐蔽谱系需要足够丰富,以便在与下水道中的所有其他材料稀释后可以检测到它们的序列。最后,我们的基因组重建方法假设任何下水道中都不存在多个神秘谱系,如果实际上存在多个神秘谱系,则重建将不准确。尽管存在这些限制,但此处描述的隐匿谱系检测方法可有效检测全球隐蔽谱系,并突出 RBD 之外的隐匿特异性多态性。更重要的是,这种方法说明了许多隐晦谱系中的隐晦特异性收敛多态性。


SARS-CoV-2 基因组的不同部分有 5 个插入位点,但这些插入的影响尚不清楚。发生在 SARS-CoV-2 基因组结构区域(刺突和 M 基因)的插入位于蛋白质的胞外域部分。研究表明,SARS-CoV anti-M 与 anti-Spike 一起增强了病毒的中和能力 [30–32]。因此,这些插入可能有助于免疫逃逸,而逃逸的重要性需要测试。插入在 ORF3a 和 ORF7a 中的作用尚不清楚;然而,很明显,SARS-CoV-2 很容易利用插入策略作为适应不同选择压力的一种形式。此外,应该强调的是,这些插入并非隐匿谱系所独有,以前已在患者样本中观察到[33]。


K1795Q 取代位于 nsp3 的木瓜蛋白酶样蛋白酶结构域中,该取代已被证明可以增强蛋白酶切割多泛素链的能力 [34]。对于将隐蔽谱系中的序列恢复到密切相关的 Sarbecoviruses 中的序列,最简洁的解释是,隐蔽谱系可能受到与肠道蝙蝠 Sarbecoviruses 相同的选择压力,这些压力不是施加在主要呼吸的 SARS-CoV-2 循环谱系上的。观察到肠道病毒在废水中的水平始终比呼吸道病毒高 >100 倍,这表明消化道充当选择性过滤器,减弱了来自呼吸道病毒的大部分信号。这与观察到的结论一致,即在废水中检测到并被认为源自单个个体的隐蔽 SARS-CoV-2 谱系以非常高的水平脱落 [13]。此外,观察到隐蔽谱系恢复到其肠道祖先中发现的序列,再加上它们极高的脱落率,可能与隐蔽的 SARS-CoV-2 谱系主要在胃肠道 (GI) 中复制的观点一致。


观察到 SARS-CoV-2 包含至少 7 个不同的取代,这些取代取代趋同地改变了肠道 Sarbecovirus 中发现的序列,这表明可能存在选择压力,以维持这些位置的 Sarbecovirus 共有序列。观察到的反转可能归因于这些位置的共有氨基酸所赋予的固有适应度优势,这是合理的。这种现象在逆转录病毒,特别是HIV-1的进化研究中得到了很好的证明,其中共有序列通常代表适应性景观中的最佳适应度峰值[35]。然而,观察到许多变化对病毒传播有明显的负面影响,这表明适应性优势可能取决于条件。当 SARS-CoV-2 开始在人类中传播时,每个位置都发生了变化,这一事实表明 SARS-CoV-2 在非肠道环境中复制了足够长的时间,使这些替换能够持续存在并固定在引发 COVID-19 大流行的病毒基因组中。


方法

NCBI SRA 筛查

所有 SARS-CoV-2 测序读数均通过 NCBI 的 SRA 获得,并使用搜索词“SARS-CoV-2 废水”找到,然后过滤以排除 2023 年 10 月之后收集的任何样本。使用 Minimap2 [36] 下载原始读数并将其映射到 SARS-CoV-2 基因组 (NC_045512),生成的 sam 文件由 SAM Refiner 处理,参数为“—wgs 1—collect 0—indel 0—covar 0—min_count 1—min_samp_abund 0—min_col_abund 0—ntabund 0—ntcover 1”。SAM Refiner 的独特序列输出以编程方式筛选了仅在隐蔽谱系中发现的特定氨基酸变化的组合,并手动检查阳性命中以排除假阳性,例如罕见的患者谱系或错误率明显较高的序列。本研究中使用的所有脚本都可以通过 Github 公开获得:https://github.com/dholab/SRA_wastewater_lineages。


隐匿特异性多态性

为了评估来自包含隐秘谱系的序列读取运行 (SRR) 的多态性,我们将来自包含隐秘谱系的下水道棚的序列与来自邻近(来自同一州的下水道棚)的不包含隐蔽谱系的下水道棚的序列进行了比较。将两个非隐蔽的 SRR (阴性样本) 与具有隐蔽序列的 SRR 进行比较。我们选择了由同一测序机构处理的阴性和阳性样本,以排除检测偏倚。然后使用 SAM Refiner 处理选定的 SRR,并通过自定义脚本处理 unique_seq 和 covar 输出,以确定与每个隐性谱系相关的突变。每个隐蔽特异性突变的参数如下:1) 突变必须存在于观察到隐蔽谱系的下水道棚的两个或多个样本的 SRA 读数中;2) 在隐蔽的下水道棚中,突变的平均总丰度必须比在非隐蔽的下水道棚中大 50 倍;3) 来自这些下水道棚样本的隐匿特异性突变的最丰度多态性的最大总丰度的 >10%。为了解释在循环和隐性谱系中普遍存在的突变,任何在至少 75% 的时间里出现在同一序列中的隐性特异性多态性被认为是隐性谱系的一部分,并报告为“链接”。


该脚本为每个隐晦谱系生成三个文件:“CommonVars”文件,其中列出了在比较的所有样本(S3 数据)中发现的所有多态性,一个包含所有隐性特异性突变的“Cryptic_CommonVars”文件,同时标记了 Delta、RaTG13、普遍存在和链接的突变(S4 数据),以及一个“Cryptic_Covar”文件,其中列出了链接到隐性特异性多态性的所有多态性(S5 数据).然后使用脚本将隐匿特异性多态性聚合到一个新文件中,该脚本根据它们在所有隐性谱系中的突出程度对它们进行排序,同时排除在父谱系(S7 数据)中发现的突变。然后将所有隐蔽谱系中普遍存在 ≥3 的隐秘特异性多态性根据它们各自的位点映射到 SARS-CoV-2 基因组图上。


俄亥俄州隐秘谱系废水样品处理和 RNA 提取

每周从俄亥俄州两个未公开的废水处理设施的流入处收集 24 小时的废水复合样本。样品装在 50 mL 锥形管中,并储存在 4°C 下直至处理。将样品以 3000xg 离心 10 分钟,并通过 0.22 μM 聚醚砜膜(Millipore,Burlington,MA,USA)过滤。将大约 37.5 mL 废水与含有 50% (w/vol) 聚乙二醇 8000 和 1.2M NaCl 的 12.5 mL 溶液混合,混合并在 4°C 下孵育。 然后将样品在 4°C 下以 12,000 RCF 离心 2 小时。 倾析上清液,并按照制造商的说明使用 QIAamp 病毒 RNA 小提试剂盒 (Qiagen, Germantown, MD, USA) 从剩余的沉淀中提取 RNA。提取 RNA 的最终体积为 60 μL。


放大俄亥俄州的神秘谱系

使用 Superscript IV 一步法 RT-PCR 系统 (ThermoFisher Scientific,12594100, Waltham, MA, USA) 进行初级 RBD RT-PCR。原代RT-PCR扩增如下:[25°C (2:00) + 50°C (20:00) + 95°C (2:00)] + ([95°C (0:15) + 55°C (0:30) + 72°C (1:00)] ×25个)循环使用MiSeq初级PCR引物5'-CAAACTTCTAACTTTAGAGTCCAACC-3'和5'-AAGTCCACAAACAGTTGCT-3',并使用引物对5'-CCCTGATAAAGAACAGCAACC-3'和5'-TATATAATTCCGCATCATCATTTTCCAC-3'进行额外的反应以排除奥密克戎谱系。以 5 μL 初代 PCR 为模板,以含有 5′ 接头序列(每个 0.5 μM)的 MiSeq 巢式基因特异性引物,对 RBD 扩增进行二级巢式 PCR(25 μL)。用于扩增所有谱系扩增子的MiSeq巢式RBD引物组是5'-gtgactggagttcagacgtgtgctcttccgatctACTACTACTCTATGGTTGGTAAC-3'和5'-acactctttccctacacgactctcttccgatctCCTAATATTACAAACTTGTGCCCCCTT-3',而用于扩增排除的Omicron扩增子的MiSeq巢式RBD引物组是5'-acactctttccctacacgacgctcttccgatctGTGATGAAGTCAGACAAATCGC-3'和5'-gtgactggagttcagacgtgtgctcttccgatctATGTCAAGAATCTCAAGTGTCTG-3',并添加了dNTP(每个100μM)(New England Biolabs,N0447L)和Q5 DNA 聚合酶(New England Biolabs,M0541S,伊普斯维奇,马萨诸塞州,美国)。二次 PCR 扩增如下:95°C (2:00) + [95°C (0:15) + 55°C (0:30) + 72°C (1:00)] × 20 个循环。进行三级PCR(50μL),添加使用正向和反向引物(各0.2μM)、dNTP(各200μM)(New England Biolabs,N0447L,Ipswich,MA,USA)和Phusion高保真或(KAPA HiFi用于CA样品)DNA聚合酶(1U)(New England Biolabs,M0530L,Ipswich,MA,USA)生成Illumina簇所需的接头序列。PCR 扩增如下:98°C (3:00) + [98°C (0:15) + 50°C (0:30) + 72°C (0:30)] × 7 个循环 +72°C (7:00)。将来自每个 PCR 反应的扩增产物 (10 μl) 合并并充分混合以形成单个池。通过添加 Axygen AxyPrep MagPCR 纯化珠(Corning,MAG-PCR-CL-50,Corning,NY,USA)或以 1.0 的比例纯化混合的扩增子,以纯化最终扩增子。使用安捷伦片段分析仪自动电泳系统(安捷伦,美国加利福尼亚州圣克拉拉)评估最终的扩增子文库,使用 Qubit HS dsDNA 分析(ThermoFisher Scientific,美国马萨诸塞州沃尔瑟姆)进行定量,并根据 Illumina 的标准方案进行稀释。Illumina MiSeq 仪器生成了双端 300 个碱基对读长(Illumina,San Diego,CA,USA)。使用 Cutadapt 从输出序列中修剪适配器序列。


如前所述处理测序读数 [14]。VSEARCH 工具合并了成对的 reads 和去重复序列 [37]。使用 Minimap2 将 RBD 扩增子的去复制序列映射到 SARS-CoV-2 (NC_045512.2) 的参考序列 [35]。然后用SAM Refiner处理定位的扩增子序列,使用相同的刺突序列作为参考和命令行参数“--Alpha 1.8 --foldab 0.6”[14]。代表俄亥俄州谱系的单倍型使用 plotnine (https://plotnine.org) 渲染成图形。


系统发育分析

系统发育树是利用软件程序 Nextclade [15] 和 UShER [16] 使用其默认参数开发的。每个隐晦谱系都有一个共识 fasta 文件,使用包含隐晦特异性突变的序列读数 (S5 Dataset) 生成。非隐性特异性突变,至少在 75% 的时间出现在与隐性特异性突变相同的序列中,被假定为隐性谱系的一部分,因此包含在共有序列中。与神秘定义突变没有联系的位置通过指定 'N' 来掩盖。这可确保仅在序列明确存在的部分上构建树。为了准确生成共有序列,仅使用最后 35 个阳性隐匿谱系样本来创建共有序列。在 Nextclade 中,共有序列被上传到程序中,并将每个共有序列与 SARS-CoV-2 序列 (Wuhan-胡-1/2019 (MN908947)) 进行比较。使用 UShER,将共有序列复制到指定字段上,并使用系统发育树版本“来自 GISAID、GenBank、COG-UK 和 CNCB 的 16,472,770 个基因组”进行比较。


支持信息

在主要流通谱系中未发现但在隐蔽谱系中经常发现的 Spike RBD 突变的汇编列表。


显示 1/10: ppat.1012850.s001.docx


跳至 fig分享导航

很抱歉,我们无法加载您的数据。

1 / 10



下载

无花果分享

S1 图 在主要流通谱系中未发现但在隐蔽谱系中经常发现的 Spike RBD 突变的汇编列表。

对于读取的 SRA 序列算作 cryptic,它必须至少包含列出的两个突变。


https://doi.org/10.1371/journal.ppat.1012850.s001


(DOCX)


S2 图 来自俄亥俄州第二个地点的 SARS-CoV-2 单倍型。

对从俄亥俄州第二个地点采集的样本进行以 RBD 为重点的扩增。使用 Omicron 排阻引物组的扩增称为 ALT。


https://doi.org/10.1371/journal.ppat.1012850.s002


(DOCX)


S3 图 来自俄亥俄州第一个地点的 SARS-CoV-2 单倍型。

对从俄亥俄州第一个地点采集的样本进行以 RBD 为重点的扩增。使用 Omicron 排阻引物组的扩增称为 ALT。


https://doi.org/10.1371/journal.ppat.1012850.s003


(DOCX)


S1 数据。 筛选包含来自 S1_Figure 的至少两个多态性组合的序列读长。

此数据列出了读取的序列、其计数和丰度、与序列关联的 SRR ID 以及采样位置。


https://doi.org/10.1371/journal.ppat.1012850.s004


(XLSX)


S2 数据。 本研究中筛选的所有样本 (SRR) 的列表,以及它们的位置和采样日期。

https://doi.org/10.1371/journal.ppat.1012850.s005


(XLSX)


S3 数据。 该数据文件称为“CommonVars”,包含在隐蔽的阳性 SRR(黄色)和隐蔽的阴性 SRR(橙色)中发现的所有多态性的列表。

此数据突出显示了每个样本中每个多态性的数量和丰度,以及它在正、负和所有样本中的和。为了符合提交指南,许多低丰度多态性被排除在分析之外。可根据通讯作者的要求提供综合报告。


https://doi.org/10.1371/journal.ppat.1012850.s006


(XLSX)


S4 数据。 该数据文件称为“Cryptic_CommonVars”,包含在 CommonVars 数据文件中发现的所有特定于隐晦的多态性。

此外,该数据还突出显示了每个隐性特异性多态性的数量和丰度,此外还标记了出现在与隐性特异性多态性(链接)相同的序列中的多态性,以及在阳性和阴性样本中大量发现的多态性(普遍存在)。此外,该文件还标记了与 Delta SARS-CoV-2 谱系和蝙蝠冠状病毒 RATG13 相关的多态性。黄色突出显示的 SRR 表示阳性样品,而橙色突出显示的 SRR 表示阴性样品。


https://doi.org/10.1371/journal.ppat.1012850.s007


(XLSX)


S5 数据。 称为 “Cryptic_Covar”,此数据文件包含所有链接的多态性。

该数据文件突出显示了连锁多态性的数量和丰度以及发现它们的 SRR。


https://doi.org/10.1371/journal.ppat.1012850.s008


(XLSX)


S6 数据。 列出所有已识别的 SARS-CoV-2 隐匿谱系的所有 fasta 组装体。

显示低覆盖率或无覆盖率的区域或位置被指定为“N”。


https://doi.org/10.1371/journal.ppat.1012850.s009


(DOCX)


S7 数据。 该数据文件包含所有隐性谱系中所有隐性特异性多态性的汇编。

https://doi.org/10.1371/journal.ppat.1012850.s010


(XLSX)


引用

1.Bade R, Nadarajan D, Driver EM, Halden RU, Gerber C, Krotulski A. 基于废水的硝氮烯类似物监测:首次检测到废水中的质子氮肼。Sci Total Environ.2024;920:170781.

查看文章谷歌学术

2.Barber C, Crank K, Papp K, Innes GK, Schmitz BW, Chavez J. 在内华达州南部持续爆发期间对耳念珠菌的社区规模废水监测。环境科技 2023;57(4):1755–63.

查看文章谷歌学术

3.Corrin T, Rabeenthira P, Young KM, Mathiyalagan G, Baumeister A, Pussegoda K.对在未经处理的人类废水和污泥中检测到的人类病原体的范围审查。J 水健康。2024.

查看文章谷歌学术

4.Wurtzer S、Waldman P、Levert M、Cluzel N、Almayrac JL、Charpentier C. 在区域和城市规模的废水中对 SARS-CoV-2 基因组进行定量,可以精确监测整个疫情、动态和变体在人群中传播。Sci Total Environ.2022;810:152213.

查看文章谷歌学术

5.Smyth DS、Trujillo M、Gregory DA、Cheung K、Gao A、Graham M 等人。追踪在 NYC 废水中检测到的神秘 SARS-CoV-2 谱系。Nat Commun.2022;13(1):635.PMID:35115523

查看文章PubMed/NCBI谷歌学术

6.Gregory DA、Trujillo M、Rushford C、Flury A、Kannoly S、San KM 等人。通过废水测序检测到的隐蔽 SARS-CoV-2 谱系的遗传多样性和进化趋同。PLoS 病原体。2022;18(10):e1010636。PMID:36240259

查看文章PubMed/NCBI谷歌学术

7.Westcott CE、Sokoloski KJ、Rouchka EC、Chariker JH、Holm RH、Yeager RA 等人。在以 omicron 为主的社区中检测 SARS-CoV-2 delta 毒株的周期性再出现事件。病 原 体。2022;11(11):1249.产品编号:36365000

查看文章PubMed/NCBI谷歌学术

8.Shafer MM、Bobholz MJ、Vuyk WC、Gregory D、Roguet A、Soto LAH 等人。在废水中检测到的 SARS-CoV-2 Omicron 样刺突序列确定人类来源:对城市下水道中神秘谱系的靶向监测研究。medRxiv.2023. https://www.medrxiv.org/content/10.1101/2022.10.28.22281553v5

查看文章谷歌学术

9.Haver A、Theijn R、Grift ID、Raaijmakers G、Poorter E、Laros JFJ 等人。在废水测序检测到的 omicron 浪潮中区域性重新出现 SARS-CoV-2 delta 谱系。科学代表 2023;13(1):17870.PMID:37857658

查看文章PubMed/NCBI谷歌学术

10.Domańska-Blicharz K, Oude Munnink BB, Orłowska A, Smreczak M, Opolska J, Lisowska A, et al.2022 年 11 月至 2023 年 1 月,波兰两个水貂养殖场发现了神秘的 SARS-CoV-2 谱系,这可能是由于在未知动物宿主中长期未被发现的循环的结果。欧元监控。2023;28(16):2300188.PMID:37078885

查看文章PubMed/NCBI谷歌学术

11.Conway MJ、Yang H、Revord LA、Novay MP、Lee RJ、Ward AS 等人。SARS-CoV-2 Alpha 变体在废水中的慢性脱落。BMC 基因组学。2024;25(1):59.PMID:38218804

查看文章PubMed/NCBI谷歌学术

12.Wilkinson SAJ、Richter A、Casey A、Osman H、Mirza JD、Stockton J 等人。免疫缺陷患者的复发性 SARS-CoV-2 突变。病毒卷。2022;8(2):VEAC050。PMID:35996593

查看文章PubMed/NCBI谷歌学术

13.Shafer MM、Bobholz MJ、Vuyk WC、Gregory DA、Roguet A、Haddock Soto LA。追踪在城市下水道中检测到的 SARS-CoV-2 类似 omicron 的刺突序列的来源:对神秘废水谱系的有针对性的纵向监测研究。柳叶刀微生物。2024.

查看文章谷歌学术

14.Gregory DA、Wieberg CG、Wenzel J、Lin CH、Johnson MC. 通过扩增子测序和使用新程序 SAM refiner 监测废水中的 SARS-CoV-2 种群。病毒。2021;13(8):1647.PMID:34452511

查看文章PubMed/NCBI谷歌学术

15.Aksamentov I, Roemer C, Hodcroft E, Neher R. Nextclade:病毒基因组的进化枝分配、突变调用和质量控制。乔斯。2021;6(67):3773.

查看文章谷歌学术

16.Turakhia Y, Thornlow B, Hinrichs AS, De Maio N, Gozashti L, Lanfear R, et al. 在现有 tRees 上进行超快速样本放置 (UShER) 可实现 SARS-CoV-2 大流行的实时系统发育。Nat Genet.2021;53(6):809–16.PMID:33972780

查看文章PubMed/NCBI谷歌学术

17.Greaney AJ、Starr TN、Gilchuk P、Zost SJ、Binshtein E、Loes AN 等人。将突变完全定位到逃避抗体识别的 SARS-CoV-2 刺突受体结合结构域。细胞宿主微生物。2021;29(1):44-57.e9。

查看文章谷歌学术

18.斯塔尔 TN、格雷尼 AJ、阿德蒂亚 A、汉农 WW、乔杜里 MC、丁根斯 AS。逃避用于治疗 COVID-19 的抗体的病毒突变的前瞻性图谱。科学。2021;371(6531):850–4.

查看文章谷歌学术

19.Starr TN, Greaney AJ, Hannon WW, Loes AN, Hauser K, Dillen JR. 病毒进化过程中 SARS-CoV-2 受体结合域中突变约束的变化。科学。2022;377(6604):420–4.

查看文章谷歌学术

20.李 X, 程 Z, 王 F, 张 J, 赵 Q, 周 H, 等.一个负反馈模型,用于解释 SARS-CoV-2 复制和转录的调节。前基因。2021;12:641445.PMID:33719350

查看文章PubMed/NCBI谷歌学术

21.Chen C, Nadeau S, Yared M, Voinov P, Xie N, Roemer C, et al.CoV-Spectrum:分析全球共享的 SARS-CoV-2 数据,以识别和表征新变异株。生物信息学。2022;38(6):1735–7.PMID:34954792

查看文章PubMed/NCBI谷歌学术

22.冠状病毒中移动遗传元件 s2m 的分布和进化历史。疾病。2016;4(3):27.PMID:28933407

查看文章PubMed/NCBI谷歌学术

23.Kofstad T, Jonassen CM. 筛选野鸽和林鸽中含有保守移动病毒元件的病毒:新型星状病毒和小核糖核酸病毒的表征。公共科学图书馆一号。2011;6(10):e25964。PMID:22043297

查看文章PubMed/NCBI谷歌学术

24.Tengs T, Delwiche CF, Monceyron Jonassen C.SARS-CoV-2 基因组中的遗传元件与多种昆虫物种共享。J Gen Virol。2021;102(3):001551.PMID:33427605

查看文章PubMed/NCBI谷歌学术

25.Imperatore JA、Cunningham CL、Pellegrene KA、Brinson RG、Marino JP、Evanseck JD 等人。SARS-CoV-2 高度保守的 s2m 元件通过接吻复合物二聚化并与宿主 miRNA-1307-3p 相互作用。核酸研究 2022;50(2):1017–32.PMID:34908151

查看文章PubMed/NCBI谷歌学术

26.江 H, 乔希 A, 甘 T, 雅诺夫斯基 AB, 藤井 C, 布里克 TL 等。高度保守的茎环 II 基序对于 SARS-CoV-2 来说是可有可无的。J 维罗尔。2023;97(6):e0063523。PMID:37223945

查看文章PubMed/NCBI谷歌学术

27.布鲁姆 JD,内尔 RA。SARS-CoV-2 蛋白突变的适应度影响。病毒卷。2023;9(2):vead055。

查看文章谷歌学术

28.康 L, 何 G, 夏普 AK, 王 X, 布朗 AM, Michalak P.刺突基因的选择性扫描推动了 SARS-CoV-2 人类的适应。细胞。2021;184(17):4392-4400.e4。

查看文章谷歌学术

29.Ou X, Xu G, Li P, Liu Y, Zan F, Liu P, et al.两种 SARS-CoV-2 密切相关的蝙蝠冠状病毒的 S 蛋白的宿主易感性以及结构和免疫学见解。细胞盘。2023;9(1):1–21.

查看文章谷歌学术

30.庞 H, 刘 Y, 韩 X, 徐 Y, 江 F, 吴 D 等.对严重急性呼吸系统综合症相关冠状病毒的保护性体液反应:对设计有效的基于蛋白质的疫苗的影响。J Gen Virol。2004;85(第 10 部分):3109-13。PMID:15448374

查看文章PubMed/NCBI谷歌学术

31.石淑娴, 彭俊平, 李耀春, 秦 C, 梁国军, 徐力, et al.膜蛋白的表达增强了 SARS-CoV 核衣壳 DNA 免疫诱导的特异性反应。分子免疫学。2006;43(11):1791–8.PMID:16423399

查看文章PubMed/NCBI谷歌学术

32.Heffron AS、McIlwain SJ、Amjadi MF、Baker DA、Khullar S、Armbrust T 等人。SARS-CoV-2 感染中抗体结合的景观。PLoS 生物学 2021;19(6):e3001265。PMID:34143766

查看文章PubMed/NCBI谷歌学术

33.Garushyants SK、Rogozin IB、Koonin EV。SARS-CoV-2 基因组中的模板转换和重复导致值得监测的插入变异。Commun Biol. 2021;4(1):1–9.

查看文章谷歌学术

34.Patchett S、Lv Z、Rut W、Békés M、Drag M、Olsen SK 等人。分子传感器确定 SARS-CoV-2 木瓜蛋白酶样蛋白酶的泛素底物特异性。Cell Rep. 2021;36(13):109754.PMID:34547223

查看文章PubMed/NCBI谷歌学术

35.Druelle V,Neher RA。在 HIV-1 和偏倚替代率估计中,对共识的回归是正向选择的。病毒卷。2023;9(1):VEAC118。

查看文章谷歌学术

36.Li H. Minimap2:核苷酸序列的成对比对。生物信息学。2018;34(18).

查看文章谷歌学术

37.Rognes T, Flouri T, Nichols B, Quince C, Mahé F. VSEARCH:一种多功能的宏基因组学开源工具。同行J.2016;4:e2584.PMID:27781170

查看文章PubMed/NCBI谷歌学术


阅读0
分享
写下您的评论吧