厦门免费医学论文发表-神经网络方法,包括使用拓扑数据分析,增强了按治疗条件对人诱导多能干细胞集落的分类

2025-07-15

厦门免费医学论文发表-神经网络方法,包括使用拓扑数据分析,增强了按治疗条件对人诱导多能干细胞集落的分类

亚历山大·鲁伊斯·德佩雷斯 ,保罗·安德森,埃琳娜·迪米特洛娃 ,梅丽莎·肯普


抽象

了解干细胞如何组织形成早期组织层仍然是发育生物学中一个重要的悬而未决的问题。有助于理解这一过程的是生物标志物或特征,这些标志物或特征会在发生重大转变或决策时发出信号。我们从菌落中细胞的空间布局中表明,这些特征足以训练神经网络根据每个菌落接受的分化方案治疗对干细胞菌落进行分类。我们使用拓扑数据分析来推导有关细胞位置的输入信息到四层前馈神经网络。我们发现,尽管这种方法很简单,但这种网络的性能与传统的图像分类器 ResNet 相似。我们还发现,网络性能可能会揭示在多个条件下发生差异化的时间窗口。


作者总结

我们对干细胞如何决定分化成哪些特化细胞的理解仍然不完整。理解这个过程的一个方面包括确定何时发生有关细胞命运的关键决定。我们探索了通过观察菌落细胞的布局,我们是否可以推断出有关细胞分化的最终表型的知识。我们训练一种算法,通过输入菌落细胞中出现的孔的数量和大小,使用空间信息来识别细胞类型。我们发现这种方法在分类方面很成功,类似于工业级的图像分类器。


数字

Fig 13Fig 14Table 1Fig 1Fig 2Fig 3Fig 4Fig 5Fig 6Fig 7Fig 8Fig 9Fig 10Fig 11Fig 12Fig 13Fig 14Table 1Fig 1Fig 2Fig 3

     

引用:de Perez AR, Anderson PE, Dimitrova ES, Kemp ML (2025) 神经网络方法,包括使用拓扑数据分析,增强了按治疗条件对人诱导多能干细胞集落的分类。PLoS 计算生物学 21(7): e1012801 的。 https://doi.org/10.1371/journal.pcbi.1012801


编辑 器: Serdar Bozdag,美国北德克萨斯大学


收到: 2025 年 1 月 15 日;接受: 2025 年 6 月 2 日;发表: 7月 11, 2025


版权所有: © 2025 de Perez et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。


数据可用性: 用于创建和训练神经网络以及处理拓扑数据的代码可在 https://github.com/aruysdeperez/TDANet.git 获取。


资金:E.D. 和 M.K. 得到了 NSF-Simons 东南数学和生物学中心通过美国国家科学基金会 (https://www.nsf.gov/) 的赠款DMS1764406和西蒙斯基金会 (https://www.simonsfoundation.org/) 的 SFARI 594594赠款的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。


利益争夺: 作者已声明不存在相互竞争的利益。


介绍

由人类诱导多能干细胞 (hiPSC) 产生的类器官和微生理系统有望开发可用于评估治疗、毒理学筛选和再生医学的体外检测。此外,干细胞在各种培养条件下组织成更特化组织的方式为形态发生(器官系统的动态形成)提供了关键见解。在这些过程中,通过位置线索 [1] 和与邻居的互动 [2] 对单个细胞进行指导。因此,虽然形态发生是由可溶性形态发生信号驱动的,但该过程本身可以通过细胞迁移、聚集和密度变化形式的空间信息轻松观察到。我们询问是否可以以某种方式解释这些空间信息,以便我们确定分化过程何时精确发生,以及正在发生什么分化。最终,通过从多细胞组织得出的简单非侵入性指标来预测最终谱系规格,对于工业制造环境中类器官的可靠性和实时质量控制是必要的。


为了应对从空间数据中识别组织的挑战,我们设计了一个神经网络,该网络将细胞集落的位置数据作为输入,并猜测该集落的细胞命运。将深度学习应用于这些图像分类问题已经取得了成功。图像分类神经网络已经能够识别细胞形态 [3],并已应用于细胞分选 [4] 和细胞病理学 [5]。与我们特别感兴趣的是 [6] 的工作,它预测了个体原代小鼠造血干细胞和祖细胞 (HSPC) 分化为两种细胞命运之一:粒细胞/单核细胞 (GM) 或巨核细胞/红细胞 (MegE)。在这种情况下,深度学习可以在细胞开始发出识别标记之前的三代细胞中准确预测谱系。


我们从以前的工作中出发,使用深度学习对大量相关细胞而不是单个细胞得出结论。形态学提供了有关多能干细胞聚集体分化的信息。在 [7] 中,按形态学(囊性、亮腔或暗腔)对拟胚体进行分类,预测了将出现哪些早期胚层。这一结果引入了计算机的潜力,可以根据人类观察不明显的细节进行进一步的预测。虽然解决此机器学习问题的自然方法是设计图像分类器,但我们还包括一个使用拓扑数据分析 (TDA) 的网络。我们假设菌落的持续同源性有效地对细胞之间形成的间隙和孔进行了分类,将提炼出在原始图像中会丢失的关键特征。事实证明,持续同源性在其他生物学环境中是有洞察力的。事实上,[8] 发现支持向量机可以使用持久同源性,当被提炼为持久性景观函数时,来区分麦芽糖结合蛋白的开放和封闭构象。在细胞相互作用的水平上,[9] 发现一维同源性可以作为上皮细胞运动期的有效分类器。


结果

拓扑数据使用网络和标准图像分类器都可以成功地对图像进行分类

为了研究 TDA 在检测与培养方案相关的干细胞聚集体变化方面的潜在效用,我们对标准图像分类神经网络 (ResNet) 和使用我们的拓扑衍生特征集的简单前馈神经网络 (TDANet) 进行了比较分析。先前发表的一项研究 [10] 对在 48 小时内从 5 种实验条件中分化的 iPSC 聚集体的延时显微镜检查的帧进行了 0 级和 1 级同源性分析;这些信息被用来训练TDANet,如材料和方法中所述。或者,将图像直接馈送到 ResNet 中。因此,对于某个特定时间点,在该时间点的 78 个菌落的图像(在 ResNet 的情况下)或来自该时间点的 77 个菌落(在 TDANet 的情况下)的每个同源数据摘要(一个菌落缺少其同源数据)上训练了一个模型。请参阅材料和方法的处理坐标数据小节,以获取同源数据摘要的描述。


我们发现两种神经网络都成功地对菌落进行分类。正如预期的那样,这些网络在早期时间点的表现往往更差,此时菌落大多是多能的,因此没有组织它们的显着特征。在后来的时间点,分类准确性提高到 TDANet 的准确率,而 ResNet 的分类准确性则更高。此外,来自平行训练会话的低验证准确性,其中菌落被随机分配一个治疗标签(参见材料和方法的训练和随机标签小节)表明网络依赖于底层的生物信息。如图 1C 和 1D 所示,在随机标签上,TDANet 和 ResNet 都无法达到比从五个中随机选择一个更好的准确性。我们得出的结论是,这些网络无法在任意的菌落分组中找到相似性。这表明,在菌落的正确标签上训练时显示的准确性来自与细胞生物学相关的信息,而不是特定于数据的偶然模式。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 1. 在固定时间根据 [10] 的时间序列 hiPSC 数据训练的 TDANet 和 ResNet 模型的平均准确性。


对于每个时间点,根据该时间点 hiPSCs 的数据训练了 10 种不同的神经网络模型。对来自每个时间点的数据进行划分,使 70% 用于训练,30% 用于验证,并为每个实例随机划分。上图显示了使用 TDANet 模型(A 和 C)以及 ResNet 模型(B 和 D)进行预测的平均准确性。显示了模型在菌落的正确标记(A 和 B)上训练的情况以及在菌落的随机重新标记上训练(C 和 D)时的结果。TDANet 模型使用了 1 维和 0 维同源数据的组合。


https://doi.org/10.1371/journal.pcbi.1012801.g001


虽然 ResNet 的结果往往比 TDANet 好,但这两个网络表现出相同的行为。特别是,这两个网络的精度都以两个平台为特征。在时间点 t001 和 t100 之间(从记录开始到之后约 8.3 小时),TDANet 和 ResNet 的精度徘徊在 TDANet和 ResNet 的分数附近,然后在 t 100 到 t150 的间隔内跳转到各自的最佳速率(成像后大约 12.5 小时)。这个区间很有趣,因为它表明在这个实验窗口中,两个网络都对细胞分化敏感。也就是说,准确性从较低平台增加到较高平台的时间点可能是集落从其多能且难以区分的开始分化为最终组织命运的窗口。过去的研究表明,有关细胞命运的信息在分化发生之前就已经出现。例如,在多能性期间读取基因表达水平可以预测分化为心肌细胞 [11] 和肝细胞 [12] 的细胞百分比。我们的研究表明,这些线索也可以在形态学中看到。


如图 2 所示,模型在单个类上的性能往往遵循一般菌落的性能模式。在大多数情况下,F1 分数在早期较低,在 8 到 12 小时之间增加,然后在后期时间点趋于稳定。特定类的精度、召回率和 F1 分数定义如下:


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 2. TDANet 和 ResNet 模型类别的平均精度(A 和 B)、召回率(C 和 D)和 F1 分数(E 和 F)对生成图 1 结果的训练练习的验证数据的平均精度(A 和 B)。


上图显示了 TDANet 模型(A、C 和 E)以及 ResNet 模型(B、D 和 F)的这些指标。仅显示在克隆的正确标记上训练模型的情况的结果。


https://doi.org/10.1371/journal.pcbi.1012801.g002





当 ResNet 分析时,主要的例外是 DS 和 DS+CHIR 类,它们在早期的时间点比其他三个类明显领先。图 3 中的混淆矩阵支持这种行为。矩阵显示存在两个主要错误:两个模型都混淆了 BMP4 和 CHIR,而 TDANet 混淆了 DS 和 DS+CHIR。ResNet 在区分 DS 和 DS+CHIR 方面似乎没有 TDANet 的困难,因此解释了这些类别的非常高的分数。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 3. 在验证数据集上测试时 TDANet (A) 和 ResNet (B) 的混淆矩阵。


这里使用的模型是在生成图 1 和 2 中结果的同一训练练习中在实际标签上训练的模型。每个正方形中的值是纵轴上类类型的平均菌落数,模型预测为横轴上的类类型。


https://doi.org/10.1371/journal.pcbi.1012801.g003


TDANet 的一个意外结果是同源数据维度的影响。我们曾预计 TDANet 在给定 1 维和 0 维同源的输入时表现最佳。然而,当仅从其中一个维度给出同源数据时,TDANet 的准确性在这种综合数据上训练时并没有显着超过其准确性(见图 4A)。特别是,在 0 维和 1 维同源数据上训练的 TDANet 并不优于仅在 1 维数据上训练的 TDANet。虽然使用两个维度的模型只采用每个维度的前 20 个持久化景观函数,而不是前 40 个,但这似乎不会对其性能产生负面影响。事实上,我们创建了一个 TDANet 版本,它只采用单个同源维度的前 20 个持久化景观函数。我们发现,这个模型的性能接近使用 40 个持久性景观函数的版本(见图 4B),这表明分类的关键知识存在于初始景观函数中。作为另一种解释,我们认为关于蜂群的许多相同信息都是在两个维度中编码的,因此包括多个的持续性景观函数是多余的。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 4. (A) 与仅使用来自两个维度的数据组合进行训练的模型相比,TDANet 模型在仅根据维度 0 或维度 1 同源数据进行训练时的准确性。


(B) 使用前 40 个持久化景观函数与仅使用前 20 个持久化景观函数训练的 TDANet 模型的比较。在 B 中,每个模型都仅使用来自一个同源维度的数据进行训练。


https://doi.org/10.1371/journal.pcbi.1012801.g004


注意力分析表明拓扑数据可以改进生物特征在 ResNet 分类中的使用

我们使用 Smooth Grad-CAM++ [23] 创建了类激活图,显示了 ResNet 对菌落图像的分析。类激活图 (CAM) 是一个有用的工具,可以进一步了解像 ResNet 这样的图像分类器所做的决策。CAM 充当覆盖在原始图像上的热图,显示网络对图像不同部分的关注。特定位置的 CAM 值是无量纲的;它是一个标准化分数,显示该特定点相对于其他位置对分类器的重要性。具有高值的区域是对网络分类决策贡献较大的区域 [13]。因此,在评估 CAM 时,可以确定菌落的哪些部分在将其与不同处理类型的菌落区分开来方面最具影响力。此外,CAM 还可以显示网络是否使用 “正确” 数据进行分类。也就是说,如果高度关注有细胞的区域,则表明网络正在根据图像中的潜在生物现象做出决策。另一方面,如果热图倾向于关注没有单元格的区域,则意味着网络正在使用特定于图像的细节,例如照片中菌落的位置。


通常,CAM 显示 ResNet 通常关注包含单元格的图像区域。这可以通过对具有不同训练协议的 ResNet 模型进行并排比较来确定,图 5 中可以看到一些示例。更多 CAM,包括显示菌落 CAM 随时间演变的电影,可以在 https://doi.org/10.5281/zenodo.15307031 中找到。电影表明,与在随机标签上训练的 ResNet 模型相比,在正确标签上训练的模型在注意力分布方面更加一致。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 5. 五种不同治疗方案的类激活图示例。


顶行 (A,B,C,D,E) 是由网络在实际标签上训练创建的图像,而底行 (F,G,H,I,J) 由在随机标签上训练的相同图像组成。这些柱按方案处理排列。依次是 WT(A 和 F)、BMP4(B 和 G)、CHIR(C 和 H)、DS(D 和 I)和 DS+CHIR(E 和 J)。


https://doi.org/10.1371/journal.pcbi.1012801.g005


每种不同的协议处理在 class activation map 中都有自己的模式。在WT和DS处理的菌落的情况下(参见材料和方法的数据小节以获取不同处理的描述),类激活图的高价值区域以菌落的内部为中心。这两种类型之间的区别在于注意力在整个殖民地的传播。对于 WT 集落,几乎整个细胞聚集体都具有相对较高的活化值。但是,在 DS 菌落的情况下,内部有大面积的激活值接近 0。


在 BMP4 和 CHIR 菌落的情况下,CAM 倾向于将注意力放在菌落的边界区域,而对内部的重要性较低。这种模式仍然可以明显地证明网络对集落结构的接受性:BMP4 和 CHIR 处理的集落都以“边缘”为特征,其中边界上的细胞分布不如内部细胞的密集。我们得出的结论是,CAM 对边界的关注表明在分类过程中意识到并使用了此功能。


对于 DS+CHIR 集落,注意力往往集中在图像的角落。在其他菌落中,这些角落位置几乎没有细胞,但由于 DS+CHIR 菌落的大小,它们被填充。因此,我们得出结论,该网络正在使用其较大的尺寸来表征 DS+CHIR 集落,因为只有这种处理类型才会在这些区域显示致密的细胞群。


关于 DS 处理菌落的 CAM 的一个特别引人注目的结论是,网络确实非常关注的选定区域不一定是以“玫瑰花结”为特征的区域。这些出现在菌落中的低密度孔洞对于人类观察者来说是引人注目的,并且是这种处理的一个显着特征,因为没有其他菌落类型表现出这种基序。令人惊讶的是,该网络并不重视这些阵型。然而,在这个缺口中,我们可以看到拓扑数据分析的机会。玫瑰花结是在条形码中脱颖而出的特征。ResNet 对它们的忽视表明,拓扑中有一些相关信息没有被图像分类器使用。


总之,类激活图显示 ResNet 使用有关菌落的信息对图像进行分类,并且能够根据独特的生物学特征区分菌落。然而,如 DS+CHIR 菌落的图谱所示,ResNet 可以将生物数据与环境细节混淆。此外,正如 DS 菌落所证明的那样,并非所有相关细节都被 ResNet 完全收集。因此,ResNet 似乎可以从使用拓扑信息的更直接的关注中受益。


网络对于时间分离的训练和测试数据集表现出类似的性能

另一种评估网络稳健性的方法涉及在与训练模型的时间不同的时间点的数据上测试模型。在这里,我们在来自 T 的菌落数据上训练一个模型,然后在不同的时间,我们让 T 训练的模型对来自 S 的数据进行分类。


本练习的重点是了解网络对菌落的见解随时间推移的推断效果如何。我们预计,与距离较远的时间点相比,使用时间点 T 的数据训练的模型在处理接近 T 的时间点的数据时表现更好。我们想看看这种性能衰减的速度有多快;也就是说,在 T 上训练的模型在距离 T 多远的时间点可以保持高精度。


如图 6 所示,我们确实看到模型在接近训练时间的时间点的数据上表现更好的趋势。对于在较晚时间点训练的模型,这种附近的性能影响往往更强。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 6. 在时间点 T 训练并针对来自不同时间点 S 的数据进行测试的神经网络的准确性。


训练和测试都是在实际标签上完成的。结果适用于 TDANet (A) 和 ResNet (B)。


https://doi.org/10.1371/journal.pcbi.1012801.g006


然而,图 6 的一个问题是它用其整体性能掩盖了衰减。某些模型可能会保持稳健的性能,并且由于起始精度较低而几乎没有看不见的精度衰减。为了解决这个问题,我们引入了一个准确率指标,我们称之为两个时间点 T 和 S 的时差准确率指标。我们将其定义为



其中,是在时间 B 的数据上测试时,根据时间 A 的数据训练的网络的准确性,并且是接近 S 的时间(在我们的例子中是 50 分钟前)。此指标的目标是显示神经网络模型准确率的相对变化,因为这更好地表示网络可以保留的准确率。我们选择而不是 S,因为使用 S 训练模型会遇到以下两个问题之一:要么测试数据集将包含它已经看到的训练数据,要么将菌落数据分成不相交的训练和测试集,因此它将在比 T 训练模型更小的数据集上进行测试。使用此指标的分析结果如图 7 所示。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 7. 不同时间点 S 和 T 的时间差异准确性指标。


一个神经网络使用来自 T 的数据进行训练,另一个网络使用来自 的数据进行训练,时间接近 S。结果指标是 T 训练网络和 训练网络对 S 数据的准确性差异。结果适用于在实际标签上训练的 TDANet (A) 和 ResNet (B)。


https://doi.org/10.1371/journal.pcbi.1012801.g007


从分析中可以得出两个观察结果,即测试时间与训练时间相距越远,模型精度衰减的速度就越快。首先,对于 ResNet 和 TDANet,当模型使用来自较晚时间点的数据进行训练时,衰减率会变慢(S 早期值时指标的高值可能是由于训练模型的起始精度较差,所有 T 的值都保持高这一事实证明了这一点)。其次,ResNet 和 TDANet 之间的衰减率没有明显差异。预期第一个结果的原因类似于我们期望在以后的时间点获得更高准确性的原因:在此期间,T 和 S 的菌落都已分化,因此在两个数据集中都可以识别处理的显着特征。第二个结果更加模棱两可,尽管它似乎表明 ResNet 和 TDANet 在跨时间传递见解方面具有同等的能力。也许这种效果是由于不同时间点与菌落特征的相似性受到限制。


讨论

我们研究了神经网络使用形态学数据准确分类干细胞命运的潜力。为此,我们采用给予五种分化方案处理之一的多能干细胞集落,并要求神经网络猜测正确的方案。我们比较了两种不同的网络模型,每种模型都有自己的信息类型作为输入。一个是 ResNet,这是一种传统的图像分类器,它使用菌落的照片作为输入。另一个是 TDANet,一个简单的 4 层前馈网络,它以持久同源的形式使用拓扑信息,该信息由细胞位置的近似值创建。


结果表明,TDANet 可以对干细胞集落进行分类,其性能远优于随机机会。网络性能与由于菌落分化而导致分类难度的假设一致,使用来自后期时间点的数据进行训练的网络往往具有更高的准确率。此外,准确性结果揭示了准确性稳定的两个时间段,过渡发生在开始数据收集后大约 8 到 10 小时。这种转变也可以在 ResNet 模型中观察到,可能是菌落发生分化的窗口,早期的时间段是细胞大部分处于未分化状态的时期,而转移后时期是群体达到最终状态的时期。


过渡期的意义在于,它涵盖了许多菌落图像仍然无法被人眼区分的时间点。如果这个转变确实是分化期,那么这表明计算机视觉能够检测人类不明显的组织结构差异。不幸的是,我们无法验证与该特定数据集的菌落分化的时刻。然而,一个可以直接跟踪和记录分化状态的后续实验可以确定这一点,并提供关键的见解。


然而,在得出有关过渡期的结论的同时,人们可能还想知道为什么网络可以在较早、分化程度较低的状态下表现良好。该准确性远高于进行随机猜测的成功率,这表明网络可能存在过度训练。然而,成像并不是在方案开始时立即开始,而是在至少 24 小时的等待期后开始。因此,即使在成像过程的早期,也会发生一定量的分化。从“材料与方法”的“数据”中的样本图像中可以观察到,早期时间点的菌落仍然显示出明显的图案。


与 ResNet 的结果相比,我们的 TDANet 显然具有较低的准确性。但是,简单地忽略 TDANet 而使用图像分类器,需要注意一些。首先,正如我们对类激活图的分析所暗示的那样,每个网络都有自己的一组洞察,用于决策过程,而另一个网络无权访问。此外,考虑到所使用的两个不同神经网络之间的复杂程度差异,得出视觉信息优于拓扑信息的结论是不准确的。性能差距似乎更有可能是由于网络架构造成的,而不是数据输入造成的。事实上,我们发现训练ResNet模型所需的时间大约是训练TDANet模型的十倍(参见材料和方法的“硬件和网络训练规格”)。这为未来的工作打开了几扇门。首先,如果我们使用更复杂的网络,拓扑方法的性能可以得到显著提高。我们询问是否可以将 TDANet 修改或细化为以高级方式利用持久同源的网络。或者,可以将拓扑数据合并到图像分类器中。在这个概念中,图像分类器将被告知专注于图像中具有重要同源元素的那些部分,要么通过将神经网络限制在这些区域,要么在决策过程中赋予它们更大的权重。


材料和方法

持续同源性

我们在准备菌落数据时使用的数学工具是持续同源性。在这里,我们将介绍一个用于分析二维数据的简化版本。那些希望了解更多关于广义方法的人应该看看 Edelsbrunner 等人。[14] 非正式地,持续同源的工作是为通常定性描述的数据集的属性提供定量数据。例如,我们从图 8A 所示的点云 X 开始。乍一看,数据的形状类似于杠铃,由两个独立的点环连接在一起。但是我们如何严格地描述这一点呢?我们如何证明图最底部的点“足够接近”以完成左下角的圆圈?我们如何证明较小的环(如由三个点组成的三角形)没有那么重要?


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 8. 一组点 X 的 Rips 复合体的增长阶段,用于增加用于计算复合体的圆的半径值。

https://doi.org/10.1371/journal.pcbi.1012801.g008


我们在每个点周围画一个半径为 r 的圆,其中 r 是一个参数值。我们从 r 的一个值开始,该值非常小,以至于没有一个圆相交,然后随着 r 的增加观察圆的交点。


当 r 变得足够大以至于两个圆相交时,我们在这些圆为中心的点之间放置一条线段。通过这种方式,我们可以跟踪连接组件的总数。在此示例中,我们从 11 个不同的组件开始,即点本身。当点通过线段连接时,零部件的数量会在它们合并在一起时缩小。例如,在图 8B 中,圆的半径 r 足够大,以至于我们向下放置了三条线段。


除了随着 r 的增加而放置线段外,我们还放置了向下的多边形。每当我们有一组三个或更多点,使得它们的任意两个圆的成对交集不为空时,我们就会设置一个多边形,其顶点恰好是这些点。我们可以在图 8C 中观察到一个例子。对于图 8C 中连接在一起的三个点,它们的圆圈现在已经变得足够大,以至于任何两个的交点都是非空的。因此,我们 “填充” 三个点之间的凸区域以创建一个三角形。我们将继续跟踪组件,并注意到在此阶段有 6 个组件。通过添加多边形,我们正在构建所谓的简单复合体。我们将以这种方式构建的简单复数称为 Rips 复数。


当我们监控组件的数量时,我们还会注意到我们的综合体中出现 “孔” 的情况。在图 8D 中可以看到两个例子。此时,半径已经增长到足够大,以至于所有点都已连接到一个大组件中。但是,半径不够大,以至于我们已经用多边形填充了点之间的所有凸区域。因此,Rips 复合体形成了两个环,围绕着尚未添加到复合体中的平面区域。我们通过 r 的两个值来跟踪每个空穴的持久性: 它形成的值和它被填充的值。正如在图 8E 中观察到的那样,有一个值 r,在这个值处,左下角已经被填充,而右上角的孔仍然存在,尽管尺寸较小。直到 r 的较大值(如图 8F 所示)后,这个空穴才消失。此时,我们的 Rips 复合体是一个没有任何空穴的单个连接组件,并且将保持原样,例如 r 继续到无穷大。


我们将分析总结为条形码,条形码是一组区间,每个区间代表特定同源元素(连通元件或空穴)的寿命。连通分量是 0 维单元,孔是 1 维单元。区间的端点是相应元素的 “birth” 和 “death”。这分别是元素产生的 r 值(元件的 r = 0;连接孔的回路的 r)和元件不复存在的 r 值(元件与另一个元件合并或孔被完全填满的 r)。条形码可以用图形方式表示为持久性图 [14],如图 9 所示。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 9. 图 8 中所示的点云 X 的持久性图,使用 [15] 中的软件计算得出。


蓝点表示连通分量(0 维同源元素,或 H0) 的 Rips 复合体。橙色点表示空穴(一维同源元素,或 H1).标有 “Birth” 的横轴表示元素出现的 r 值(请注意,这就是为什么所有连接的分量都位于 r = 0 处,因为它们在最开始时以单个点的形式存在)。标记为 “Death” 的纵轴表示元素消失的值。对于组件,这是它连接到另一个组件的值。对于孔,这是孔的“填充”值。标记的虚线上的蓝色点是一个大组件,所有组件最终都连接到该组件中。


https://doi.org/10.1371/journal.pcbi.1012801.g009


有了条形码,我们现在有了关于数据集密度和聚类的具体指标,因此可以更清楚地阐明其形状。回到我们例子的开头,我们可以看到,我们将 X 描述为两个连接在一起的环是合理的。条形码恰好具有两个一维同源元素;我们最初乍一看看到的两个戒指。


我们在示例中详细介绍的方法就是我们处理菌落数据的方法。与示例中的数据集 X 一样,我们的原始数据由坐标平面中的点组成。每个数据集由特定时间点的单个菌落组成,每个点代表细胞核位置的近似值。我们构建了一个 Rips 复合物并记录了复合物的成分和孔在其构建过程中出现和消失的 r 值。我们使用 Ripser 程序来计算复合物和得到的条形码 [15]。


数据

我们使用了作者提供的 78 个人诱导多能干细胞 (hiPSC) 集落的数据 [10]。这些菌落中的每一个要么以野生型 (WT) 形式保留,要么用四种形态发生剂组合之一处理:BMP4、双重 SMAD 抑制 (DS)、CHIR 或双重 SMAD 抑制和 CHIR 联合 (DS+CHIR)。这些形态发生素中的每一种都会影响原肠胚形成过程中的分化。CHIR 是 WNT 通路的激活剂 [16]。研究显示,抑制 BMP4 会导致中胚层发育失败 [17],以及 SMAD 特征在结节通路中形成,从而促进中胚层形成 [18,19]。每个分类的菌落数为 WT:12,BMP4:16,CHIR:16,DS:17,DS+CHIR:17。有一个 BMP4 菌落,我们有图像但没有坐标数据。因此,这个菌落仅用于训练 ResNet。


每个菌落在 24 小时内成像。每 5 分钟采集一次每个菌落的图像,总共 288 个单独的帧。然后,作者对图像进行了微米空间的像素照片分析以进行细胞检测和分割,以创建一个坐标列表,近似每个细胞的位置,每个细胞的数量往往在 500 到 2000 个之间。因此,每个菌落都有 288 组坐标数据,这些数据来自 288 张图像,产生 78 个时间序列。参见图 10、11 和 12,分别在成像期开始、中间和结束时拍摄的菌落图像。可以在下面的链接中找到这三个特定时间的所有菌落的图像(请注意,我们只使用带有绿色荧光蛋白 (GFP) 标签的图像进行训练):


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 10. 成像 50 分钟后,具有 5 种处理类型之一的菌落示例。


显示的是带有绿色荧光蛋白标记 (GFP) (A-E) 和相差图像 (F-J) 的图像。每个菌落的方案是 WT (A, F);BMP4 (B, G);奇尔 (C, H);DS (D, I);DS+CHIR (E, J).


https://doi.org/10.1371/journal.pcbi.1012801.g010


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 11. 图 10 中菌落的 GFP 和相差图像,现在在成像 11 小时 40 分钟时拍摄。


菌落图像的顺序与图 10 中的顺序相同:WT (A, F);BMP4 (B, G);奇尔 (C, H);DS (D, I);DS+CHIR (E, J).


https://doi.org/10.1371/journal.pcbi.1012801.g011


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 12. 图 10 中菌落的 GFP 和相差图像,现在在成像 22 小时 30 分钟时拍摄。


菌落图像的顺序与图 10 中的顺序相同:WT (A, F);BMP4 (B, G);奇尔 (C, H);DS (D, I);DS+CHIR (E, J).


https://doi.org/10.1371/journal.pcbi.1012801.g012


早期,GFP:https://doi.org/10.5281/zenodo.15306992

早期,相差:https://doi.org/10.5281/zenodo.15306976

中,GFP:https://doi.org/10.5281/zenodo.15307001

中间,相差:https://doi.org/10.5281/zenodo.15306994

晚,GFP:https://doi.org/10.5281/zenodo.15307018

晚期,相差:https://doi.org/10.5281/zenodo.15307009

对于每种方案处理,首先将细胞聚集 24 小时,然后将聚集体接种在培养孔中并发育成菌落,从而产生菌落。在 BMP4 和 CHIR 处理的情况下,有 24 小时的等待期,之后配体再应用了 24 小时,然后进行最后的 24 小时成像过程。在 DS 处理的情况下,细胞的处理发生在聚集期开始时,并持续到连续的 24 小时聚集、播种后集落形成和成像期间。对于 DS+CHIR 处理,在聚集前 48 小时应用 CHIR,并在聚集前 48 小时、聚集 24 小时、接种后 24 小时和 24 小时成像期间保持 CHIR [10]。


处理坐标数据

我们使用 Ripser [15] 从特定时间点的菌落坐标数据创建条形码。


但是,使用条形码作为前馈神经网络的输入会增加将不同长度的数据结构拟合到固定输入大小参数的难度。我们希望避免对提供给网络的条形码的间隔数施加任意的截止。因此,我们使用持久化环境实现了一种新的输入格式。


我们定义持久性态势 [20] 如下。对于条形码中的间隔 (b,d),将函数定义为



然后,持久化景观是一系列函数,其中第 k个持久化景观函数由下式给出



在条形码中的所有持久性元素 (b,d) 上。其中,kmax 表示集合中的第 k个最大元素。


非正式地,持久化景观在这里用于查找持久特征,但在与相同 r 值出现的特征进行比较时。例如,假设条形码有一个间隔 .假设这个间隔虽然比条形码的许多其他元素短,但它是延伸到 r 之间的区域的间隔中最长的0和 r1.那么这个间隔将在持久性景观中突出,因为虽然它不是一个大的间隔,但它在其位置上是一个很大的间隔。


我们选择了值和前 40 个持久性景观函数作为过滤参数 r 的样本点。我们根据对菌落在不同时间点的持久性景观函数的检查,在这两种情况下都确定了数字 40,发现参数值大于 40 或 i > 40 时的信息很少(参见图 13 作为示例)。因此,神经网络的输入是一个矩阵,其第 (i,j) 个条目为 。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 13. 干细胞集落持续同源性的前 40 个持久性景观函数的图表。

https://doi.org/10.1371/journal.pcbi.1012801.g013


使用神经网络的 TDA

我们使用了前馈神经网络(我们称之为 TDANet)来解释菌落的同源数据。该网络由三个具有 ReLu 激活的密集 20 个神经元隐藏层和一个具有 Softmax 激活函数的 5 个神经元输出层组成。输出由一个“概率向量”组成,每个索引对应于一种处理类型,其条目代表机器具有输入菌落属于该类型的可能性。我们使用分类交叉熵作为损失函数,它由下式给出



其中表示网络的输出,(x,y) 是输入-输出对。我们的模型代码,以及将坐标数据处理成条形码,然后是持久化景观,都可以在 Github 上找到:


https://github.com/aruysdeperez/TDANet.git。有关 TDANet 的概念图,请参见图 14A。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

图 14. 详细介绍 TDANet (A) 和 ResNet (B) 架构的概念图。


对于 TDANet,输入是干细胞集落在特定时间点的持久性景观值的矩阵,展平为一维向量。输出是一个包含 5 个条目的向量,详细说明了输入菌落是方案处理的可能性。对于 ResNet,我们更改了标准的 ResNet 架构,以便将其输出层替换为与 TDANet 相同的输出层。使用 torchview 包 [22] 创建的图形模型。


https://doi.org/10.1371/journal.pcbi.1012801.g014


卷积神经网络

为了将我们的方法与更传统的图像分类器进行比较,我们还在菌落的图像上训练了卷积神经网络 ResNet。该模型是 PyTorch 提供的 18 层预训练版本 [21]。我们将输出层替换为对 5 个处理类别进行分类的 1 层。为了训练这个模型,我们冻结了除新输出层之外的所有参数,因此只有该层会被更新。参见图 14B 了解 ResNet 的概念图。


我们逐个时间点训练了两个神经网络。也就是说,我们固定了一个时间点,并仅使用该特定时间点的菌落数据进行训练。我们的理由是,网络的性能基于处理后经过的时间:网络在以后的时间点区分菌落方面将更成功,因为这些菌落将更加分化。因此,在逐个时间点的训练中,我们可以根据细胞的分化建立网络准确性的分级度量。


训练和随机标签

对于这两个神经网络,除了一个之外,在所有情况下,我们都将时间点数据划分为用于训练,其余用于验证。(例外情况是“网络显示相似的性能...”小节中,我们在训练和验证之间有 80-20 的比例。验证数据的作用不仅限于测试。每个 epoch 时,神经网络都会根据对训练数据所做的预测来调整其参数。然后,网络对验证数据进行预测,但根据这些结果不进行调整。目的是防止过拟合:如果验证数据的准确性开始下降,则网络不再了解一般的类,而只是了解它们在训练数据中的选择。因此,我们在每个时间步保存模型的参数,在验证精度连续几次降低后,我们停止训练,因为下降表明我们现在过度训练。我们将其参数提供最高验证精度的版本作为输出。


为了衡量生物分类的显着性,我们还对具有随机标签的菌落进行了训练。也就是说,我们没有给菌落正确的处理标签,而是使用了从五个可能的标签中随机选择一个的标签。有关标签的随机分布,请参见表 1。随机标签的训练也经历了 70-30 的分裂。


thumbnail下载:

PPT的PowerPoint 幻灯片

PNG放大图片

国际电影节原始图像

表 1. 用于控制 TDANet 和 ResNet 性能的随机标签集的混淆矩阵。第 (i,j) 个条目表示实际标签为 i 但被分配了标签 j 的菌落数。*有一个 BMP4 集落随机标记为 DS+CHIR,我们有其集落图像,但缺少细胞坐标数据。因此,虽然我们可以用这个 colony 来训练 ResNet,但它不能被 TDANet 使用。

https://doi.org/10.1371/journal.pcbi.1012801.t001


硬件和网络培训规范

我们使用 PyTorch 库 [21] 构建了我们的网络。我们对两个网络的损失函数都使用了交叉熵损失,尽管网络使用了不同的优化器:ResNet 的随机梯度下降 (SGD) 和 TDANet 的 Adam。这些模型经过最多训练 50 个 epoch (在 ResNet 的情况下) 或 200 个 epoch (在 TDANet 的情况下)。TDANet 模型共有 16,965 个参数,所有参数都是可训练的。虽然 ResNet 模型有 11,179,077 个潜在参数,但由于我们在训练期间冻结了除最后一层之外的所有参数,因此只有 2,565 个可训练参数。


我们在配备 AMD Ryzen 7 5800H CPU(以基本时钟速度 3.20 GHz)和 16.0 GB RAM 的笔记本电脑上训练了这两个神经网络。TDANet 模型的典型训练大约需要 5 秒,ResNet 模型大约需要一分钟。


确认

我们感谢 David Joy 和 Todd McDevitt 实验室分享菌落图像和数据。我们还感谢 Curly Zhao 帮助解决有关 PyTorch 的问题。


引用

1.Warmflash A、Sorre B、Etoc F、Siggia ED、Brivanlou AH。一种概括人类胚胎干细胞中早期胚胎空间模式的方法。Nat 方法。2014;11(8):847–54.PMID:24973948

查看文章PubMed/NCBI谷歌学术

2.Hookway TA、Butts JC、Lee E、Tang H、McDevitt TC。人多能干细胞和分化后代的聚集体形成和悬浮培养。方法。2016;101:11–20.PMID:26658353

查看文章PubMed/NCBI谷歌学术

3.Godinez WJ, 侯赛因 I, 拉齐奇 SE, 戴维斯 JW, 张 X.用于对高内涵细胞图像进行表型分析的多尺度卷积神经网络。生物信息学。2017;33(13):2010–9.PMID:28203779

查看文章PubMed/NCBI谷歌学术

4.Nitta N、Sugimura T、Isozaki A、Mikami H、Hiraki K、Sakuma S 等人。智能图像激活细胞分选。细胞。2018;175(1):266-276.e13。PMID:30166209

查看文章PubMed/NCBI谷歌学术

5.刘伟, 李 C, 拉哈曼 MM, 江 T, 孙 H, 吴 X 等.单元的纵横比在深度学习中重要吗?用于多尺度细胞病理学细胞图像分类的深度学习方法的稳健比较:从卷积神经网络到视觉转换器。计算生物医学 2022;141:105026。PMID:34801245

查看文章PubMed/NCBI谷歌学术

6.Buggenthin F、Buettner F、Hoppe PS、Endele M、Kroiss M、Strasser M 等人。通过深度学习前瞻性识别造血谱系选择。Nat 方法。2017;14(4):403–6.PMID:28218899

查看文章PubMed/NCBI谷歌学术

7.Kim JM、Moon SH、Lee SG、Cho YJ、Hong KS、Lee JH 等人。通过来源于人胚胎干细胞的胚状体的形态学分类评估分化方面。干细胞开发 2011;20(11):1925–35.PMID:21388292

查看文章PubMed/NCBI谷歌学术

8.Kovacev-Nikolic V, Bubenik P, Nikolić D, Heo G. 使用持续同源性和动力学距离分析蛋白质结合。统计应用基因分子生物学 2016;15(1):19–38.PMID:26812805

查看文章PubMed/NCBI谷歌学术

9.巴斯卡 D, 张 WY, 黄 IY.使用环的持续同源性对集体和单个上皮细胞进行拓扑数据分析。软物质。2021;17(17):4653–64.PMID:33949592

查看文章PubMed/NCBI谷歌学术

10.乔伊 DA、利比 ARG、麦克德维特 TC。人类多能干细胞的深度神经网络跟踪揭示了指导形态发生的内在行为。干细胞报告。2021;16(5):1317–30.PMID:33979602

查看文章PubMed/NCBI谷歌学术

11.Bargaje R, Trachana K, Shelton MN, McGinnis CS, 周 JX, Chadick C, et al.分叉前的细胞群结构可预测人诱导多能细胞定向分化的效率。美国国家科学院院刊 2017 年;114(9):2271–6.PMID:28167799

查看文章PubMed/NCBI谷歌学术

12.Yanagihara K, Liu Y, Kanie K, Takayama K, Kokunugi M, Hirata M, et al.预测未分化人多能干细胞中基因表达对肝细胞的分化趋势。干细胞开发 2016;25(24):1884–97.PMID:27733097

查看文章PubMed/NCBI谷歌学术

13.周 B, 科斯拉 A, 拉佩德里扎 A, 奥利瓦 A, 托拉尔巴 A. 学习判别定位的深度特征。收录于:IEEE 计算机视觉和模式识别会议论文集。2016. 第 2921-9 页。

14.Edelsbrunner H, Letscher D, Zomorodian A. 拓扑持久性和简化。收录于:第 41 届计算机科学基础年度研讨会论文集。2000. 第 454-63 页。

15.Bauer U. Ripser:vietoris–rips 持久性条形码的高效计算。J Appl Comput Topol.2021;5(3):391–423.

查看文章谷歌学术

16.尼尔斯 C.WNT 受体信号转导的复杂世界。Nat Rev Mol 细胞生物学 2012;13(12):767–79.PMID:23151663

查看文章PubMed/NCBI谷歌学术

17.Wang RN, Green J, Wang Z, 邓 Y, 乔 M, 皮博迪 M, et al. 发育和人类疾病中的骨形态发生蛋白 (BMP) 信号传导。基因 Dis. 2014;1(1):87–105.PMID:25401122

查看文章PubMed/NCBI谷歌学术

18.Papanayotou C, Collignon J. 植入前激活素/节点信号传导:为胚胎模式奠定基础。Philos Trans R Soc Lond B 生物科学,2014 年;369(1657):20130539.PMID:25349448

查看文章PubMed/NCBI谷歌学术

19.Aragón E、Wang Q、Zou Y、Morgani SM、Ruiz L、Kaczmarska Z 等人。SMAD2 和 SMAD3 在 FOXH1 先驱定向 TGF-β 信号传导中不同作用的结构基础。基因开发 2019;33(21–22):1506–24.PMID:31582430

查看文章PubMed/NCBI谷歌学术

20.Bubenik P, Dłotko P.用于拓扑统计的持久性景观工具箱。J 符号计算。2017;78:91–114.

查看文章谷歌学术

21.Paszke A、Gross S、Massa F、Lerer A、Bradbury J、Chanan G 等人。Pytorch:命令式、高性能的深度学习库。高级神经 Inf 过程系统。2019;32。

查看文章谷歌学术

22.Yandell H. mert-kurttutan/torchview;2024. https://doi.org/10.5281/zenodo.14004786

23.Omeiza D, Speakman S, Cintas C, Weldermariam K. Smooth grad-cam:一种用于深度卷积神经网络模型的增强推理级可视化技术。arXiv 预印本 2019 年。https://arxiv.org/abs/1908.01224

查看文章谷歌学术


阅读0
分享
写下您的评论吧