厦门免费医学论文发表-临床决策支持中认知不确定性估计的隐式与显式贝叶斯先验
马尔特·布拉特曼 ,阿德里安·林登迈尔,斯特凡·弗兰克,托马斯·诺伊穆斯,丹尼尔·施耐德
抽象
深度学习模型通过为复杂的临床决策提供自动化、数据驱动的支持,为个性化医疗提供了变革潜力。然而,它们的可靠性在分布外输入上会下降,即使在模型几乎没有证据的地区,传统的点估计预测变量也会给出过于自信的输出。这一缺点凸显了对决策支持系统的需求,以量化和传达每个查询的认识(知识)不确定性。近似贝叶斯深度学习方法通过对模型函数引入原则性的不确定性估计来满足这一需求。在这项工作中,我们使用 PLCO 癌症筛查试验的数据比较了三种此类方法,以预测前列腺癌特异性死亡率以制定治疗计划。所有方法都实现了很强的判别性能 (AUROC = 0.86) 并产生经过良好校准的分布概率,但它们在认识不确定性估计的保真度方面存在显着差异。我们表明,隐式泛函先验方法——特别是神经网络集成和因式权重先验变分贝叶斯神经网络——在近似后验分布时表现出较低的保真度,并产生系统有偏差的认识不确定性估计。相比之下,采用明确定义的距离感知先验的模型(例如光谱归一化神经高斯过程 (SNGP))可提供更准确的后验近似和更可靠的不确定性量化。这些特性使得显式距离感知架构对于构建值得信赖的临床决策支持工具特别有希望。
作者总结
在这项研究中,我们解决了将人工智能应用于个性化医疗的一个关键挑战:即使面对与以前见过的任何数据不同的患者数据,模型也经常做出自信的预测。我们评估了三种策略,以帮助这些模型使用真实世界的前列腺癌筛查数据来识别和发出自身不确定性的信号。虽然所有方法在熟悉的病例上都表现良好,但它们在对不熟悉的患者表示怀疑的可靠性方面有所不同。我们发现,与依赖于隐藏假设的技术相比,专门设计用于衡量新患者数据与先前示例相距“远”的方法产生了更可信的不确定性估计。通过清楚地识别模型何时不确定,这些方法可以帮助临床医生避免过度依赖人工智能建议。我们的研究结果表明,不确定性感知模型可以成为治疗计划中更安全、更透明的合作伙伴。最终,这项工作使我们离人工智能系统更近了一步,这些系统不仅可以预测健康结果,还可以在猜测时负责任地发出信号——这是值得信赖的临床决策支持的基本功能。
数字
表2图1图2表1图3图4图5表2图1图2表1
引文: Blattmann M、Lindenmeyer A、Franke S、Neumuth T、Schneider D (2025) 临床决策支持中认识不确定性估计的隐式与显式贝叶斯先验。PLOS 数字健康 4(7): e0000801。 https://doi.org/10.1371/journal.pdig.0000801
编辑 器: Vinod Kumar Chauhan,牛津大学,大不列颠及北爱尔兰联合王国
收到: 2025 年 1 月 28 日;接受: 2025 年 6 月 23 日;发表: 7月 29, 2025
版权所有: © 2025 Blattmann 等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 用于本研究的前列腺癌、肺癌、结直肠癌和卵巢癌 (PLCO) 筛查试验数据由美国国家癌症研究所 (NCI) 及其癌症流行病学和遗传学部 (DCEG) 管理。由于 NCI DCEG 对参与者隐私和保密施加的限制,这些数据不会从作者那里公开。符合机密数据访问标准的研究人员可在 https://cdas.cancer.gov/ 的 NCI 癌症数据访问系统 (CDAS) 的正式请求和批准后获得数据。
资金: 这项工作得到了德国研究基金会(DFG,德国研究基金会)[授权号460234259(NFDI/34/1)给D.S.]和德国联邦教育和研究部(BMBF)[授权号03Z1L512给M.B.、A.L.和S.F.]的支持。该出版物由莱比锡大学开放获取出版基金资助,并得到德国研究基金会在开放获取出版资助计划中的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 提交人声明不存在竞争利益。
1. 简介
随着越来越多的医疗保健系统采用电子健康记录,向医生提供了大量复杂的异构数据,并呼吁利用这些数据来采用更个性化的治疗方法[1\u20123]。虽然手动检查这些大量数据是不可行的,但统计和机器学习 (ML) 领域的数据驱动技术有望通过数据挖掘、汇总和推理进行利用。数据驱动的推理可以在医学诊断、疾病监测和结果预后等多种应用中实现或帮助精准医疗[4\u20127]。一个值得关注的应用是基于高度异质性数据的个性化癌症治疗,包括临床诊断、病史和多组学特征[8\u201210]。在这里,数据驱动的方法可能有助于按风险对患者进行分层,并为临床决策提供信息,例如跨学科肿瘤委员会或患者参与。前列腺癌 (PCa) 治疗是复杂的肿瘤决策的例证。由于PCa疗法可引起严重的、影响生活质量的副作用,而许多患者即使没有积极干预,也表现出相对较高的生存率,因此临床医生必须进行平衡多种因素的个性化风险评估[11\u201213]。这些因素包括疾病严重程度、合并症和病史、生活方式和生活环境以及患者偏好。因此,个性化 PCa 疗法可以作为医疗保健应用的模型,其中数据驱动的临床决策支持 (CDS) 工具可以改善治疗结果并优化资源分配。在此类决策支持任务中高效、安全地采用机器学习取决于信任,即模型预测既可靠又基于证据[14,15]。然而,当面对训练分布之外的输入时,机器学习模型经常会产生过度自信的预测,从而在安全关键环境中造成严重风险[16\u201217]。医疗器械监管框架和人工智能特定指南要求制造商在大型、有代表性的队列中证明总体校准、鉴别和临床有效性(例如,[18\u201220])。然而,这些人口水平的指标虽然是必要的,但对个体预测的可靠性却丝毫没有说明。随着患者记录变得越来越复杂,临床医生仍然不知道模型训练数据中的每一个细微差别,手动识别分布外病例变得不切实际。这迫使从业者陷入两难境地,要么完全不信任模型的输出——从而破坏 CDS 效率——要么对每一个预测给予毫无根据的信任,从而危及患者安全。为了解决这个问题,我们需要对每个查询的认识不确定性进行量化和交流,以反映模型的知识限制,以补充数据噪声产生的偶然不确定性[21,22]。根据这些措施,医疗专业人员可能会根据具体情况评估在多大程度上将模型预测纳入他们的决策中。虽然确定性(单函数)ML模型缺乏对认识不确定性的认识,因此可以在没有必要证据的情况下提出主张[14\u201215],但已经开发了许多估计认识不确定性和检测分布外(OoD)输入的方法来缓解这个问题。认识不确定性估计和OOD检测分数的保真度取决于数据集代表性、模型架构和容量、后验近似或先验规范的准确性、训练程序(例如正则化和优化)和超参数选择等因素[23]。
相关工作。
本段重点介绍医疗应用认识不确定性估计的相关工作。有关认识不确定性量化方法的总体概述,请参阅第 2.4 节。尽管深度学习的认识不确定性估计有可能提高基于人工智能的临床预后和决策支持的可信度,但它在医学研究中仍然没有得到充分探索,对于最合适的量化方法尚未达成共识[24]。医学不确定性估计研究中主要使用的方法包括蒙特卡洛辍学、贝叶斯神经网络、模型集成和变分自编码器[25\u201239]。尽管这些方法改进了完全缺乏认识不确定性意识的确定性模型,但它们通常不可靠,并且往往低估了认识模糊性[40\u201243](见第2.4节)。在[44]中,OOD区域是通过使用分类器的“不匹配”类的后验概率作为实例OOD分数来检测的——然而,这依赖于容易过度置信的确定性映射。其他研究仅关注偶然性或完全不确定性,而不区分不确定性类型[45\u201247],或者仅在人群水平上而不是实例水平上估计认识不确定性[48\u201250],尽管这些区别对于适当的缓解策略至关重要。现有的大多数工作都针对基于图像的应用,对使用纵向患者记录的临床预后或决策支持的关注有限[24]。尽管具有潜力,但通过具有显式功能先验的变分推理来量化认识不确定性的方法在医学研究中的探索有限,但有一些值得注意的例外:例如,[51]提出了一种混合架构,将Inception-V3提取的特征输入到高斯过程中,以预测糖尿病视网膜病变的严重程度。李等人。提出深度贝叶斯高斯过程,将贝叶斯特征提取器网络与高斯过程相结合,以量化从电子健康记录中预测首次发作心力衰竭、糖尿病和抑郁症的认识不确定性[52]。吴等人。将卷积骨架与稀疏高斯过程头集成在一起,用于骨龄预测和病变定位等任务[53]。林登迈尔等人。比较神经网络集成和频谱归一化神经高斯过程(SNGP)在谵妄风险预测和院内死亡率预测中的认识不确定性估计,表明SNGP提供了改进的OOD检测,同时保持了相当的预测准确性[54,55]。在这些工作的基础上,我们的研究旨在帮助医学领域从流行但有缺陷的认识不确定性量化技术转向基于明确功能先验的更有原则的方法,通过临床预后用例得到证明。
大纲。
通过这项研究,我们评估了不同的近似贝叶斯深度学习方法在临床决策支持环境中量化认识不确定性的能力。考虑到前列腺癌、肺癌、结直肠癌和卵巢癌(PLCO)癌症筛查试验数据的前列腺癌(PCa)死亡率预测[56,57],我们将依赖于隐式功能先验的技术(特别是随机权重贝叶斯神经网络(BNN)和神经网络集成(ENN))与显式强制执行功能先验属性的方法(例如频谱归一化神经高斯过程(SNGP))进行了比较。最终,这项工作旨在确定和推广医学领域的方法,以提供更可靠的认识不确定性量化,从而支持临床医生和数据驱动的决策支持工具之间高效和值得信赖的协作。在下文中,我们总结了量化医疗用例中认识不确定性的相关工作。然后,我们描述了我们的方法:数据集和 PCa 死亡率预测任务、基于 ML 的预测中偶然不确定性和认识不确定性之间的区别、认识不确定性估计方法的概述、这项工作中使用的具体模型、我们测量认识不确定性的方法以及模型训练的细节。接下来,我们介绍了PCa死亡率预测任务上的模型性能,并检查了实例认识不确定性测量是否与预测性能相关。为了进一步解释特定于模型的不确定性估计之间的差异,我们在一个简单的玩具数据集上分析了模型及其认识不确定性行为。最后,我们在临床适用性的背景下讨论了结果,强调了优势和局限性,为未来的研究提供信息。
2. 方法
2.1. 道德声明
本研究利用了前列腺癌、肺癌、结直肠癌和卵巢癌 (PLCO) 癌症筛查试验的去识别化数据,该试验已获得美国国家癌症研究所 (NCI) 机构审查委员会和所有参与筛查中心的批准。所有参与者在入组前都提供了书面知情同意书。本分析中 PLCO 数据的使用符合美国国家癌症研究所制定的数据使用协议和伦理准则。根据项目编号 PLCO-1797 授予对数据的访问权限。此处包含的陈述仅代表作者的陈述,并不代表或暗示 NCI 的同意或认可。
2.2. 数据
本研究中使用的数据来自前列腺癌、肺癌、结直肠癌和卵巢癌筛查试验(prostate, lung, colorectal, and Ovarian Cancer Screening Trial, PLCO)[56,57],这是一项基于美国的大型随机对照研究,旨在确定筛查对癌症相关死亡率和次要终点的影响。PLCO 前列腺数据集包含大约 77.000 名男性参与者,其中 7.664 人符合我们的纳入标准(符合基线问卷的条件,在试验期间被诊断出患有前列腺癌,并进行了全面随访)。我们排除了失访或拒绝进一步接触的PCa诊断患者。该队列的简要概述如图 1 所示。在所考虑的队列中,536 人 (7.0%) 在初次诊断后 13 年内经历了医生审查的 PCa 特异性死亡,2474 人 (32.3%) 在同一时期死于其他原因,4654 人 (60.7%) 在诊断后 13 年仍然活着。我们选择了 13 年的视线,因为它对应于所有 PCa 幸存者的最短随访时间,消除了任何假阴性(没有“还活着”的患者的观察时间少于 13 年)。此外,试验中 75% 的前列腺癌死亡发生在初次诊断后的 13 年内,因此临界值涵盖了大部分事件。因此,我们的二元预测目标是“诊断后13年内PCa特异性死亡”(1级)与“13年内无PCa相关死亡”(0级,包括其他原因死亡和幸存者)。该研究考虑了多种特征,例如与生活方式相关的属性、癌症病史、合并症、广泛的诊断信息,以及初始治疗程序和随访特征。为了选择前列腺癌死亡率最具表现力的特征,考虑了成对相关系数[58]。 捕获非线性依赖关系,并且可以一致地应用于分类变量、有序变量和连续变量。对于随后的 PCa 死亡率预测,仅考虑与 PCa 相关死亡率相关且相应的 p 值为 p<0.05 的特征。此外,本质上具有强成对相关性的冗余特征 (φk> 0.9) 到其他选定的属性被省略。这将数据集压缩为 34 个合适的特征,其中包括 AJCC 第 7 版分期、TNM 分期、PCa 分级、PCa 组织病理学类型、格里森评分、PSA 水平、主要治疗、癌症病史、既往前列腺相关医疗事件、各种合并症,如中风、心脏病发作、骨质疏松症,以及生活方式属性,即吸烟习惯或社会参与。用于模型训练的广泛功能列表可以在附录中找到。
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
图1. 从 PLCO 试验队列中选定的统计数据考虑用于 PCa 死亡率预测。
https://doi.org/10.1371/journal.pdig.0000801.g001
2.3. 认识不确定性估计和深度学习
在安全关键型应用中,我们需要对预测不确定性进行实例量化,而不是群体水平的测量。在机器学习的背景下,我们区分了预测不确定性的两个来源[21,22,59]):
偶然的不确定性。
偶然性、随机性或数据不确定性源于观测中固有的随机性。给定特定的特征集,偶然的不确定性不能通过收集更多数据点来减少,因为它反映了由未观察到的潜在因素驱动的底层数据生成过程中的基本变异性。在基于ML的分类中,在优化最大似然时,异方差偶然不确定性通常由软最大似然捕获[60]。在回归中,可以通过显式预测所选参数输出分布的离散参数[59]或采用分位数回归[61]等无参数技术来捕获偶然不确定性。
认识论不确定性。
认识或知识的不确定性反映了对真实功能的有限了解。它是由于数据不足或模型假设不充分而产生的。Hüllermeier 等人。[23] 将认识不确定性划分为模型不确定性和近似不确定性。当所选模型的假设空间无法完全表示真正的功能后验时,就会出现模型不确定性。经典的机器学习算法嵌入了强烈的归纳偏差——对学习函数形式的限制性假设——缩小了这一假设空间[23,62]。例如,决策树及其集成(随机森林、梯度提升)产生分段常数或分段线性映射;线性回归、逻辑回归和多项式回归施加特定的代数关系;天真的贝叶斯假设了特征方面的条件独立性;最近邻方法、支持向量机和高斯过程依赖于在输入空间上的局部性或核定义的相似性度量,这些相似性测量在高维设置中会退化。这些嵌入的偏差系统地排除了真实后验的大面积区域,导致模型不确定性被掩盖并导致对认识不确定性的低估。因此,为了实现忠实的认识不确定性量化,必须通过采用更具表现力的假设类来最大限度地减少模型不确定性。因此,深度神经网络是首选模型,因为当足够宽和深时,它们可以将任何连续函数近似到任意精度,从而产生高度表现力的假设空间[23]。这种能力使得真实后验的相关函数可能驻留在网络的假设类中或被很好地近似,从而有效地最大限度地减少了模型的不确定性。因此,采用这种通用函数近似器是可信的认识不确定性估计的先决条件。为此,Kendall和Gal [59]强调,正是因为传统模型缺乏灵活性,所以在计算机视觉等领域很难捕捉认识不确定性,但贝叶斯深度学习现在使之成为可能。由于具有足够表现力的深度神经网络作为通用函数近似器,模型不确定性通常被认为可以忽略不计,可以安全地忽略不计[23]。近似不确定性是认识不确定性的第二个组成部分,它量化了我们对在给定有限数据集的情况下,在众多适合观测数据的函数中哪个函数是“真实”函数的无知。近似不确定性是由有限的数据和在其他方面足够表达的模型中的不完美推理引起的。在训练数据覆盖较差的输入空间区域中,它最大,原则上,随着收集更具代表性的数据,它会减小。
2.4. 认识不确定性估计方法
已经提出了多种方法来估计认识不确定性或标记分布外 (OOD) 和异常输入,但它们的基本原理和可靠性差异很大。
基于启发式、距离和密度的方法。
经典密度估计器(如高斯混合模型或核密度估计)和深度生成模型(如变分自动编码器[63]和归一化流[64])试图学习训练数据分布,并使用由此产生的似然作为置信度的代理。基于距离的方案(例如,深k最近邻[65]或Mahalanobis距离检测器[66])将新输入与训练集中存储的表示进行比较。基于流形的技术——包括单类分类器[67]、开集识别[68]和拓扑方法,如莫尔斯网络[69]——学习对数据的潜在支持,并测试其中是否存在新样本。然而,除了概率生成模型(例如 VAE 和归一化流)之外,所有这些方法都依赖于从每个输入到单个置信度或异常分数的确定性映射,仅提供不确定性的点估计,这仍然可能对 OOD 输入过于自信。事实上,即使是深度生成模型也被证明可以为看不见的数据点分配高可能性,无法可靠地将分布内数据与OOD样本区分开来[43]。
近似贝叶斯推理。
认识不确定性量化最有原则的方法是近似功能后验分布,并从后验预测的离散中得出不确定性。两个部分重叠的方法类实现了这一点:
基于粒子的方法生成多个后验样本。马尔可夫链蒙特卡洛(MCMC)[70\u201272]在理论上是精确的,但对于深度模型来说通常是棘手的。更具可扩展性的替代方案包括独立的深度系综[73\u201274]和联合训练的方法,如蒙特卡洛辍学[75]、批量系综[76]和斯坦因变分梯度下降(SVGD)[77\u201279]。原则上,基于粒子的方法通过从多个后验模式采样来执行贝叶斯模型平均值。然而,在实践中,可扩展的集成经常崩溃,成员会汇聚到非常相似的解决方案中。独立训练的集合缺乏任何明确的机制来鼓励探索不同的功能。因此,任何残差多样性都仅源于随机初始化、随机优化、数据子采样或模型架构的变化。最近的工作[80]表明,由于其极高的灵活性,高容量神经网络通常会收敛到非常相似的解决方案,这使得保持集合多样性和避免崩溃变得困难。这一发现凸显了在深度集合中生成真正多样化的预测本质上具有挑战性。即使是复杂的、联合训练的粒子方法,如SVGD,当它们的排斥力在重量空间中施加时,也会向相同的后方模式坍缩[81,82]。
变分推断[83]和拉普拉斯近似[84]都引入了一个可处理的权重分布族来近似真正的后验。变分方法优化所选分布族的证据下界 (ELBO),而拉普拉斯近似通过对其 MAP 估计值的后验对数进行二阶泰勒展开来拟合局部高斯。Backprop的Bayes[85]是一种著名的变分技术,它使用反向传播来学习贝叶斯神经网络中的权重后验。为了实现可扩展性,通常采用均值场先验(例如分解高斯先验),但它们已被证明低估了分离良好的数据区域之间的后验方差[40]。均值场先验的另一个明显挑战是 ELBO 在似然拟合和 KL 正则化之间的固有权衡:如果对先验的权重过重,则模型拟合不足;如果太弱,后验会变得过于自信,低估了认识论的不确定性[41]。为了保持易处理性,拉普拉斯近似也采用了限制性先验——通常对权重进行因式分解的高斯分布——这限制了它们捕获复杂后验结构的能力[84]。由于拉普拉斯后验以单一模态为中心,因此它不能表示多个分离良好的模态,因此可能严重低估了合理假设的数量[42]。这些缺点反映了平均场变分推理的缺点:这两种方法都过度约束了后验,导致过度自信的预测和低估的认识不确定性。这些发现表明,尽管它们在理论上具有近似后验的能力,但基于粒子和变分的方法——当局限于权重空间并且缺乏明确的函数先验时——往往无法探索所有合理的函数,因为许多不同的权重配置可以产生几乎相同的映射。
当传统的权重空间方法存在不足时,贝叶斯深度学习的最新研究已转向具有显式先验于函数的近似值,从而鼓励更丰富的合理映射多样性。通过在函数空间中使用函数先验 (VI) 或粒子相互作用,它们可以强制执行距离感知方差等属性。例如,功能贝叶斯神经网络[86\u201287]通过辅助损失来增强标准权重先验,该损耗使诱导函数分布与目标高斯过程先验保持一致。深度高斯过程[88,89]堆叠GP层,以在完全贝叶斯处理下捕获复杂的分层表示。光谱归一化神经高斯过程(SNGP)[90]将GP输出层与隐权重上的光谱归一化相结合,保留了神经网络的可扩展性,同时为模型提供了类似GP的不确定性保证。除此之外,最近的扩展将函数空间先验应用于拉普拉斯近似[91],或在斯坦因变分梯度下降[82]的函数空间中引入排斥相互作用,确保集成成员探索真正不同的函数。总的来说,这些泛函先验方法通过直接正则化预测函数的空间来提供更忠实的认识不确定性估计。
在这项工作中,我们采用近似贝叶斯深度学习作为实例认识不确定性估计的原则框架。我们评估了两种权重空间先验方法——神经网络集成 (ENN) 作为一种基于粒子的方法,以及贝叶斯神经网络 (BNN) 作为基于 VI 的技术,具有因式分解高斯权重先验。我们将这些隐式函数先验方法与频谱归一化神经高斯过程 (SNGP) 进行了比较,后者直接在函数空间中施加显式的、距离感知的先验。
2.5. 贝叶斯均值回归和不确定性
设 为 i.i.d.(独立且相同分布)的训练数据,设 x 表示测试输入和相应的模型输出。对于先验编码局部相关性和远距离独立性的预测模型,例如,具有距离衰减核的高斯过程,每当观测值在核的有效支持范围内没有有关目标变量的信息时,x 处的后验预测将恢复为先验预测,即 。因此,后验预测均值满足 。**
为了演示,考虑一个模型,其隐式先验函数是具有均值和距离衰减核的高斯过程(例如 RBF 或 Matérn)。对于任何子集,定义 、 和 。现在考虑 x 及其补码 的训练数据局部子集,选择半径 r 以便 和 。作为 i.i.d. 的结果,我们可以分解似然,潜在的后验变成*
(1)
在式 (1) 中,分别表示局部和外部训练数据子集的似然。现在考虑以下两种极端不确定性制度:
高认识不确定性:如果没有训练数据位于 x 的半径 r 内,则局部似然为*
高偶然不确定性:如果 x 周围的局部观测值完全噪声/模糊,则输出 y*我在统计上与 f 无关我.等效,或
在两个不确定性极端情况下,局部似然项都坍缩为常数。然后,关节潜伏后部简化为
(2)
接下来,让我们证明 的可能性贡献也不会影响 x 处的后验预测分布。在我们的内核假设下,*
(3)
所以联合先验分解为
(4)
因此,后验预测变成
(5)
因此,在高度认识或偶然不确定性的制度中,预测分布恢复到先前的预测。这些考虑因素适用于这项工作中考虑的深度学习模型(BNN、ENN和SNGP)以及许多其他常见的贝叶斯神经网络方法,包括MC辍学、拉普拉斯近似和DeepGP,因为它们可以理解为明确定义或至少在理论上(在某些假设下)隐式近似模型函数之前的高斯过程[75,84,92–94]。然而,近似贝叶斯方法在实践中实现其理想高斯过程行为的程度在很大程度上取决于近似的质量、优化动力学的具体情况以及所选的超参数设置[40,74,85,95,96]。
2.6. logit 空间中的样本不确定性测量
我们直接在 logit 空间中考虑不确定性的度量,即在对概率应用任何变换之前在模型输出上。通过使用logits进行作,我们的目标是将不确定性与平均预测和先验类频率解耦。我们故意避免在概率空间中使用信息论度量,如香农熵或互信息,它们在 p = 0.5 处达到峰值,并量化结果的不确定性,而不是预测本身的不确定性。尽管所考虑的不确定性度量并不新鲜,但我们想通过贝叶斯定理来证明它们如何直接遵循贝叶斯原理:
(6)
在二元分类 () 中,贝叶斯因子(两种可能结果的可能性之比)为
(7)
其中表示先验对数赔率和后验对数赔率。对于具有单个输出的模型,;对于具有二进制输出的模型,其中 f 表示模型函数。在 i.i.d. 和 下,是根据训练集的类频率估计的,不确定性可以忽略不计。设 with 是从模型的近似后验中提取的预测函数的集合 - 例如,神经网络 (ENN) 的集合或来自贝叶斯神经网络 (BNN) 的采样函数。我们将证据强度 (ES) 定义为,它量化了支持一个假设相对于另一个假设的证据强度,如下所示:
(8)
ES 对称地处理任一假设的证据,并测量贝叶斯因子偏离中性的程度 (K = 1)。给定均值回归(见第 2.5 节),ES 作为总不确定性的度量(偶然 + 认识)。为了提高可解释性和可视化目的,我们将严格单调变换应用于 [0,1],结果
(9)
其中 k 是某个预定义的衰减率。该度量现在限制在 1(最大不确定性,当证据同样支持两个假设或根本没有证据时;K = 1) 和 0(最小不确定性,当一个假设有压倒性证据时,或 )。
为了测量认识不确定性,我们考虑预测离散,即预测后验分布的总体分布或宽度。这种函数离散捕获了给定预测的证据支持的局部稀疏性,并揭示了与观察到的数据一致的合理模型输出范围,反映了模型的知识如何因输入而变化。我们利用后验对数赔率的方差如下:
(10)
该公式再次采用指数衰减变换来实现可解释性,对于无限宽的功能后后产生最大认识不确定性为 1,对于 delta 分布的后后产生最小认识不确定性为 0。请注意,由于 SNGP 在潜在函数上提供了封闭形式的高斯后验,因此我们可以避免后验抽样并使用潜在均值和方差来计算我们的不确定性度量。
2.7. 模型训练
模型(BNN、ENN 和 SNGP)针对二元分类任务进行了优化,以预测初次治疗后与前列腺癌相关的死亡率。所有模型均使用Adam优化器[97]以监督方式进行训练。数据集中的缺失条目通过分类变量的单热编码和连续变量的辅助缺失值标志来解决。使用分层抽样对数据集进行交叉验证,创建具有目标变量守恒频率的六倍 4:1:1 训练、验证和测试子集。实施了提前停止[98],评估了保留验证集上的损失函数。所有模型都由多个具有点权重(ENN、SNGP)或径向分布权重(BNN)的全连接层组成[99]。SNGP通过光谱归一化增强其残差层,并使用随机傅里叶特征近似实现高斯过程输出头。ENN和SNGP以交叉熵损失为训练目标,而BNN则以最大化ELBO(见附录)。为了确保足够的统计功效,对于 ENN,我们为 SNGP 采用了 500 个神经网络和 4096 个随机傅里叶特征。所有集成成员共享相同的架构,但通过使用凯明均匀分布生成的唯一参数初始化来区分[100]。对模型架构、参数初始化方案和优化超参数进行了广泛的网格搜索。
3. 结果
在这项研究中,我们评估了不同的近似贝叶斯深度学习方法在临床预后环境中量化实例认识不确定性的能力。我们的模型(BNN、ENN 和 SNGP)产生的实例不确定性估计的质量在 PLCO PCa 死亡率预测任务上使用六重交叉验证进行了评估(详见第 2.7 节)。如表1所示,所有三种方法都实现了几乎相同的判别性能,通过接收者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)测量,以及通过预期校准误差(ECE)测量的等效校准,校准曲线在图2中紧密重叠。因此,在总体水平上,每个模型都会产生经过良好校准、非过度自信的风险估计。
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
图2. 在所选 PLCO 队列上交叉验证中所考虑的近似贝叶斯深度学习模型的校准曲线。
https://doi.org/10.1371/journal.pdig.0000801.g002
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
表 1. PCa 死亡率分层性能和所考虑的近似贝叶斯深度学习模型的校准,在所选 PLCO 队列的交叉验证中测量,以受试者工作特征曲线下面积(AUROC,越高越好)、精度召回曲线下面积(AUPRC,越高越好)和预期校准误差(ECE,越低越好)。
https://doi.org/10.1371/journal.pdig.0000801.t001
接下来,我们询问这种全局校准是否会延续到每个样本的认识不确定性。图3(A)–3(C)报告了在滑动窗口子集(窗口大小=数据的三分之一,步幅=1)上计算的分层负对数似然(NLL),按我们的总不确定性度量(,式(9))进行排名。对于所有模型,使用 Spearman-) 可靠地识别 NLL 较差的子集,证实总不确定性测量有效地对预测性能进行了分层。然而,当我们试图分离认识不确定性(,式(10))时,只有SNGP的估计值与NLL呈正相关,而BNN和ENN则显示出相反的趋势,对于被认为“认识论上更不确定”的样本,预测准确性实际上有所提高。为了理解这种违反直觉的行为,我们根据预测概率绘制了图[图3(D)–3(F)]。BNN 和 ENN 都经常将高认识不确定性分配给极端概率(接近 0 或 1),将较低的不确定性分配给中间范围——这与自信预测(远离先验频率)应该表现出低认识不确定性的概念直接矛盾。相比之下,SNGP 没有显示此类伪影,其估计很好地对预测性能进行了分层,这表明,在所考虑的三个模型中,它单独捕获了与训练数据支持不佳的区域相关的真正不确定性。
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
图3. 通过不确定性测量对预测性能进行分层。
返回页首:在交叉验证的 PLCO 队列子集上计算负对数似然(NLL,越低越好),每个近似贝叶斯深度学习模型按不确定性排名(排名越高 = 不确定性越高)排序;蓝色曲线表示认识不确定性(式(10)),橙色曲线表示总不确定性(式(9))。插图表报告了最低和最高不确定性子集之间总 NLL 的差异,以及 Spearman 秩相关系数。底:认识不确定性(方程(10))与预测的PCa死亡率(PCa相关死亡概率)作图。
https://doi.org/10.1371/journal.pdig.0000801.g003
由于PLCO数据中的相关数据稀疏性和类重叠模式可能会混淆这些观测值,因此我们构建了一个受控的二维二元分类玩具数据集,其真实类频率沿一个输入轴线性变化,而数据点密度沿另一个输入轴变化[图4(A)]。在这个数据集中,我们特意使目标频率在统计上与数据密度无关,从而将认识不确定性与基本事实中的偶然不确定性完全分开。我们根据该数据分布训练每个模型,然后在类似的分布上进行评估,但在整个输入域中具有统一的数据密度[图4(B)]。我们期望理想的贝叶斯预测变量“均值回归”(见第2.5节),即将不确定的预测推向前一个0.5,从而产生图4(C)中的示意图。在实践中[图4(D)–4(F)),只有SNGP表现出明显的均值回归,而BNN和ENN再次颠倒了这种模式,在极端预测概率下达到峰值。
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
图4. 玩具数据的认识不确定性测量(公式(10))。
(A) 训练数据:类概率沿 x 线性变化0,数据密度沿 x 线性变化1.(B)检验数据:类概率沿x线性变化0,具有均匀的数据密度。(C)认识不确定性与预测概率的预期示意性散点图,说明贝叶斯均值回归(第2.5节)。(D-F)考虑的每个近似贝叶斯深度学习模型的认识不确定性与预测概率的散点图。
https://doi.org/10.1371/journal.pdig.0000801.g004
最后,我们评估了每个模型的认识不确定性如何与数据密度与偶然噪声保持一致。理想情况下,在数据稀疏且不受偶然变异性影响的情况下,认识不确定性会上升。在图5(A)–5(C)中,SNGP与局部数据密度密切相关(数据稀疏时不确定性较高),而BNN和ENN的密度依赖性要弱得多。相反,图5(D)–5(F)显示,BNN和ENN与标签噪声(偶然不确定性)密切相关,而SNGP基本上仍然不敏感。换句话说,BNN和ENN混淆了偶然不确定性和认识不确定性——解释了它们在图3(A)和图3(B)中预测性能的倒置分层:按其认识不确定性估计进行排名最终通过数据噪声对样本进行分层。只有 SNGP 与玩具数据上的数据密度的高度一致性(以及它与偶然噪声的独立性)表明,其认识不确定性估计真正基于数据支持对预测性能进行了分层。换句话说,SNGP 真正衡量了它为每个样本看到的证据量。
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
图5. 认识不确定性测量(等式(10))与玩具数据的数据特征。
(A-C)根据所考虑的每个近似贝叶斯深度学习模型的数据密度绘制的认识不确定性。(D-F)考虑的每个近似贝叶斯深度学习模型的认识不确定性与标签噪声。每个面板都包括 Spearman 的等级相关系数。
https://doi.org/10.1371/journal.pdig.0000801.g005
4. 讨论
在人群水平指标中,所有三个模型在基于PLCO的PCa死亡率预测任务中都表现出几乎无法区分的判别性能和近乎完美的概率校准(表1和图2)。由于训练过程中采用的交叉熵损失是一个严格正确的评分规则,因此(在预期中)对其进行优化可以保证对偶然噪声的校准[101]。因此,任何剩余的错误校准基本上都必须源于认识论的不确定性。事实上,先前的研究表明,深度网络中的误校准是由基于模型的因素而不是数据噪声驱动的[16],并且当认识不确定性增加时,校准会在分布偏移下退化[102]。因此,人们可以推断,鉴于出色的种群水平校准,我们的数据集几乎没有认识风险。然而,当我们通过SNGP模型的每个样本的认识不确定性估计对预测性能进行分层时,我们发现了具有大量认识不确定性的案例,这些病例仍然隐藏在聚合校准中。这表明,强整体校准并不能保证单个预测的低认识风险,这强调了高保真、实例不确定性估计的重要性。
虽然在排除认识论上不确定的预测后,SNGP 的准确性有所提高,但 BNN 和 ENN 都未能显示出这种好处——事实上,它们的性能恶化了——促使我们更仔细地研究它们的不确定性估计。我们发现两种模型的认识不确定性估计都存在明显的偏差。在 PLCO 任务和我们的玩具数据集中,功能离散度量显示,具有极端预测概率(或 1)的输入的变异性比具有更中等概率的输入的变异性要大得多。在消除特定于数据集的伪影的受控玩具实验中,这种偏差不仅持续存在,而且变得更加明显。我们假设,在 BNN 和 ENN 中,函数方差估计都与偶然不确定性纠缠在一起,因为 sigmoid/softmax 链接函数与交叉熵损失相结合决定了损失表面的局部曲率。例如,在拉普拉斯式(二阶)近似并忽略正则化效应的情况下,logit 方差缩放为
(11)
概率极值处的 logits 显示人为夸大的方差,因为这些区域的扰动产生的损失变化最小。相反,对于接近先验的对数(例如,在我们的玩具示例中),损失函数对变化高度敏感。换句话说,塑造损失面的非线性迫使 logit-space 方差反映数据固有噪声,将认识估计与偶然不确定性纠缠在一起。切换到概率-空间色散(使用信息论度量)并不能解决这个问题,因为概率-空间梯度同样在尾部消失。因此,对于 BNN 和 ENN,logit-和概率空间离散都不能提供认识不确定性的无偏估计。相反,这些测量与偶然噪声密切相关,这与先前的研究结果相呼应,即许多所谓的认识分数被数据固有的变异性所混淆[103,104]。虽然 BNN 和 ENN 认识估计都与偶然的不确定性纠缠在一起,但它们与局部数据密度的相关性很弱,这表明对功能模糊性的根本错误估计。在ENN中,独立训练的成员未能在分布外输入上充分多样化,从而阻碍了对功能性后验的充分探索[77]。林登迈尔等人。[105]证明,ReLU激活的网络有效地充当分段线性插值器,依赖于相邻数据点之间的简单线性插值。分解变分方法(包括我们的BNN和拉普拉斯变体)在跨数据间隙插值时表现出相同的局限性[106]。此外,作为预测变量的非合作集合,ENN 缺乏任何机制(例如贝叶斯均值回归)将不确定的预测拉回先前的预期。即使成员函数在稀疏区域中发散,集合均值仍受边界趋势控制。同样,尽管BNN强加了权重空间先验,但这些先验并不会对先验信念强制执行功能外推行为[86]。尽管这些功能先验可以在 BNN 和 ENN 的初始化时进行编码,但基于梯度的训练不能保证它们会通过优化得到保留。结果,ENN 和 BNN 都无法准确地近似真正的功能后验——不仅破坏了我们的总不确定性测量。虽然成功地对性能进行了分层[图3(A)和图3(B)],但它基本上仅由偶然方差主导。
在 SNGP 中,logit-space 方差来自 GP 预测方差(由特征表示的距离感知核驱动)而不是损失曲率,因此其函数方差估计仅取决于与训练数据的接近程度,并且与偶然噪声无关。事实上,我们观察到SNGP的泛函方差估计与局部数据密度密切相关,并且与偶然噪声保持解耦。这种行为是意料之中的,因为高斯过程后验方差仅取决于协方差结构,而不取决于学习的均值函数。通过将深度表示学习与高斯过程式贝叶斯近似相结合,SNGP显式编码距离感知先验并强制均值回归[90],这共同促进了对功能后验的探索。因此,尽管所有模型都实现了相似的人群水平指标,但 SNGP 在临床决策支持方面的认识风险远低于 BNN 或 ENN。这些观察结果与先前的工作一致,表明与缺乏保证功能变异性的方法相比,更丰富的后验近似和明确的、对距离敏感的函数先验产生明显更好的认识不确定性估计[54,55,90]。
.
影响。
这项研究对数据驱动的 CDS 系统和协作临床决策具有重大意义。在临床决策支持等安全关键领域,自动化必须在不放弃人工监督的情况下减轻日常负担。因此,特定样本的认识不确定性估计至关重要:通过在每个案例的基础上透明地传达模型的知识边界,我们使临床医生能够识别何时信任自动预测以及何时咨询他们自己或其他专业知识。同样在集成或模块化人工智能系统(例如,数字孪生或专家主干语言模型)中,准确的、每个组件的认识置信度分数可确保每个模块仅在最可靠的地方做出贡献。具有隐式先验的近似贝叶斯方法(例如,标准 BNN 和 ENN)不能保证其认识不确定性分数忠实地反映证据支持。具有明确的、距离感知功能先验的方法(例如在 SNGP 中)提供了仅取决于训练数据的接近程度的认识不确定性估计,并有望增加对功能后验的探索。如果没有高质量的、每个样本的认识不确定性估计,从业者就无法可靠地区分可信的建议和虚假的建议——破坏信任,冒着伤害患者的风险,并迫使对低风险病例进行不必要的审查。相反,强大的不确定性量化使临床医生能够自信地对低风险预测采取行动,同时将他们的专业知识集中在真正不确定的病例上,从而优化个性化、数据驱动的医疗的安全性和效率。然而,现有的监管框架和特定于人工智能的指南并不能充分支持这种基于信任的协作愿景。医疗器械法规和人工智能标准仅要求人群水平的校准、鉴别和临床有效性[18\u201220],正如我们的结果所示,这些指标可能会产生误导,并且无法保证可靠的个体预测。为了弥合这一差距,应扩大监管基准,包括对样本不确定性量化的严格评估,确保临床决策支持系统满足现实世界安全关键型部署的需求。
明确区分偶然不确定性和认识不确定性至关重要,因为它们对决策具有根本不同的影响。偶然的不确定性反映了固有的数据噪音或相互矛盾的证据——额外的审查很少改变结果的情况——而认识论的不确定性则表明对特定案例真正缺乏了解,这使得人类的判断不可或缺。因此,在实践中,临床决策支持 CDS 工具应呈现解耦的认识不确定性分数及其预后概率(例如,通过数字分数或简单的“红绿灯”阈值)。给定包含贝叶斯均值回归(第 2.5 节)的模型,例如 SNGP,仅这两个输出就足以传达预测及其背后的证据支持程度。应用于 PCa 死亡率预测,这可能如下所示:
高置信度(或 1,低):模型的预测得到了很好的支持;临床医生和患者可以直接使用它来指导有关 PCa 治疗积极性的决策。
认识不确定性(,高):患者位于模型经验之外;在这里,临床医生在决定 PCa 干预之前应依赖他们的专业知识或寻求更多数据。
偶然性模糊性(低):已知有许多类似病例,但结局存在分歧——综述几乎没有增加价值,不幸的是,没有出现明确的PCa治疗推荐。
当然,许多现实世界的案例介于这些极端之间,表现出混合程度的偶然和认识不确定性,需要细致入微的解释。通过将人工审查重点放在认识上最不确定的案例上,同时安全地允许对高置信度案例进行更多自动化,我们既提高了效率,又确保专家判断应用于最重要的地方。
局限性。
有几个限制值得考虑。首先,我们的实验仅限于 BNN、ENN 和 SNGP 的特定架构、先前规范和训练协议。尽管我们进行了广泛的超参数搜索,但我们的结果仍然是证据性的,而不是确定的,并且我们不声称对近似贝叶斯方法进行结论性排名。其次,与之前的工作一致,我们观察到,与隐式先验方法(BNN、ENN)相比,显式、距离感知方法(如 SNGP)提供了卓越的认识不确定性保真度,并且这两组之间的差异超过了每组内看到的变异性。然而,由于我们只测试了一组有限的代表性模型,我们不能声称这一发现具有普遍的结论性。我们的目标是使用一系列众所周知且有前途的技术来说明实例不确定性指标相对于总体水平测量的优势,以及保证后验属性对认识保真度的好处。我们并不否认 BNN 或 ENN 产生准确不确定性估计的潜力,但我们强调了在没有明确机制的情况下在数据稀疏区域强制执行功能先验的固有挑战。最后,我们的分析仅限于单个真实世界的预后任务(PCa 死亡率)和受控的合成数据集;未来的工作应评估对其他领域和架构的推广。
5. 结论
在这项工作中,我们已经证明,尽管总体水平的准确性和校准具有可比性,但常见的近似贝叶斯深度学习方法(神经网络集成和因式分解权重先验贝叶斯神经网络)无法提供可靠的、每例的认识不确定性估计。他们的功能方差测量因损失曲率而系统地产生偏差,将认识风险与偶然噪声混为一谈,并忽略了模型真正缺乏证据的区域。相比之下,谱归一化神经高斯过程强制执行显式、距离感知的函数先验和均值回归,恢复与数据稀疏性紧密一致的不确定性估计,并与随机噪声保持解耦。这些发现对安全关键型临床决策支持具有重要意义。准确的、按实例的认识不确定性量化对于指导人类与人工智能的协作至关重要,使临床医生能够在证据有力时信任预测,并在模型知识有限时进行干预。当前的监管标准侧重于聚合指标,并不能保证这种粒度的可靠性。因此,我们主张将样本不确定性基准纳入基于人工智能的医疗器械评估中,并优先考虑具有明确功能先验的架构,以便在临床环境中部署。展望未来,这些结果将激发对泛函先验方法(例如深度高斯过程、泛函贝叶斯神经网络和其他混合架构)的进一步探索,以确保在广泛的医疗应用中进行可信的不确定性通信。通过将丰富的后验近似值与透明的每例置信度分数相结合,我们可以使从业者能够充分利用数据驱动决策支持的潜力,同时保障患者安全。
6. 附录
6.1. 功能集
见表2。
缩略图下载:
PPT的PowerPoint 幻灯片
巴布亚新几内亚大图
蒂夫原图
表 2. 从 PLCO 前列腺数据集中选定的特征,用于 PC 死亡率预测。
https://doi.org/10.1371/journal.pdig.0000801.t002
确认
作者感谢美国国家癌症研究所获取 NCI 通过前列腺癌、肺癌、结直肠癌和卵巢癌 (PLCO) 癌症筛查试验收集的数据。
引用
1.达文波特 T,卡拉科他 R.人工智能在医疗保健领域的潜力。未来健康杂志 2019 年;6(2):94–8.PMID:31363513
查看文章考研/NCBI谷歌学术
2.Sitapati A、Kim H、Berkovich B、Marmor R、Singh S、El-Kareh R 等。综合精准医疗:电子健康记录在提供个性化治疗中的作用。Wiley Interdiscip Rev Syst Biol Med. 2017 年;9(3):10.1002/wsbm.1378。PMID:28207198
查看文章考研/NCBI谷歌学术
3.Jensen PB、Jensen LJ、Brunak S. 挖掘电子健康记录:实现更好的研究应用和临床护理。纳特牧师热内特。2012;13(6):395–405.PMID:22549152
查看文章考研/NCBI谷歌学术
4.医学和心脏成像中的人工智能:利用大数据和先进计算提供个性化的医疗诊断和治疗。Curr Cardiol Rep. 2014 年;16(1):441.PMID:24338557
查看文章考研/NCBI谷歌学术
5.Shi F、Wang J、Shi J、Wu Z、Wang Q、Tang Z 等。回顾 COVID-19 成像数据采集、分割和诊断中的人工智能技术。IEEE Rev Biomed Eng. 2021;14:4–15.PMID:32305937
查看文章考研/NCBI谷歌学术
6.宾夕法尼亚州基恩,白杨 EJ。着眼于人工智能和自主诊断。NPJ 数字医学 2018;1:40。PMID:31304321
查看文章考研/NCBI谷歌学术
7.张 K、刘 X、沈 J、李 Z、桑 Y、吴 X 等。临床适用的人工智能系统,用于使用计算机断层扫描准确诊断、定量测量和预后 COVID-19 肺炎。细胞。2020;181(6):1423-1433.e11。PMID:32416069
查看文章考研/NCBI谷歌学术
8.Walsh S、de Jong EEC、van Timmeren JE、Ibrahim A、Compter I、Peerlings J 等。肿瘤学中的决策支持系统。JCO 临床癌症信息。2019;3:1–9.PMID:30730766
查看文章考研/NCBI谷歌学术
9.Tran WT、Jerzak K、Lu FI、Klein J、Tabbarah S、Lagree A 等。在放射组学和病理组学中使用人工智能进行个性化乳腺癌治疗。J Med 成像辐射科学 2019;50(4 增刊 2):S32–41。PMID:31447230
查看文章考研/NCBI谷歌学术
10.van Wijk Y、Halilaj I、van Limbergen E、Walsh S、Lutgens L、Lambin P 等。前列腺癌治疗中的决策支持系统:概述。生物医学研究国际 2019;2019:4961768.PMID:31281840
查看文章考研/NCBI谷歌学术
11.Sanda MG、Cadeddu JA、Kirkby E、Chen RC、Crispino T、Fontanarosa J 等。临床局限性前列腺癌:AUA/ASTRO/SUO 指南。第一部分:风险分层、共同决策和护理选择。J Urol. 2018;199(3):683–90.PMID:29203269
查看文章考研/NCBI谷歌学术
12.罗德里格斯 G、沃德 P、皮克尔斯 T、克鲁克 J、布伦戴奇 M、苏哈米 L 等。前列腺癌患者的治疗前风险分层:一项批判性综述。Can Urol Assoc J. 2012 年;6(2):121–7.PMID:22511420
查看文章考研/NCBI谷歌学术
13.曾 KS、兰迪斯 P、爱泼斯坦 JI、特罗克 BJ、卡特 HB。选择低风险前列腺癌监测的男性的风险分层。J Urol. 2010;183(5):1779–85.
查看文章谷歌学术
14.Varghese J. 医学中的人工智能:广泛临床采用的机会和挑战。Visc Med. 2020 年;36(6):443–9.PMID:33442551
查看文章考研/NCBI谷歌学术
15.吉尔 F、乔宾 A、伊恩卡 M.当我们谈论信任时,我们谈论什么:医疗保健中人工智能的信任理论。基于智能的医学 2020 年;1–2:100001.
查看文章谷歌学术
16.郭C,Pleiss G,孙Y,温伯格KQ。现代神经网络的标定.第 34 届国际机器学习会议论文集 - 第 70 卷,ICML'17。澳大利亚新南威尔士州悉尼:JMLR.org,2017 年,第 1321-1330 页。https://doi.org/10.5555/3305381.3305518。
17.Amodei D、Olah C、Steinhardt J、Christiano P、Schulman J、Mané D. 人工智能安全中的具体问题。arXiv 预印本 2016。https://arxiv.org/abs/1606.06565
查看文章谷歌学术
18.欧洲议会和欧盟理事会。欧洲议会和理事会关于医疗器械的法规 (EU) 2017/745。欧盟官方公报;2017.
19.美国食品和药物管理局、FDA、国际医疗器械监管机构论坛、IMDRF。软件即医疗器械 (SaMD):临床评估 - 行业和食品和药物管理局工作人员指南。美国卫生与公众服务部、食品和药物管理局、设备和放射健康中心;2017.
20.美国食品和药物管理局 FDA。支持人工智能 (AI) 的医疗设备的评估方法:性能评估和不确定性量化。2024.
21.Vaicenavicius J, Widmann D, Andersson C, Lindsten F, Roll J, Schön T. 评估分类中的模型校准。见:第二十二届人工智能与统计国际会议论文集。2019. 第 3459-67 页。
22.Abdar M、Pourpanah F、Hussain S、Rezazadegan D、Liu L、Ghavamzadeh M 等。深度学习中的不确定性量化综述:技术、应用和挑战。Inf 融合。2021;76:243–97.
查看文章谷歌学术
23.Hüllermeier E, Waegeman W. 机器学习中的偶然和认识不确定性:概念和方法简介。马赫学习。2021;110(3):457–506.
查看文章谷歌学术
24.洛夫特斯 TJ、希克尔 B、鲁珀特 MM、巴尔奇 JA、奥兹拉兹加特-巴斯兰蒂 T、蒂格 PJ 等。医疗保健中的不确定性感知深度学习:范围界定综述。PLOS 数字健康。2022;1(8):e0000085。PMID:36590140
查看文章考研/NCBI谷歌学术
25.Leibig C, Allken V, Ayhan MS, Berens P, Wahl S. 利用来自深度神经网络的不确定性信息进行疾病检测。科学代表 2017 年;7(1):17816.PMID:29259224
查看文章考研/NCBI谷歌学术
26.Ayhan MS、Kühlewein L、Aliyeva G、Inhoffen W、Ziemssen F、Berens P. 经过专家验证的糖尿病视网膜病变检测中深度神经网络诊断不确定性的估计。医学图像肛门 2020;64:101724。PMID:32497870
查看文章考研/NCBI谷歌学术
27.Cao X, Chen H, Li Y, Peng Y, Wang S, Cheng L. 半监督 ABUS 质量分割的不确定性感知时间集成模型。IEEE TransMed 成像。2021;40(1):431–43.PMID:33021936
查看文章考研/NCBI谷歌学术
28.Edupuganti V、Mardani M、Vasanawala S、Pauly J. 深度 MRI 重建的不确定性量化。IEEE TransMed 成像。2021;40(1):239–50.PMID:32956045
查看文章考研/NCBI谷歌学术
29.Herzog L, Murina E, Dürr O, Wegener S, Sick B. 在深度神经网络中整合不确定性以进行基于 MRI 的中风分析。医学图像肛门 2020;65:101790。PMID:32801096
查看文章考研/NCBI谷歌学术
30.胡 X、郭 R、陈 J、李 H、Waldmannstetter D、赵 Y 等。CT/PET 图像中 NK/T 细胞淋巴瘤分割的粗到细对抗网络和基于区域的不确定性分析。IEEE J 生物医学健康信息。2020;24(9):2599–608.PMID:32054593
查看文章考研/NCBI谷歌学术
31.Nair T、Precup D、Arnold DL、Arbel T. 探索深度网络中用于多发性硬化症病变检测和分割的不确定性测量。医学图像肛门 2020;59:101557。PMID:31677438
查看文章考研/NCBI谷歌学术
32.Qin Y, Liu Z, Liu C, Li Y, Zeng X, Ye C. 具有不确定性量化的超分辨率 q 空间深度学习。医学图像肛门 2021;67:101885。PMID:33227600
查看文章考研/NCBI谷歌学术
33.Seebock P、Orlando JI、Schlegl T、Waldstein SM、Bogunovic H、Klimscha S 等。利用解剖分割的认识不确定性进行视网膜 OCT 异常检测。IEEE Trans Med 成像。2020;39(1):87–98.PMID:31170065
查看文章考研/NCBI谷歌学术
34.Tanno R、Worrall DE、Kaden E、Ghosh A、Grussu F、Bizzi A 等。深度学习中的不确定性建模以增强更安全的神经图像:弥散 MRI 中的演示。神经影像。2021;225:117366.PMID:33039617
查看文章考研/NCBI谷歌学术
35.Wang X, Tang F, Chen H, Luo L, Tang Z, Ran A-R, et al. UD-MIL:用于 OCT 图像分类的不确定性驱动深度多实例学习。IEEE J 生物医学健康信息。2020;24(12):3431–42.PMID:32248132
查看文章考研/NCBI谷歌学术
36.Cortés-Ciriano I, Bender A. 深度置信度:用于计算深度神经网络可靠预测误差的计算高效框架。J Chem Inf 模型。2019;59(3):1269–81.PMID:30336009
查看文章考研/NCBI谷歌学术
37.Cortés-Ciriano I, Bender A. 使用测试时间丢失的深度神经网络的可靠预测误差。J Chem Inf 模型。2019;59(7):3330–9.PMID:31241929
查看文章考研/NCBI谷歌学术
38.Scalia G、Grambow CA、Pernici B、Li Y-P、Green WH。评估用于基于深度学习的分子特性预测的可扩展不确定性估计方法。J Chem Inf 模型。2020;60(6):2697–717.PMID:32243154
查看文章考研/NCBI谷歌学术
39.滕 X、裴 S、林 Y-R。StoCast:具有进展不确定性的随机疾病预测。IEEE J 生物医学健康信息。2021;25(3):850–61.PMID:32750951
查看文章考研/NCBI谷歌学术
40.Foong AY、Li Y、Hernández-Lobato JM、Turner RE。贝叶斯神经网络中的“中间”不确定性。arXiv 预印本 2019。https://arxiv.org/abs/1906.11537
查看文章谷歌学术
41.Coker B, Pan W, Doshi-elez F. 宽均域变分贝叶斯神经网络忽略数据。arXiv 预印本 2021。https://arxiv.org/abs/2106.07052
查看文章谷歌学术
42.Arbel J、Pitas K、Vladimirova M、Fortuin V.贝叶斯神经网络入门:综述和辩论。arXiv 预印本 2023。https://arxiv.org/abs/2309.16314
查看文章谷歌学术
43.纳利斯尼克 E、松川 A、Teh YW、Gorur D、Lakshminarayanan B。深度生成模型知道它们不知道什么吗?arXiv 预印本 2018。https://arxiv.org/abs/1810.09136
查看文章谷歌学术
44.Sedghi A、Kapur T、Luo J、Mousavi P、Wells III WM。通过深度多类分类进行概率图像配准:表征不确定性。在:基于临床图像的程序研讨会。2019. 第 12-22 页。
45.Graham MS、Sudre CH、Varsavsky T、Tudosiu PD、Nachev P、Ourselin S. 具有不确定性的分层大脑分区。在:医学成像中机器学习安全利用的不确定性,生物医学图像分析中的图表:第二届国际研讨会和 UNSURE 2020,以及第三届国际研讨会,GRAIL 2020,与 MICCAI 2020 联合举办,秘鲁利马,2020 年 10 月 8 日,论文集 2。2020. 第 23-31 页。
46.Araújo T、Aresta G、Mendonça L、Penas S、Maia C、Carneiro  等人。研究生:眼底图像中基于不确定性感知深度学习的糖尿病视网膜病变分级。医学图像肛门 2020;63:101715。PMID:32434128
查看文章考研/NCBI谷歌学术
47.Valiuddin MA、Viviers CG、van Sloun RJ、de With PH、van der Sommen F. 使用归一化流改进多注释医学图像分割中的偶然不确定性量化。在:医学成像中安全利用机器学习的不确定性,围产期成像,胎盘,早产图像分析:第 3 届国际研讨会和 UNSURE 2021,以及第 6 届国际研讨会,PIPPI 2021,与 MICCAI 2021 联合举办,法国斯特拉斯堡,2021 年 10 月 1 日,论文集 3。2021. 第 75-88 页。
48.Athanasiadis C、Hortal E、Asteriadis S. 使用条件半监督生成对抗网络进行视听域适应。神经计算。2020;397:331–44.
查看文章谷歌学术
49.Wieslander H、Harrison PJ、Skogberg G、Jackson S、Friden M、Karlsson J 等。具有共形预测的深度学习,用于大规模全玻片组织图像的分层分析。IEEE J 生物医学健康信息。2021;25(2):371–80.PMID:32750907
查看文章考研/NCBI谷歌学术
50.Zhang J, Norinder U, Svensson F. 基于深度学习的共形毒性预测。J Chem Inf 模型。2021;61(6):2648–57.PMID:34043352
查看文章考研/NCBI谷歌学术
51.Toledo-Cortés S、De La Pava M、Perdómo O、González FA。用于糖尿病视网膜病变诊断、不确定性量化的混合深度学习高斯过程。见:眼科医学图像分析:第 7 届国际研讨会和 OMIA 2020,与 MICCAI 2020 联合举办,秘鲁利马,2020 年 10 月 8 日,会议记录。2020. 第 206-15 页。
52.Li Y、Rao S、Hassaine A、Ramakrishnan R、Canoy D、Salimi-Khorshidi G 等。电子健康记录中不确定性估计的深度贝叶斯高斯过程。科学代表 2021;11(1):20685.PMID:34667200
查看文章考研/NCBI谷歌学术
53.Wu Z, Yang Y, Gu J, Tresp V. 使用深度内核学习量化医学图像分析中的预测不确定性。在:2021 年 IEEE 第 9 届国际医疗信息学会议 (ICHI)。2021. 第 63-72 页。
54.Lindenmeyer A、Veeranki S、Franke S、Neumuth T、Kramer D、Schneider D. 可靠临床决策支持的知识不确定性估计:谵妄风险预后案例研究。在:dHealth 2025 中。2025. 第 221-7 页。
55.Lindenmeyer A、Blattmann M、Franke S、Neumuth T、Schneider D. 迈向医疗保健领域值得信赖的人工智能:临床决策支持的认识不确定性估计。2025 年珀斯医学杂志;15(2):58.PMID:39997335
查看文章考研/NCBI谷歌学术
56.Gohagan JK、Prorok PC、Hayes RB、Kramer BS、前列腺癌、肺癌、结直肠癌和卵巢癌筛查试验项目团队。美国国家癌症研究所的前列腺癌、肺癌、结直肠癌和卵巢癌 (PLCO) 筛查试验:历史、组织和状态。对照临床试验。2000;21(6 增刊):251S-272S。PMID:11189683
查看文章考研/NCBI谷歌学术
57.Prorok PC、Andriole GL、Bresalier RS、Buys SS、Chia D、Crawford ED 等。前列腺癌、肺癌、结直肠癌和卵巢癌 (PLCO) 筛查试验的设计。对照临床试验。2000;21(6 增刊):273S-309S。PMID:11189684
查看文章考研/NCBI谷歌学术
58.巴克 M、库夫曼 R、斯诺克 H、克鲁斯 S.具有皮尔逊特征的分类变量、有序变量和区间变量之间的新相关系数。2019.
59.肯德尔 A,加尔 Y.在计算机视觉的贝叶斯深度学习中,我们需要哪些不确定性?Adv Neural Inf Process Syst. 2017;30。
查看文章谷歌学术
60.用于模式识别的神经网络。牛津大学出版社;1995.
61.Koenker R, Bassett Jr G. 回归分位数。计量经济学。1978:33–50.
查看文章谷歌学术
62.加藤 Y,税务 DM,Loog M.不确定性量化中模型错误规范的观点。在:比荷卢人工智能会议。施普林格;2022. 第 65-77 页。
63.Kingma DP, Welling M. 自动编码变分贝叶斯;2014.
64.Rezende D, Mohamed S. 归一化流的变分推理。在:国际机器学习会议。2015. 第 1530-8 页。
65.Papernot N, McDaniel P. 深度 k 最近邻:走向自信、可解释和稳健的深度学习。arXiv 预印本 2018。
查看文章谷歌学术
66.李 K、李 K、李 H、申 J.一个简单的统一框架,用于检测分布外样本和对抗性攻击。Adv Neural Inf Process Syst. 2018;31.
查看文章谷歌学术
67.Ruff L、Vandermeulen R、Goernitz N、Deecke L、Siddiqui SA、Binder A. 深度单类分类。见:机器学习国际会议,2018 年。第 4393-402 页。
68.本代尔 A,博尔特 TE。走向开放的深度网络。见:IEEE 计算机视觉和模式识别会议论文集。2016. 第 1563-72 页。
69.Dherin B、胡 H、任 J、Dusenberry MW、Lakshminarayanan B. 用于不确定性量化的莫尔斯神经网络。arXiv 预印本 2023。https://arxiv.org/abs/230700667
查看文章谷歌学术
70.神经网络的贝叶斯学习。施普林格;2012.
71.霍夫曼医学博士,格尔曼 A.无掉头采样器:在哈密顿蒙特卡洛中自适应设置路径长度。J Mach Learn Res. 2014;15(1):1593–623.
查看文章谷歌学术
72.Chen T, Fox E, Guestrin C. 随机梯度哈密顿蒙特卡洛。在:国际机器学习会议。2014. 第 1683-91 页。
73.Hansen LK,Salamon P. 神经网络集成。IEEE Trans 模式肛门马赫智能。1990;12(10):993–1001.
查看文章谷歌学术
74.Lakshminarayanan B、Pritzel A、Blundell C. 使用深度集成进行简单且可扩展的预测不确定性估计。Adv Neural Inf Process Syst. 2017;30。
查看文章谷歌学术
75.Gal Y, Ghahramani Z. Dropout 作为贝叶斯近似:表示深度学习中的模型不确定性。在:国际机器学习会议。2016. 第 1050-9 页。
76.温 Y、Tran D、Ba J. Batchensemble:高效合奏和终身学习的替代方法。arXiv 预印本。2020. https://arxiv.org/abs/2002.06715
查看文章谷歌学术
77.Liu Q, Wang D. Stein 变分梯度下降:一种通用贝叶斯推理算法。Adv Neural Inf Process Syst. 2016;29.
查看文章谷歌学术
78.Detommaso G、Cui T、Marzouk Y、Spantini A、Scheichl R.斯坦因变分牛顿法。Adv Neural Inf Process Syst. 2018;31.
查看文章谷歌学术
79.Dai B, He N, Dai H, Song L. 通过粒子镜下降证明贝叶斯推理。在:人工智能和统计学。PMLR;2016. 第 985-94 页。
80.Abe T、Buchanan EK、Pleiss G、Cunningham JP。深度集合中预测多样性的病理学。arXiv 预印本 2023。https://arxiv.org/abs/2302.00704
查看文章谷歌学术
81.德安吉洛 F、福图因 V、温泽尔 F.关于斯坦因变分神经网络集成。2021.
82.D'Angelo F, Fortuin V. 令人厌恶的深度合奏是贝叶斯的。Adv Neural Inf Process Syst. 2021;34:3451–65.
查看文章谷歌学术
83.乔丹·米、加赫拉马尼 Z、贾科拉 TS、索尔·LK。图形模型的变分方法简介。马赫学习。1999;37:183–233.
查看文章谷歌学术
84.麦凯 DJC。反向传播网络的实用贝叶斯框架。神经计算。1992;4(3):448–72.
查看文章谷歌学术
85.Blundell C、Cornebise J、Kavukcuoglu K、Wierstra D. 神经网络中的权重不确定性。在:国际机器学习会议。PMLR;2015. 第 1613-22 页。
86.Sun S, Zhang G, Shi J, Grosse R. 函数变分贝叶斯神经网络。2019.
87.Rudner TG, Chen Z, Teh YW, Gal Y. 贝叶斯神经网络中的可处理函数空间变分推理。Adv Neural Inf Process Syst. 2022;35:22686–98.
查看文章谷歌学术
88.达米亚努 A,劳伦斯 ND。深高斯过程。人工智能和统计学。PMLR。2013. 第 207-15 页。
89.Salimbeni H, Deisenroth M. 深度高斯过程的双随机变分推断。Adv Neural Inf Process Syst. 2017;30。
查看文章谷歌学术
90.Liu J, Lin Z, Padhy S, Tran D, Bedrax Weiss T, Lakshminarayanan B. 通过远程感知使用确定性深度学习进行简单而有原则的不确定性估计。Adv Neural Inf Process Syst. 2020;33:7498–512.
查看文章谷歌学术
91.Cinquin T、Pförtner M、Fortuin V、Hennig P、Bamler R. FSP-laplace:贝叶斯深度学习中拉普拉斯近似的函数空间先验。arXiv 预印本 2024。
查看文章谷歌学术
92.Lee J, Bahri Y, Novak R, Schoenholz SS, Pennington J, Sohl-Dickstein J. 作为高斯过程的深度神经网络。arXiv 预印本 2017。https://arxiv.org/abs/1711.00165
查看文章谷歌学术
93.Matthews AG d G、Rowland M、Hron J、Turner RE、Ghahramani Z. 宽深度神经网络中的高斯过程行为。arXiv 预印本 2018。https://arxiv.org/abs/1804.11271
查看文章谷歌学术
94.Williams C. 无限网络计算。Adv Neural Inf Process Syst. 1996;9.
查看文章谷歌学术
95.Stephan M、Hoffman MD、Blei DM. 随机梯度下降作为近似贝叶斯推断。J Mach Learn Res. 2017;18(134):1–35.
查看文章谷歌学术
96.Jacot A、Gabriel F、Hongler C. 神经切切核:神经网络中的收敛和泛化。Adv Neural Inf Process Syst. 2018;31.
查看文章谷歌学术
97.Kingma DP、Ba J. Adam:一种随机优化方法。2017.
98.普雷切尔特 L.提前停止 - 但什么时候?见:Orr GB、Müller KR,编辑。神经网络:交易技巧。海德堡:施普林格;1998. 第 55-69 页。
99.Farquhar S、Osborne MA、Gal Y. 径向贝叶斯神经网络:超越大规模贝叶斯深度学习中的离散支持。见:第二十三届人工智能与统计国际会议论文集。2020. 第 1352-62 页。
100.He K、Zhang X、任 S、Sun J. 深入研究整流器:超越图像网分类的人类水平性能。见:IEEE 计算机视觉国际会议论文集。2015. 第 1026-34 页。
101.Gneiting T,椽子 AE。严格正确的评分规则、预测和估计。J Am Statist 协会 2007 年;102(477):359–78.
查看文章谷歌学术
102.奥瓦迪亚 Y、费蒂格 E、任 J、纳多 Z、斯卡利 D、诺沃津 S。你能相信你的模型的不确定性吗?评估数据集偏移下的预测不确定性。高级神经 Inf 过程系统 2019;32。
查看文章谷歌学术
103.Valdenegro-Toro M,Mori DS。更深入地研究偶然和认识不确定性解开。在:2022 年 IEEE/CVF 计算机视觉和模式识别研讨会会议 (CVPRW)。2022. 第 1508-16 页。
104.de Jong IP、Sburlea AI、Valdenegro-Toro M.您的分类不确定性有多解开?arXiv 预印本 2024。
查看文章谷歌学术
105.Lindenmeyer A、Blattmann M、Franke S、Neumuth T、Schneider D. 常见随机神经网络不足以提供可靠的临床决策支持。arXiv 预印本 2024。https://arxiv.org/abs/240113657
查看文章谷歌学术
106.冯 A、伯特 D、李 Y、特纳 R.关于贝叶斯神经网络中近似推理的表达能力.Adv Neural Inf Process Syst. 2020;33:15897–908.
查看文章谷歌学术