基于超声心动图视频的个性化心脏网格弱监督推理

这一篇十分接近我们的项目！

Weakly supervised inference of personalized heart meshes based on echocardiography videos - ScienceDirect

0 摘要

超声心动图可记录心腔的大小和功能，是心脏病无创诊断的主要工具。它产生的高维视频数据在测量中具有很大的随机性，这常常被证明是难以解释的。为了解决这一挑战，我们提出了一种自动化框架，以能够从2D超声心动图视频数据推断心脏结构的高分辨率个性化4D（3D加时间）表面网格。推断这样的形状模型作为实现心腔形态和功能的自动评估的精确个性化模拟的关键步骤而出现。提出的方法仅使用未配对的超声心动图和心脏网格视频进行训练，以自监督的方式找到这些不同视觉域之间的映射。所得模型产生个性化的4D心脏网格，其表现出与输入超声心动图视频的高度一致性。此外，4D心脏网格能够以高时间分辨率自动提取超声心动图变量，例如射血分数、心肌质量和心室容积随时间的体积变化。

1. 引言

跳动心脏的患者特异性三维（3D）模型的可视化在精确医疗中具有基本的实际重要性（Izard等人，2020年）的报告。它能够自动评估心脏形态和功能，从而能够早期诊断和治疗心血管疾病（CVD）。后者是全球最常见的死亡原因（Savarese和隆德，2017）。此外，高分辨率3D心脏结构在基于物理学的模拟、虚拟手术计划中是关键的（Prakosa等人，2018）和教育环境可视化（Bucioli等人，（2017年版）。然而，推断准确的时间心脏形状是一个高度复杂的问题，因为跳动心脏的运动动力学构成了受分子、电和生物物理过程调节的非线性轨迹的节律模式（Savarese和隆德，2017）。

因心力衰竭住院治疗（Jeemon等，2014年）的报告。另一方面，超声心动图结合了低成本便携式仪器和快速图像采集，没有电离辐射的风险。这些受益增加了超声心动图的可及性和适用性，使其成为心血管医学中最常用的成像方式。与体积图像相比，超声心动图利用超声技术来捕获心脏和周围结构的高时间和空间分辨率图像。

尽管如此，先前在生成3D几何心脏结构方面的尝试已被证明在诸如CT和MRI数据之类的体积心脏图像可用的有限情况下是成功的（Kong等人，2021年）的报告。然而，这种体积图像的获取是昂贵和耗时的。这种困难可能会延迟疾病更晚期阶段的护理，潜在地导致因心力衰竭住院的次数增加（Jeemon等人，2014年）的报告。另一方面，超声心动图结合了低成本便携式仪器和快速图像采集，没有电离辐射的风险。这些受益增加了超声心动图的可及性和适用性，使其成为心血管医学中最常用的成像方式。与体积图像相比，超声心动图利用超声技术来捕获心脏和周围结构的高时间和空间分辨率图像。

出于上述原因，我们提出了一种模型，仅使用2D超声心动图视频（回波）数据作为输入来自动推断4D高分辨率表面心脏网格。我们认为，这样的心脏模型将改善诊断和心血管疾病患者的危险分层。此外，通过生成允许自动导出各种临床变量的视觉输出-可以在原始输入中验证-我们的模型为医生提供了高透明度，确保了模型预测的可靠性。尽管有这些潜在的临床应用，但出于多种原因，从超声心动图视频推断个性化心脏模型仍然是一项极具挑战性的任务。

首先，缺乏成对的训练数据集，包括超声心动图检查和相应的真实真实3D心脏形状，以训练这样的模型。
其次，仅给定2D图像来推断心脏的3D形状可以被分类为欠约束问题，因为存在对应于相同2D图像的无限数量的潜在3D形状。
第三，准确的换能器位置是未知的，并且可能因记录而异。最后，超声心动图产生高维的、有噪声的斑点数据，这些数据经常被证明难以解释。

在本文中，我们提出了一种方法，该方法克服了上述的挑战，并且产生了在心动周期内的心室和心肌的体积形状的稳健和准确的个性化预测。据我们所知，这是第一次提出了仅基于单视图2D超声心动图视频数据生成个性化4D心脏网格的方法.我们的方法使用不成对的超声心动图视频和心脏网格视频，以自我监督的方式学习两个不同视觉域之间的映射函数。

我们提出的4D心脏模型（4DHM）的概述如图1所示。我们的贡献有三个方面：

（1）我们提出了一种新颖的网格视频自动编码器架构，以找到心脏的有意义的压缩表示表面网格视频，

（2）我们引入了生成器网络，以按照周期一致的方式在压缩回波表示与压缩心脏网格表示之间进行转换，

（3）我们定量和定性地表明，我们的方法能够生成个性化的心脏网格，其形状和动力学符合相应的回声。我们还发布了我们模型的代码1，以便可以复制结果，并为社区做出有益的贡献。

**图一：**所提出的4DHM架构的概述。我们采用任务定制的视频自动编码器模型来找到回声和网格视频的压缩表示（ $\varphi_E$ 和 $\varphi_M$ ），并训练两个映射函数（ $G_M$ 和 $G_E$ ）以周期一致的方式从回声表示转换为网格表示，反之亦然。鉴别器（ $D_E$ ， $D_M$ ）学习区分真实的表示和生成的表示，并指导映射函数的训练。射血分数预测器（ $P_{EF}$ ）在训练期间充当正则化器。为了进行推理，我们将一个新的echo输入到echo编码器 $Enc_{M}$ 中，并使用 $G_M$ 将 $\varphi_E$ 转换为 $\varphi_M$ 。然后，生成的网格 $\varphi_M$ 表示将由网格解码器 $Dec_M$ 解码成相应的网格视频。

The Ejection Fraction (EF) Predictor 射血分数是一种工具或模型，用于预测心脏的射血分数（EF）。射血分数是一个重要的心脏功能指标，表示心室每次收缩时泵出的血液量占心室总充盈量的百分比。

射血分数是左心室或右心室在一次心脏收缩中泵出的血液量与心室在充盈时所容纳的血液总量的比值，通常用百分比表示。正常的EF值通常在55%到70%之间。低于这个范围的EF值可能表示心力衰竭或其他心脏问题。

论文的其余部分结构如下：在第2节中，我们回顾了人工智能（AI）在超声心动图，心脏建模和2D图像到3D形状转换方面的现有技术。在第3节中，我们讨论了用于训练和推理的数据集的细节。我们提出的方法，本文的核心贡献，在第4节中讨论。在第5节中，我们介绍了我们的实验和结果，我们在第6节中总结了讨论和潜在的未来工作。

2 相关工作

在本节中，我们将回顾相关的先前工作，主要关注机器学习在超声心动图（2.1）和心脏形状模型（2.2）中的应用。此外，我们简要讨论了2D图像到3D形状重建领域的最新进展（2.3）。

2.1 人工智能在超声心动图

使用超声心动图进行功能评估和疾病诊断的人工智能（Zhou等人，2021; Laumer等人，2022; Duffy等人，2022年），已逐渐成为准确诊断和患者治疗的宝贵工具。Madani等人（2018）训练了一个卷积神经网络来对标准视图进行分类，Zhang等人（2018）开发了一个管道，可以自动化回声解释的关键方面，包括识别视图，描绘单个心腔和检测特定疾病。Ouyang等人（2020）提出了一种基于视频的深度学习算法，该算法在分割左心室、估计射血分数和评估心肌病的任务中超越了人类专家的表现。使用卷积神经网络，Ghorbani等人（2019）表明，应用于超声心动图的深度学习模型可以识别局部心脏结构，估计心脏功能并预测全身表型。Laumer等人（2020）提出了一种基于自动编码器的新型框架，用于从心脏超声数据中学习人类可解释的心动周期表示。

虽然大多数以前的模型是专门为不同的任务量身定制的，但我们提出的方法可以被认为是任务不可知的，因为它能够从个性化的4D心脏模型中自动提取大量信息丰富且易于解释的临床测量结果。这样的测量结果可以用于促进下游任务，如疾病诊断或手术计划。

2.2.心脏形状模型

从医学图像重建的解剖结构的三维几何形状越来越多地用于各种临床应用，例如患者特异性可视化（González Izard等人，2020）、基于物理学的器官模拟、虚拟手术计划和形态学评估（Bucioli等人，2017年; Prakosa等人，（2018年版）。虽然许多研究项目集中于从体积图像生成心脏模型，但只有少数工作从2D图像构建3D模型。在心脏模型构建中的现有努力通常采用了多级方法，其中心脏结构的3D体积图像分割之后是后处理技术。通常，存在两种用于整个心脏分割任务的常用方法：多图谱分割（Bai等人，2015年; Zhuang等人，2015年; Zhuang和Shen，2016年）和基于深度学习的分割（Ronneberger等人，2015年;奇切克等人，（2016年版）。在基于图谱的分割中，被标记的模板对象（图谱）被变形并与待分割的患者图像对齐。相反，基于深度学习的方法使用神经网络以密集体素网格的形式直接从原始输入图像中输出分割标签，以表示整个心脏的几何形状（Wang和斯梅德比，2017; Payer等人，2017年; Heinrich和奥斯特，2017年; Vesal等人，2020年）的报告。然而，与体素网格不同，多边形网格提供了更紧凑的数据表示，因为仅需要存储器官边界的点坐标及其与最近邻居的连接性。这允许模型具有高的空间分辨率，从而能够进行更详细的形状重建和分析。分割的体积区域的网格可以使用行进立方体算法和执行手动表面后处理来生成（Lorensen和Cline，1987; Augustin等人，2016年;孔和沙登，2020年）。

一些研究已经采用了基于模型的方法来将心脏的表面网格直接拟合到目标图像（Ecabert等人，2008年、2011年; Peters等人，2010年）的报告。这样的方法使用局部优化来使模板网格变形，以使网格边界与从分割的输入图像导出的组织边界匹配。然而，这些方法通常对初始化很敏感。Zhang等人（2020）最近的一项研究提出了深度学习，以学习主动轮廓模型的初始化和参数，从而将轮廓拟合到目标组织。或者，其他人已经转向不需要模板模型的测试时参数拟合的纯深度学习方法（Ye等人，2020年）的报告。

几何深度学习的最新进展将卷积神经网络的概念扩展到了不规则图（网格）（Defferrard等人，2016年; Bronstein等人，（2017年版）。通过使用图作为形状表示，图卷积神经网络被示出对于高级语义分析更有效（Lin等人，2021年）的报告。Kong等人（2021）以监督的方式训练了一个图卷积神经网络，以使模板网格变形，从而与体积图像数据中的心脏结构相匹配。Kong等人（2021）根据体积CT和MR图像数据预测了整个心脏表面网格，采集起来既昂贵又耗时，Wang等人（2019）和Pontes等人（2018）则仅关注于根据2D图像数据重建3D形状。然而，这两种方法都需要访问对应的2D图像的真实3D网格来训练深度学习模型。这与我们提出的方法形成对比，我们的方法使用图卷积神经网络和变换函数从2D超声心动图视频数据生成个性化4D心脏网格，而不需要用于模型训练的真实3D形状。

2.3 二维到三维形状重建

从二维图像中推断物体的三维结构是近年来计算机视觉领域研究最多的问题之一。然而，从2D视图理解对象的3D性质是不适定问题，因为单个2D图像可以对应于无限数量的潜在3D形状。

基于学习的2D到3D重建方法通常由编码器-解码器体系结构来处理。首先，输入图像被编码为压缩的潜在表示。然后，该表示被用于重建3D形状（Tatarchenko等人，2019年; Han等人，（2019年版）。Wen等人（2019）提出的一种替代方法通过训练模型预测一系列变形以迭代改善粗糙形状，从而从少量彩色图像中生成准确的3D网格形状。

在单视图三维重建中，依赖于直接监督的训练方法仍然存在局限性，而自我监督的训练方法是克服这一局限性的一种有效途径。这些方法通常使用差分渲染器从图像集合中恢复形状（Insafutdinov和Dosovitskiy，2018年; Kato和Harada，2019年; Liu等人，2019年; Szabó等人，2019年;亨德森等人，2020年）的报告。然而，他们的方法需要访问摄像机位置以便计算重投影误差。在我们的设置中，我们没有关于可用的相机（回波换能器）位置的信息，并且我们的方法仅使用心脏的2D切片作为输入来生成心脏的4D形状。据我们所知，只有两个工作，有效地利用不成对的图像和形状数据集的重建任务，而无需额外的相机姿态信息。第一个是Aumentado-Armstrong等人（2020）的工作，该工作利用生成域翻译方法定义了一种学习算法，该算法仅需要对未配对数据进行弱监督，第二个是卡亚和Timofte（2020）的工作，他们提出了一种基于循环生成模型的自监督图像到形状的转换框架，该模型基于不成对的2D和3D数据，没有摄像机校准Meta数据。信息.

3. Datasets

该模型使用两种不同类型的独立数据源进行训练。一个数据集由超声心动图视频数据组成，另一个数据集由生成的心脏表面网格视频组成。回波是从真实的患者采集的，而3D网格视频是基于统计形状模型人工生成的。

3.1.超声心动图视频数据

对于训练和评估，我们使用公开可用的EchoNetDynamic数据集（Ouyang等人，2020），包括10，030个心尖四腔视图超声心动图视频，涵盖了典型超声心动图实验室成像采集条件的范围。该数据集包括健康和病理心脏解剖结构以及相应的标记测量值，例如射血分数、收缩末期（完全收缩的心脏相位）和舒张末期（完全扩张的心脏相位）的左心室容积，以及舒张末期（艾德）和收缩末期（ES）帧的左心室（LV）的人类专家描记。发布的视频分辨率相对较低，为每帧112 × 112像素。

为了生成心脏表面网格视频数据集，我们利用Unberath等人（2015）开发的现有统计形状模型（SSM），该模型捕获了20例患者（9例男性和11例女性）队列中观察到的形态变化和动态。心脏结构的表面由三角形网格表示。

使用心脏的10期CT血管造影扫描为每例患者生成10个心脏网格的序列。10个网格中的每一个都表示在全心动周期的某个相位的3D中的患者心脏，其中∈ {0，1，…，9}。𝑝通过将主成分分析（PCA）应用于手动从队列中获得的一组解剖学上一致的网格序列，获得正交模式，从而描述形状和动力学的变化。SSM将心脏形态的可变性表示为18个模式的线性组合，其加权组合（通过矩阵乘法获得）直接允许计算在心动周期的10个不同相位处的3D空间中的网格的大约16000个顶点的位置。因此，通过指定模式的权重，SSM允许定义特定的心脏形状和搏动动力学。𝜶可以通过3D顶点坐标的线性内插来生成中间心脏相位处的心脏网格。SSM对所有五个心腔的表面进行建模，即左心室（LV）、右心室（RV）、左心房（LA）、右心房（RA）、主动脉（AO）以及左心室（LVM）的心肌。SSM的表现如图2所示。

**图二：**SSM的表达性：当一个模式权重变化很小而所有其他模式保持其平均值时，我们显示生成的三角形表面网格的4腔视图横截面。𝛼𝑖我们提出了前三个18模式的扰动，并显示从收缩期的动态。(LA：左心房，LVM：左心室心肌，LV：左心室，RV：右心室，RA：右心房）。

我们使用SSM通过均匀采样[−0.8，0.8]18中的不同权重向量来生成10，000个心脏网格视频。𝜶通过为每个视频另外随机地改变以下参数来创建多样的网格视频数据集：

网格视频中的心动周期为1 ≤C≤ 3。
网格视频中一个心动周期的持续时间 $𝑇∈ [0.3，2]$ （秒）
网格视频的相移$𝜙∈[0，2 \pi] $，即视频在心动周期内的哪个相位（以弧度为单位）开始。
每个心动周期的网格帧的数量 $F∈ {6，...，18}$ 。

相当于随机生成心脏网格增强数据，使10个生成10000个。

C和F控制了 $L_M = [C*F]$ 即网格视频的长度，T控制了心跳的频率 $f = \frac1T$ ，𝜙控制了网格视频的开始时间。视频持续时间取决于C*T。每一个网格 $M_j$ 都与一个时间步长 $t_j∈(t_1,...,t_{L_M})$ 关联，该时间步长描述了一系列从0开始到D秒结束的均匀间隔值。也就是说( $t_1=0,t_{L_M}=D$ ) . 对于每个网格视频，我们计算随时间推移的心腔容积，并使用舒张末期容积（EDV）和收缩末期容积（ESV）通过以下公式推导射血分数（EF）：

$E F=\left(\frac{E D V-E S V}{E D V}\right) \times 100$

在图3中，我们绘制了回波和网格视频数据集的EF分布。在顶部图像（a）中，可以看到回波数据集（绿色）的EF值分布比网格数据集（蓝色和橙色）的EF值分布具有更长的尾部。特别是，EF非常低的视频不会出现在网格数据集中，因为SSM无法表示这些视频。此外，使用SSM生成的网格样本的EF平均值低于EchoNetDynamic数据集的视频。因此，为了近似网格和回波EF分布，我们通过网格视频增加了网格数据集，其中通过移除收缩末期帧周围的帧，模拟未完全收缩的心跳，人为地降低了EF。所得EF分布绘制在底部图像（B）中。

**图三：**回波和网格数据集的射血分数分布。使用双平面Simpson方法（绿色）估计舒张末期和收缩末期的回波体积。对于网格数据集，我们提供了基于真实网格体积的EF分布（蓝色）和基于通过Simpson方法估计的体积的EF分布（橙色）。顶部图像（a），从SSM生成的网格数据集的射血分数范围。底部图像（B），用具有人工降低的EF的视频增强的网格数据集的EF分布。

基于2D超声心动图的心腔容积估计的推荐方法，即所谓的圆盘求和的双平面方法（修改的辛普森法则）（Lang等人，2015），也用于生成EchoNet-Dynamic数据集的EF标签，通常会导致高估真实EF值。为了说明这种偏倚，我们以两种不同的方式计算网格视频的EF：一种是直接通过基于表面网格的LV网格体积（蓝色），另一种是通过基于双平面（2腔视图和4腔视图）圆盘求和方法估计LV网格体积（橙色）。我们可以看到这种EF计算方法如何导致分布向右移动。

4. 方法（重点）

我们提出了一种方法（4DHM），从单个心尖4腔视图超声心动图（图1）自动推断3D网格视频。鉴于未配对的超声心动图视频和网格视频数据集，我们的目标是训练深度神经网络，通过利用生成域转换方法将回波映射到4D心脏网格。在设置映射函数之前，我们使用两个自动编码器网络将回声和网格视频编码为紧凑的潜在表示。这不仅使训练过程更好地受到约束，而且还确保生成的形状符合心脏形状的变形空间。回声自动编码器（EA）（4.1）的灵感来自Laumer等人的工作。（2020）。我们将其扩展为处理网格数据，以形成网格视频自动编码器（MVA）（4.2）。为了训练生成器网络，将压缩表示从回声潜在空间映射到心脏网格视频潜在空间，反之亦然，我们优化了循环一致性损失和对抗性损失（4.3）。第一种方法迫使两个映射函数彼此反向，而后者由两个能够分别区分回声和网格视频的假表示和真实的表示的双线性映射函数组成。射血分数预测用作弱正则化器以指导生成器函数的训练。

4.1 回声自动编码器模型（EA）

4.2 网格视频自动编码器模型（MVA）

图4：上图：模板网格，用于根据不同的下采样因子 $f^k$ 计算下采样和上采样矩阵 $D^k$ 和 $U^k$ 。每个阶段的顶点连接都在邻接矩阵 $A^k$ 中捕获。下图：SSM 模板网格的下采样和上采样。

4.3 2D到3D重建

回声潜在向量以压缩表示形式总结了超声心动图视频。𝝋𝐸我们假设它包括关于整体心脏形状以及跳动动力学的信息。同样地，网格潜在矢量Vectors包含用于重建心脏网格视频的相关信息。我们的目标是找到在这两个不同的领域之间。这在两个方面都是一项具有挑战性的任务。从回波转换为网格视频意味着从心脏的2D切片转换为一系列3D心脏网格。我们克服了这些挑战，通过使用先验信息的形状的心脏使用SSM和强制执行它隐含通过MVA。另一方面，从网格视频转换为回波带来了额外的挑战，因为我们不知道确切的换能器位置。根据其位置和旋转，从相同的3D网格获得不同的2D回波图像。

图5：2D到3D转换网络架构的示意图概述。彩色框表示神经网络，不同的损失函数用灰色阴影表示，圆形表示压缩的网格视频和回声表示。

4.4 训练和推理

5 实验和结果

在本节中，我们将对我们提出的方法进行全面的实证评估。在第5.1节中，我们重点介绍了网格视频自动编码器，并说明了潜在轨迹参数可用于准确确定心率、心脏相移和射血分数。𝝋𝑀这证明了所提出的潜在表示包含关于心脏的形状和动力学的信息。此外，我们证明了网格视频自动编码器对噪声干扰的输入具有弹性。在第5.2节中，我们提供了定量和定性证据，证明4DHM可从单视图超声心动图视频中生成个性化的4D心脏形状。

5.1 网状视频自动编码器

Laumer等人（2020年）证明，提取的潜在轨迹参数θ r可以从回波中恢复心率和相移，并表明（θ（3），.，θ（θr））包含有关患者心脏形状和跳动动态的信息。在这里，我们验证了MVA也提供了心脏频率ε、心脏相移ε的良好估计，并且潜在轨迹参数（ε（3），.，ε（ε ε））可以用于通过使用简单的双层全连接神经网络来准确地确定射血分数。𝑃𝐸𝐹结果在保持测试集上进行评估。𝑀𝑡𝑒𝑠𝑡将频率ω乘以60以获得以每分钟心跳为单位的心率。我们期望位于由潜在轨迹参数λ λ定义的单位圆上的相同位置上的潜在嵌入λ λ（λ λ）在语义上是等效的，即它们应该编码心动周期的相同阶段。虽然，例如，潜在轨迹上的端孔的位置是任意的;它应该在网格视频中是一致的。因此，除了恒定的偏移量Δ θ，由MVA导出的相移Δ θ应该恢复原始视频中的相移。结果如图6所示。与真实实况值的偏差相当小，并且仅预测的心脏相位在相变周围经历一些较大的偏差。

为了说明MVA的去噪效果，我们添加i.i.d.将随机3D噪声向量映射到原始网格的顶点，然后重建噪声扰动的网格视频。图7示出了两个不同的原始网格、它们的噪声版本以及相应的重建。可以看出，MVA对引入的扰动非常有弹性，因为即使在存在噪声的情况下，它仍然能够恢复整体心脏形状。此外，我们研究如何扰动的个人潜在的轨迹参数表现在重建的表面网格（附录C）。不同的潜在节点集中在网格的不同区域。这些实验表明，潜在的轨迹参数包含有意义的信息的整体心脏形状以及其跳动的动力学。

见图7。MVA的降噪效果。顶部和底部的行显示了未扰动的原始网格（左）、有噪声的网格（中）和相应的重建（右）的两个不同示例。可以看到MVA如何设法平滑引入的噪声，同时仍然恢复整体心脏形状。

5.2 心脏网格预测

没有可用的3D真实实况来验证所生成的个性化4D心形。然而，EchoNet-Dynamic数据集提供了射血分数（EF）的真实基础标签以及收缩末期和舒张末期帧的LV人工专家描记。在图8中，我们绘制了由医学专家2根据回波推导出的EF与根据中包含的预测网格视频计算出的射血分数。 $D^{𝑡𝑒𝑠𝑡}_E$ 虽然在真实实况和预测的网格导出EF之间存在明显的相关性，但该模型低估了高EF区域的收缩。我们假设这种现象是由合成网格数据集的单侧EF分布引起的，该数据集不包含EF非常高的样本，如图3所示。可达到的射血分数值的范围受到SSM的限制，

我们研究了两种不同的方法来从预测的网格中推导EF。在图8的曲线图（a）中，从预测的LV形状直接测量在舒张末期和收缩末期帧处的体积。平均绝对误差（MAE）为9.8 ± 5.68%。在（B）中，我们通过2D超声心动图容积计算最常用的方法估计预测网格视频的LV容积：基于2腔和4腔视图的圆盘求和的双平面方法（改良Simpson规则）（Lang等人，2015年）的报告。对于每个预测的心脏网格视频，我们根据原型换能器位置（模拟有经验的心脏病专家生成这些视图的方式）推导出2腔视图和4腔视图。由于原始传感器位置不可用，我们只能建议一个估计值。然而，该位置可能偏离用于记录回波的原始换能器位置。我们使用推导的2腔和4腔视图，根据改良的Simpson规则估计ESV和EDV，然后根据公式计算EF。（一）.该EF估计改进了与真实真实回波EF标签的相关性。此外，回归线更接近于同一函数，我们获得的MAE为6.76 ± 5.50%。我们认为，这种改进是由于临床医生使用了相同的体积估计方法来生成EchoNetDynamic数据集中的EF标签。在图（c）中，我们比较了用于从预测的心脏网格视频导出EF的两种不同方法。特别是对于高EF患者，两种方法产生不同的结果。这表明，根据心脏形状和EF值，医生常用的双平面圆盘求和法可能不足以根据超声心动图视频数据准确确定EF。包括附加的心腔视图，例如3-心腔视图，可以潜在地为基于回波的EF估计提供更高的准确度。

图8：心脏科医生从回波中导出的射血分数（真实EF）与根据预测的4D网格计算的射血分数之间的相关性图（预测EF），以及两种方法之间的比较：（a）回波EF与根据预测网格的体积计算的EF的比较，（B）回波EF与通过应用于预测网格的辛普森双平面方法从估计体积计算的EF，（c）用于从预测网格计算EF的基于体积的方法和Simpson双平面方法之间的差异。

为了验证预测的心脏网格与实际心脏形状的拟合程度，我们在心内膜边界处的回波中使用专家导出的左心室描记。对于每个预测的心脏网格视频，我们通过根据最佳放置的换能器对心脏模型进行切片来产生合成的4腔视图视频。针对每个视频单独计算该换能器位置，并确保切片通过心尖以及二尖瓣和三尖瓣。我们采用相似性变换（旋转，均匀缩放和平移），以对齐预测的左心室轮廓与专家描记。我们使用舒张末期帧来导出变换矩阵，然后将该变换应用于回波的所有帧。我们通过计算收缩末期和舒张末期帧的测试褶皱中每个回波的Jaccard指数（联合上的交集/IoU）和Dice系数，将预测的LV轮廓与真实真实轮廓进行比较。 $D_𝐸^{𝑡𝑒𝑠𝑡}$ 整个过程如图9所示。

图9：使用地面真实数据评价生成的LV形状。首先，从回波生成4D心脏。然后，基于最大腔室容积识别舒张末期帧，并且使用原型4腔室视图换能器位置来生成四个腔室和LV心肌的轮廓图。使用相似性变换将专家标记的LV舒张末期轮廓与预测的轮廓对准。最后，填充所得到的轮廓，并通过IoU分数和Dice系数进行比较。

作为比较，我们使用来自统计形状模型的平均网格，该模型不适应于单个心脏形状。平均网格还基于舒张末期LV轮廓通过相似性变换与每个回波视频单独对齐。作为上限，我们将预测的LV轮廓与基于深度学习的监督回声分割方法进行比较（U-Net，Ronneberger等人（2015））。

结果见表1。由于将每个回波与预测网格对齐所需的相似性变换，重叠自然已经相当好，导致平均网格和预测网格的IoU和Dice分数相对较高。尽管如此，我们观察到，通过舒张末期IoU判断，4DHM比平均切片改善了6.7%。我们进一步研究了预测心脏模型在不同射血分数范围内实现的个性化量，并将其与SSM的非个性化平均网格进行比较。在图10中，我们呈现了在专家导出的LV轮廓和预测网格的轮廓之间计算的IoU分数和Dice系数中表示的LV形状的实现的个性化。可以看出，特别是对于EF非常高或非常低的患者，4DHM的性能明显优于无法适应不同形状和跳动动力学的平均切片。

**图10：**针对不同射血分数范围，预测心脏模型（蓝色）的个性化与统计形状模型（橙子）的非个性化平均网格的比较。在顶行中，我们显示了舒张末期（a）和收缩末期（B）帧的IoU评分，在底行中，我们显示了舒张末期（a）和收缩末期（B）帧的方块系数。计算不同检测倍数的标准差。

对于定性分析，我们呈现了随时间推移的预测心脏形状和导出的心腔容积测量的一些示例，如**图11所示。**我们随机选择了一个低EF的视频，一个中等EF的视频和一个高EF的视频。预测网格的4腔视图的轮廓叠加在分布在心跳周期上的一系列回波帧上。可以看到预测的网格如何遵循回波给出的收缩和扩张模式，并且LV轮廓与回波很好地对齐。容积图显示，与具有高EF的回波相比，具有低EF的回波的LV容积在舒张末期和收缩末期帧之间变化较小。此外，腔室体积描记在所有示例中是不同的，支持我们的模型适应回声的形状和动态的主张。在附录B中，我们提供了更多预测心脏形状的示例。特别是，我们显示了前三名，中位数（两个）和最差的三个预测，通过舒张末期和收缩末期帧的平均IoU评分来判断。

为了研究基于射血分数的弱正则化的效果，我们进行了一项消融研究，其中我们在没有EF损失的情况下训练2D到3D网络。𝐸𝐹该实验表明，射血分数对于指导生成器函数的训练非常重要，因为没有它，EF的均方误差从9.8%增加到17.7%，并且预测的心脏形状显示出降低的个性化，如可以从表1中在4DHM* 下报告的IoU和Dice分数中看到的。虽然该模型在舒张末期帧处的性能仍然优于非个性化平均网格，但在收缩末期帧处的性能与之相当。这可以通过我们仅使用舒张末期帧进行轮廓对齐的事实来解释。没有EF损失的模型预测收缩量不太准确，这导致收缩末期心脏相位的轮廓不对齐。

见图11。定性评价低EF（上图）、中EF（中图）和高EF（下图）三种不同回波的预测心脏形状。在每个子图的顶行中，预测网格的4腔视图的轮廓叠加在回波帧上。在中间行中，描绘了对应于回波帧的预测网格。在最下面的一行中，绘制了心腔体积随时间的变化。请注意，对于体积计算，我们直接使用预测网格，未应用相似性变换。

6 结论与展望

本文介绍了一种新的方法（4DHM），从单一的二维视图超声心动图视频数据生成模拟准备的4D心脏模型。我们的工作表明，4DHM推断个性化的网格，它遵循相应的超声心动图视频的收缩期收缩和舒张期舒张模式。此外，该模型能够自动估计临床上重要的超声心动图变量，例如射血分数值和腔室容积，包括它们在心动周期内的时间变化。个性化网格直接从4腔视图超声心动图视频中推断，并且它们不需要任何用于感兴趣区域检测的分割算法。

所提出的方法，4DHM，学习映射函数将潜在向量从2D源域（回声）转换到3D目标域（网格视频），而不需要配对的例子。特别地，回波被映射到输入网格视频分布中，这里由统计形状模型给出。因此，4DHM在很大程度上依赖于SSM的准确性和表现力，SSM产生用于模型训练的心脏网格。所采用的SSM不支持大变形来生成代表各种心脏形状和运动动态的多样化训练数据集。为了提高生成的个性化心脏形状的多样性和准确性，我们需要一个更强大的SSM，它来自更大的患者群体。

所提出的方法预测近似的3D心脏形状从一个单一的2D超声心动图视频，提供了一个明显的优势，现有的形状模型。然而，通过整合当前使用的心尖四腔视图之外的其他回波视图，可以提高3D重建的准确性。因此，在未来，我们将包括心尖2腔和心尖3腔视图的视频，用于全心脏网格生成。该信息融合步骤将不仅改进总体形状预测，而且更准确地评估对于左心室特别重要的局部室壁运动异常。此外，它还将支持左心室内心脏扭转的建模，即心脏基部的相互旋转和心尖处的反向旋转。目前，我们的模型不能推断扭转运动，因为只有心脏的一个切片作为模型输入。

不同的记录设备和设置可能导致不同的像素间距，这进而影响所记录的回波中所描绘的心脏的大小。为了计算心脏的真实尺寸估计，需要在某些界标（即二尖瓣和心尖）之间的回波中进行绝对距离测量。

潜在轨迹的参数化假设周期性心跳，其结果是，不能对患有心律失常的患者进行建模。此外，由患者（具有挑战性的回波窗口、肥胖、呼吸）或经验不足的检查者引起的不稳定的换能器位置可以干扰模型的推断。尽管大多数回波显示有规律的心跳，并且在记录期间换能器位置保持固定，但我们将调整轨迹的参数化以增加未来工作的灵活性。

虽然该方法显示出有希望的结果，但我们需要承认其当前的局限性，以及在没有3D真实实况的情况下验证预测形状的困难。为了评估预测网格的形状和跳动动力学，我们使用来自2D回波的专家标签。必须假设这些标签并不总是准确的。此外，评估以及训练是复杂的，因为我们不知道准确的换能器位置，这可能导致记录的视频具有感兴趣区域的透视缩短或离轴。目前尚不完全清楚回声数据集中有多少变化是由患者心脏的不同形状或轻微变化且未最佳放置的传感器位置引起的。对于未来的工作，需要对超声换能器位置进行稳健的估计以及与体积数据（例如来自同一患者的MRI或CT）进行比较，以提供对预测网格的更可靠的评估。

虽然我们认为我们提出的4DHM为完全基于超声心动图视频数据的自我监督4D心脏形状生成奠定了基础，但临床应用需要进一步的研究。特别是，该模型需要对噪声输入数据变得鲁棒，并更好地推广到高射血分数患者。尽管如此，如果不需要它们在临床实践中的适应，用超声心动图视频代替昂贵且耗时的体积成像数据来生成心脏形状模型是非常期望的。这种心脏模型能够自动和可靠地测量各种临床变量，同时保持可解释性，这对于建立对基于机器学习的算法的信任至关重要。它们不仅可以用于自动化超声心动图测量，而且将成为发现用于诊断病理的新的可靠特征的有价值的工具。在未来的工作中，我们计划提高所提出的心脏模型的准确性，并利用心电图（ECG）和实验室值等其他临床数据对其进行增强，以实现对心脏健康的自动化和全面评估。