论文精读（十）2D超声心动图视频到3D心脏形态重建

2D echocardiography video to 3D heart shape reconstruction for clinical application - ScienceDirect

论文内容整理：2D超声心动图视频到3D心脏形态重建的流程、方法和核心（AI生成)

图3。2D TTE至4D LV形状生成框架的概述。 TTE检查是从医院收集的。数据已被取消识别，并删除了元数据。 A2C，A3C和A4C非多普勒视图将自动识别，分割，时间对齐并将其带入规范位置。 2D至3D重建网络用于产生初始形状。然后，通过优化换能器位置和网络权重来迭代完善这种形状，直到生成形状的呈现的横截面与每个视图的输入分割映射匹配。 3D形状通过框架优化。

1. 研究背景

本研究的核心目标是从2D超声心动图（TTE）视频自动重建4D（3D+时间）左心室（LV）形态，形成个性化的数字孪生模型。该模型能够提高心脏超声数据的解读能力，帮助自动分析左心室体积变化、心肌梗死区域定位，并识别新的临床生物标志物。

传统的TTE仅能提供2D平面图像，并依赖几何假设来估算心脏体积，可能导致测量误差。而3D心脏模型能够提供更精准的测量，并改善心血管疾病的诊断和监测。

2. 方法流程

本研究提出了一种全自动的深度学习框架，用于从2D超声心动图视频重建4D心脏形态。其主要流程如下：

(1) 数据处理与预处理

数据来源：使用144名健康患者和314名急性心肌梗死（AMI）患者的TTE数据。
自动选择超声视频视角：采用改进的ResNet-50深度学习模型自动选择所需的**2腔（A2C）、3腔（A3C）、4腔（A4C）**视角视频。
心脏左心室血池分割：使用自训练的nnU-Net模型对左心室血池进行分割。
时间对齐：对2D超声视频进行相位对齐，确保所有视角从**心脏舒张末期（end-diastolic phase）**开始。

(2) 2D到3D形态重建

深度学习网络：
- 采用**卷积神经网络（CNN）**进行特征提取。
- 采用**图神经网络（GNN）**进行3D形态重建。
无监督优化：
- 采用合成数据进行预训练，并在真实数据上自监督微调，无需3D真实数据作为监督信号。
- 通过可微渲染技术优化超声探头位置，减少因探头角度变化引起的重建误差。

(3) 4D心脏模型的临床应用

心肌梗死（MI）区域自动定位：
- 通过分析左心室壁运动异常，结合心电图（ECG）数据，准确识别心肌梗死区域。
左心室体积自动计算：
- 自动提取舒张末期体积（EDV）、收缩末期体积（ESV），并计算左心室射血分数（LVEF）。
新型生物标志物提取：
- 快速充盈体积（RFV）：用于评估心脏舒张期的快速充盈阶段。
- 收缩区面积（SA）：衡量收缩期血液排出量。
- 收缩能力（Contractility）：评估瞬时射血速度。
- 舒张期平台（Diastolic Plateau）：检测是否存在心室舒张末期的静息状态。

3. 研究核心

无监督深度学习方法：该方法利用合成数据进行预训练，再用真实患者数据进行自监督优化，实现个性化心脏数字孪生。
创新性可微渲染优化：通过渲染2D超声切片，并不断优化3D重建形态和探头位置，实现更高精度的形态匹配。
多中心临床验证：
- 新型生物标志物在1年全因死亡率预测中表现优异（AUC达0.82）。
- 自动心肌梗死定位可达81%准确率。

4. 研究贡献

提出了一种全新的4D心脏重建方法，提高TTE数据的可解释性。
无需3D地面真实数据，通过自监督优化提升重建质量。
提供自动心肌梗死定位、心脏功能评估和生存分析，提升诊断精度。
公开数据集（144例健康患者和314例AMI患者的超声影像及4D重建结果）。

5. 研究的临床意义

精准评估左心室形态和功能，减少医生之间的测量误差。
新型生物标志物可改善AMI患者的风险评估，提高生存预测能力。
提供自动化工具，减少手动标注需求，加速超声心动图的临床应用。

总结

本研究通过深度学习+可微渲染优化，实现了从2D超声影像到个性化4D心脏形态重建，为心血管疾病诊断、治疗和风险预测提供了强大工具。这种方法不仅提高了超声心动图的诊断能力，还可能在未来临床应用中大幅度降低心血管疾病的误诊率和死亡率。

亮点

Decoder

解码器基于GNN，以重建𝒍的3D LV形状。 GNN由多层组成，其中每层将图形卷积操作应用于其输入特征，并将其输出传递到下一层。 GNN层（GNL）的主要思想是通过利用有关其邻居的本地连接和特征值的信息将顶点的输入特征向量转换为另一个特征向量。提取的图像潜在特征向量𝒍分配给四层ARMA GNL的第一层的每个顶点（Bianchi等，2021）。每层的输出顶点特征维度分别为32、16、8和3，最后一个描述了3D欧几里得空间中LV形状的坐标。GNLs仅更改顶点特征值和特征维度，但不更改顶点的数量或网格拓扑。为了促进形状预测并改善训练，我们插入了Laumer等人引入的提升采样操作。（2023年），在每个GNL之后，逐渐增加了解码器第一个GNL中的最初16个顶点的数量，将最终网格尺寸逐渐增加，由4038个顶点组成。第一层应代表重建形状所需的最重要，更高的特征。对于最终的解码层，网络应学习本地结构。

特征矩阵的上采样是通过具有UPS采样矩阵（𝑼𝑘𝑿𝑘）的特征向量矩阵的矩阵乘法来执行的。模板网格用于计算不同下采样的网格版本之间的上采样矩阵（图5）。在训练期间，我们允许矩阵和𝑼𝑘可以学习，并使用偏置矩阵𝑩𝑈𝑘扩展这些操作。该技术支持更大的灵活性，并最终导致生成更顺畅的重建。每个阶段的顶点连接都在邻接矩阵𝑨𝑘中捕获。在每一层中，都执行以下操作：

SSM的平均网格用于根据原始网格的不同下采样版本来计算上采样矩阵。每个阶段的顶点连接（拓扑）都在固定的邻接矩阵中捕获。

二维图像的像素匹配3D点

origin描述中点，normal描述平面法线，𝒖(orientation)描述方向/旋转，即“向上”方向。缩放𝑠(scale)是缩放因子。该图描述了不同的传感器参数，定义了渲染截面的定位和比例。

$M = (V,T)$

其中V表示点，T表示三角面。

顶点𝑣∈𝑇描述了三维空间中的一个点，三角形𝑡∈𝑇包含了构成网格面的三个顶点的索引。

给定空间中一个点𝒑∈R3和一个网格𝑀输出该点是否在网格内(𝑓(𝒑，𝑀)= 1)，网格外（𝑓(𝒑，𝑀)= 0）.

如果一个点的三维坐标位于网格的封闭表面的边界内，则认为它在网格内。要生成某一视图的完整图像，我们必须在表示该视图的横截面(<s:1>´R3´)上的每个像素坐标𝒑处计算𝑓。

解决边界上非0即1的梯度训练问题

我们考虑一个网格𝑀，一个点𝒑∈扮成，对应的真实值像素值∈{0,1}。所提出的可微渲染函数𝑅∶R3 ×→[0,1]由式给出

f的定义：给定三维空间中𝒑∈R3中的一个3D点和一个网格M，输出该点是在网格内(𝑓(𝒑，𝑀)= 1)还是在网格外(𝑓(𝒑，𝑀)= 0)。

也就是给了一个网格（心室模型），判定一个3D点是否在网格内或者外。外0，内1。

y的定义：我们考虑一个网格𝑀，一个点𝒑∈C，对应的真实值像素值y∈{0,1}。

也就是该3D点对应的横截面上的像素时“1”描述左室血池，“0”描述背景。

提出的可微渲染函数：

d是测量点𝒑和网格表面之间距离的距离度量（最小欧氏距离）。

𝜎 = 0.5。

Loss的设置

在2D和3D上都做Loss。网格坐标归一化为[0,1]。通过最小化训练集上的多个损失函数来优化重建网络𝐺的权重:

Loss 3D

$\mathcal{L}_{3D} =\|G(l)-M \|_2$

其中G是重建网络，M是已知网格meshes，l是segmentation maps分割图。

使用𝐿2-distance作为损失函数(与例如倒角距离相反)是一个合理的选择，因为固定的网格拓扑和网格点之间的对应关系，其计算效率，有效的梯度传播以及与欧几里得空间的自然对齐。

Loss 2D

Focal Loss：ICCV 2017 Open Access Repository

对一个子集进行抽样 $P^c$ 每个视图由4096个点组成 𝑐 ∈ V = {A2C, A3C, A4C}。也就是从三个切割图中，各抽取4096个点相加其Focal Loss 损失。 R(p,G(l))是前面的可微渲染函数， $I^c(p)$ 是对于c分割图中，点p对应的像素的真实值。

Loss Laplace

为了确保生成网格的平滑和保真度，我们施加了额外的正则化策略，这是基于拉普拉斯算子。

给定一个网格𝑀=（𝑉，𝑇）和一个任意的顶点𝑣∈𝑉。

N(v)分辨𝑣的相邻顶点集。在我们的情况下，这些是直接连接到𝑣的顶点。 𝛿𝑣对于翻译，旋转和均匀缩放是不变的。当比较或分析形状在3D空间中的位置，方向或尺度如何，这种不变性是有益的。在光滑网格中，我们期望一个顶点近似于其相邻顶点的均值。这可以通过惩罚拉普拉斯的大欧几里得规范来实现。拉普拉斯正则式由

在实验中，我们观察到，对于某些网格结构，上述拉普拉斯正则化器可能导致网格表面出现峰值。在这样一个峰的顶端的顶点有一个大的拉普拉斯函数，但同时它导致它的邻居的小拉普拉斯函数。因此，对于具有较大邻域的顶点，我们观察到这样的峰值。作为补救措施，我们对大的拉普拉斯的惩罚比小的拉普拉斯人的惩罚不成比例地多，方法是对拉普拉斯的范数的平方求和，而不是对范数求和。拉普拉斯正则化的平方由

Loss GMM

为了保证生成的网格的高保真度，我们引入了基于高斯混合模型(GMM)的网格拉普拉斯先验，该模型受到Lin等人(2021)的启发，他们在GMM框架下建模拉普拉斯的密度分布，并将其与Graph CNN一起用于学习人体网格重建。我们使用期望最大化(EM)算法来优化GMM参数，以最大化合成网格数据集的可能性。

单个网格由其顶点拉普拉斯量的规范表示，在拟合似然函数之前，我们通过主成分分析𝑇PCA将𝑀𝐿的维数从4038降至18，得到𝛥=𝑇PCA(𝑀𝐿)。这18个维度仍然捕获了合成数据集中90%的数据可变性。将网格的负对数概率定义为

其中，𝜙、𝝁和𝛴为GMM优化后的似然参数。我们使用𝐾= 4混合成分。对数概率可以取很大的值。因此，为了使损失对训练更具鲁棒的，我们根据SSM的平均网格的对数概率对其进行归一化，并将其传递给s型函数。在训练期间，我们尽量minimise:

我们使用最大算子来防止惩罚概率𝑝(𝛥)大于𝑝(𝛥𝑚𝑒𝑎𝑛)

总Loss

在合成数据集上进行预训练𝐺的整体损失函数由上述定义的损失函数的加权和给出:

重要的是，在2D到3D网络预测出合理的形状之前，开始使用a = 1进行训练，我们通过生成的形状的可能性来判断。由于方程(4)定义的距离度量期望一个凸形状，而在网络训练开始时并非如此，因此这个训练过程是必要的。包括二维损失Loss 2 D 太早可能会导致网格表面的自交，其中很大一部分表面移动到目标形状内部。通过在训练期间缓慢地将 a 降低，我们可以防止在训练的早期阶段由于预测形状的非凸性而发生的自相交。在训练的最后阶段，我们消除了Loss 3D，并且仍然观察到验证集上Loss 3D损失的改善，这表明基于可微呈现的损失Loss 2d的有意义学习。

𝛽1和𝛽2设置为0.0005，𝛾设置为10−6。

一旦验证损失停止减少，就停止训练。

我们使用Adam优化器，批大小为4，学习率为0.0001。当验证损失趋于稳定时，学习率下降了0.95倍