论文精读（一）Efficient Pix2Vox++ for 3D CardiacReconstruction from 2D Echo Views

高效的Pix2Vox++用于从2D超声视图进行3D心脏重建。

Efficient Pix2Vox++ for 3D Cardiac Reconstruction from 2D Echo Views | SpringerLink

一图流

摘要

我们提出了一个简单的改变Pix2Vox++网络的内存使用量和计算复杂性的大幅减少，并从2D标准心脏视图执行3D解剖重建的方法，有效地使3D解剖重建从有限的2D数据。

我们使用合成生成的数据评估我们的管道，仅从心脏的两个标准解剖2D视图实现准确的3D全心脏重建（峰值交叉联合评分> 0.88）。

1 引言

1.1 动机与背景

2D超声便宜，常用，安全，时间分辨率高但是依赖医生的熟练程度。

3D伪影多，时间空间分辨率差，价格贵。

心脏作为一个3D结构，十分复杂。仅用2D无法捕捉大多数特征，比如心房壁心事壁，瓣膜铰链。心脏运动结合了3D运动中的旋转，垂直运动与位移，捕捉的运动中的2D视图会影响分析。

大部分医院只有2D超声。

1.2 相关工作

深度学习进入3D重建，可以学习形状和结构，目前在自然医学成像中SOTA（性能最强）。

**自然图像中的2D到3D重建。**使用DL的当前SOTA方法允许从一个或多个RGB图像对对象进行精确的2D到3D重建，而无需相机定位校准信息的帮助。用于比较重建技术的流行标准化数据集是ShapeNetCore [4]。ShapeNetCore涵盖55个对象类别，拥有超过51，300个独特的3D模型。

传统的多视图几何，但是现在模型使用了DL，也有一些比较理想的数据库。ShapeNetCore。

2019年，Pix2Vox出世，很猛。但是烧GPU。

超声特定2D到3D重建。

有，但是没用于心脏。Cerrolaza等人[1]使用条件分层生成网络变分自动编码器（VAE）进行了胎儿颅骨重建，并使用三个正交US视图实现了0.91的Dice系数（DC）。

胎儿颅骨重建，会有个常见的胎儿形状，但是心脏在成像中会变形。

普雷沃斯特等人[12]将联合收割机DL与惯性测量单元（IMU）结合，使用两个连续帧，光流作为网络的通道，沿着IMU提供的欧拉角。在体模上，它们分别实现了1.70、18.30和36.90 mm的最小、中等和最大漂移。

这段不是很懂，需要学习IMU和光流知识。

1.3 贡献

前无古人。

1）将2D超声视图与相应的3D地面实况合成的方法;

2）证明PiVox可以生成逼真的合成心脏的精确2D到3D重建;

3）对两个PiVox网络进行简单修改，大大减少了内存和计算开销，同时仍然实现了高重建精度。

2 方法

两类数据

1）分割数据集，包含2D标准视图上的二进制组织掩模（分割）。通过切片3D计算模型来模拟掩模（其允许使用3D地面实况进行评估）; （2D超声->2D切片->3D模型）

2）合成US数据集，其包含从组织掩模生成的合成2D标准US视图。（2d切片变超声，验证）

用于模型训练和测试。

2.1从3d心脏模型分割出2D图像

在标准超声心动图视图下对心脏的3D网格模型进行切片来获得合成的2D分割。

这些将用于评估2D到3D重建网络如何受到将存在于真实的超声图像中的大量变化的影响，并且还提供对合成数据执行训练和对真实的超声数据进行测试的可行性的洞察。如果可以证明仅使用合成数据进行训练并在真实的数据上进行测试是可行的，则其将允许生成大的训练数据集并大大减少验证方法所需的配对的3D CT/2D超声数据的量。

合成数据上训练可行，那就可以猛猛生成数据，可以减少真实数据量使用。

我们的切片提取技术利用了可视化工具包（VTK）[8]和PyVista Python包[3]的组合。使用的网格数据是由Rodero等人创建的一组1000个合成心脏网格。[14]

VTL+PyVista工具

提取标准平面心脏视图的第一步需要为每个视图定义3个界标，平面可以拟合到该界标，或者定义2个界标和沿矢量的投影沿着。我们基于它们与网格/分割中存在的各种心脏结构的关系来定义这些自动计算的标志（参见图10）。表1）。经过培训的超声医师检查了10组分割，以确认所选择的标志导致从我们的合成网格中提取的切片具有适当的真实性。

定义法向量，坐标轴等。经过专门医师确认。

通过执行从二尖瓣质心到LVmesh中所有网格单元面的射线投射，找到左心室心尖（LVA）。如果沿射线有一对沿着交叉点（即射线穿透心内膜和心外膜壁），则计算这些交叉点之间的距离。选择最短距离作为LVA，以找到心壁最薄的位置，并尽量减少心尖缩短。

2.2 合成超声图像

从相同的3D心脏模型生成合成超声图像（即，具有真实的外观），以研究现实超声数据的可行性，同时具有精确的真实实况。我们采用了吉尔伯特等人提出的技术。[5]使用CAMUS数据集[7]。简而言之，伪图像，即对应于2腔和4腔图像的组织掩模，具有噪声和高斯模糊，被用作具有未配对US图像的CycleGAN网络[17]的输入，以创建最终的合成图像，如图2所示。

图2：在从分割掩模创建合成超声图像的过程中的每个阶段生成的数据的示例情况。从左到右，a）初始分割图像B）生成的伪图像c）生成的合成US d）在生成的图像上叠加输入掩模。

在3D形状上切割得a图，再生成一个伪图像b图，与一个高斯噪声c图，将c，d图叠加得d图则为所合成得超声图像。这样就就有2d超声（合成）->3d模型的对应。

产生高质量的合成US图像需要1）噪声参数2）加性噪声和模糊的序列以及3）高斯模糊核的大小的小变化。由于不同分辨率的输入图像以及我们要求不执行任何几何变换（例如，输入解剖结构尺寸的变更），这些参数发生了变更。

2.3 高效 Pix2Vox++

通用Pix2Vox++（PiVox）网络架构由用于每个输入视图的一系列并行编码器和解码器分支组成，然后被传递到融合和细化模块。特别地，由于3D解卷积内核，解码器是内存+CPU昂贵的。这极大地限制了可以使用的3D体积的分辨率，因此需要具有高重建精度的更有效的网络。它还包含大量的可学习参数，这反过来又需要一个非常大的训练集。

Xie等人提出了一种重量更轻，但性能更低的PiVox/Accurate网络变体，称为PiVox/Fast，用于通过1）使用ResNet-18而不是ResNet-50来减少内存和计算复杂度2）减少去卷积内核大小3）删除细化模块。

我们提出了一个简单的适应的PiVox网络，简称为EPiVox，大大减少内存使用和计算费用，对性能的影响最小。我们通过在编码器模块的末端沿着输入图像维度沿着添加3D卷积来实现这一点，以针对任何数量的输入图像将解码器减少到单个分支。所有信息都通过PiVox网络中的并行解码器分支传播，通过压缩的潜在空间，理论上允许仅具有单个解码器分支而不是多个分支的性能降低最小。

2.4 合成心脏的2D到3D重建

实作详细数据。将1000个心脏网格的数据集分为70/15/15%的训练/确认/测试部分，并在每次不同的训练运行中保持不变。使用二进制分割掩码对模型进行训练，使用CycleGAN网络和ShapeNet数据集将标签图转换为逼真的回声样图像。所有培训均使用Pytorch 1.9.1 [11]在Nvidia RTX 3090上进行，持续200个时段。使用Adam优化程序，β1为0.9，β2为0.999 [6]。

3 实验与结果

使用阈值交叉联合（IoU）评估重建准确性

ShapeNet和心脏训练运行的最终重建结果如表2 - 3所示.表2显示，PiVox/Accurate始终是性能最佳的网络，而E-PiVox/Fast和E-PiVox/Accurate始终分别在PiVox/Fast和PiVox/Accurate的1.2%和2%范围内。这是在内存和计算效率更高的情况下实现的。

PiVox比E-PiVox强，但是需要内存与算力支持。

表2：IoU在32立方分辨率的ShapeNet数据集上比较多视图2D到3D物体重建。

表3：IoU在64立方分辨率心脏数据集上比较多视图2D与3D对象重建。A2C和A4C分别指心房2腔和4腔图像视图，9视图表示所有9个先前描述的标准超声视图。

从表2中可以看出，我们的E-PiVox网络能够非常接近计算成本更高的PiVox网络的性能。图3中示出了关于输入视图的数量的计算费用和存储器使用之间的关系，并且突出了当使用更大数量的视图（诸如在视频记录中）或更高分辨率（例如全分辨率CT）时高效网络架构的重要性。表3显示了使用二元和真实超声CycleGAN推断图像时的结果。如表3所示，在相对比较中，两种E-PiVox网络的表现通常优于PiVox网络。在心脏壁相当薄的区域，重建精度下降最多，通常在心房区域。出现在整个结构上的小误差似乎是由于体素的精确位置离散化中的误差而出现的。

表3:在64立方分辨率下，比较4个网络及其理论上每个输入视图数的乘法/加法运算。

我们在图4中展示了3D心脏重建的示例，包括使用来自CAMUS数据集的真实的2D回波图像的初步结果。经过综合训练的重建显示出与地面真实解剖结构（黑线框）的密切对应。然而，输入视图数量的减少导致准确性降低和非生理孔清晰。当使用类US图像时，这种现象加剧（参见图4C）。在所有型号的LVA和瓣膜平面中观察到较大差异。

图4：A）9个二元视图; B）二元心尖2腔和4腔视图; C）CycleGAN推断心尖2腔和4腔视图; D）CAMUS数据集的示例病例。A、B和C中示出了相同的情况。E-PiVox输出列显示地面实况（白色）和网络预测（橙子）。“3D心脏解剖”列显示相对于地面实况网格（黑线框）的绝对误差。（在线彩图）

4 结论与讨论

这项工作提供了一个概念证明，一个复杂的几何形状，如人类心脏，可以重建合理的准确性，从有限数量的标准2D解剖视图。这可以通过有效的训练和推理来实现。表3中的结果表明，PiVox网络可以成功重建完整的心脏，9个分割视图的峰值IoU为0.903，仅2个视图的性能最小降低至0.881。考虑到模拟真实世界采集的更具挑战性的输入图像数据，仅用2张合成US图像实现的0.741 IoU代表了可接受的性能。重要的是要注意，真实的US图像在对比度和外观上存在很大的变化。使用真实的数据的初步结果（图4中的图D）表明重建是可能的，尽管需要进一步改进。给定适当的足够大的真实的US图像集，可以从少量的标准临床2D视图进行精确的3D重建。这种贡献的关键是训练数据（即2D视图）与理想化的地面真实3D重建的合成。这种方法解决了医疗数据可用性、数据隐私和专家注释成本方面的限制。初步结果显示，使用合成数据训练的模型在真实的数据上的应用前景，但需要进一步的研究和证据。我们研究的主要局限性在于，它是基于健康受试者的合成队列的解剖变异性。因此，在疾病存在的情况下，性能可能会急剧下降。总之，这项工作表明，在一个合成的工作台，从标准的2D视图的3D心脏重建的可行性。