MVSNet
MVSNet多视图几何论文阅读(一)MVSNet - 知乎 (zhihu.com)
https://blog.csdn.net/weixin_43013761/article/details/102869562?fromshare=blogdetail&sharetype=blogdetail&sharerId=102869562&sharerefer=PC&sharesource=weixin_52648187&sharefrom=from_link
https://blog.csdn.net/liubing8609/article/details/85340015
MVSNet——《MVSNet:Depth Inference for Unstructured Multi-view Stereo》
论文链接:
MVSNetopenaccess.thecvf.com/content_ECCV_2018/papers/Yao_Yao_MVSNet_Depth_Inference_ECCV_2018_paper.pdf
GitHub链接:
MVSN ...
三维重建的损失函数和评估标准
三维形状间的评价指标体素Dice Similarity Coefficient (DSC)Dice 相似系数 是一种基于体素(Voxel)的相似性度量,通常用于三维医学图像配准。它通过计算两个体积的重叠比例来评估形状的相似度。
计算公式:DSC(A, B) = \frac{2 |A \cap B|}{|A| + |B|}
A 和 B 为两个体积对象,计算它们重叠体素数的比例。
特点:
更适合用来衡量三维体积的相似度,而不是点云。
重叠率的计算对整体形状的比较更有意义。
Jaccard Similarity (Intersection over Union, IoU)Jaccard 相似性 是衡量两个形状重叠程度的一种方法,特别是在三维体素或网格表示中常用。它计算两个形状的交集与并集之比。
计算公式:IoU(A, B) = \frac{|A \cap B|}{|A \cup B|}
A 和 B 分别表示两个三维体积的点集或体素。
特点:
IoU 主要用于体素网格或三维对象的相似性评价,广泛应用于物体检测、分割等任务。
对离群点鲁棒性强,但它对局部的微小变化不敏感。
点云Chamf ...
VAE变分自编码
VAE 变分自编码器https://blog.csdn.net/smileyan9/article/details/107362252
https://blog.csdn.net/Je1zvz/article/details/136276851
概率视角下的生成模型 - 知乎 (zhihu.com)
[1606.05908] Tutorial on Variational Autoencoders (arxiv.org)
VAE是一种基于贝叶斯推理的生成模型,它通过编码器将数据映射到潜在空间,然后通过解码器从潜在空间重构数据。
相关背景生成模型(Generative model):生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。换句话说,生成模型首先研究的是特征 X 与标签 y之间的联合分布,然后再求条件概率 P(y|X) ,预测时应用最大后验概率法得到预测结果。
论文(Tuturial on Variational Autoencoders)中举例如下:
图像是一种流行的数据,我们可以为其创建生成模型。每个“ ...
三维重建业内相关知识(论文写作作业1)
课题:三维重建 / 心脏超声的三维重建1 顶级期刊或会议1.1 CVPR(会议)全称:IEEE Conference on Computer Vision and Pattern Recognition
出版商:IEEE
领域:计算机视觉和模式识别
时间:一年一度
CCF A类
1.2 ICCV (会议)全称:International Conference on Computer Vision
出版商:IEEE
领域:计算机视觉
时间:两年一度
CCF A类
1.3 ECCV(会议)全称:European Conference on Computer Vision
出版商:Springer Verlag
领域:计算机视觉
时间:每两年召开一次,与ICCV正好错开
CCF B类
1.4 WACV全称:IEEE Winter Conference on Applications of Computer Vision)
领域:计算机视觉
时间:每年冬天,美国本土
CCF B类
1.5 TPAMI(期刊)全称:IEEE Transactions on Pattern Analysis and ...
深度图Depth_Map
深度图(Depth Map)深度图是什么深度图(depth map)是一种灰度图像,其中每个像素点距离相机的距离信息。它是计算机视觉中常用的一种图像表示方式,用于描述场景的三维结构。
深度图的获取方式深度图的发展历史可以追溯到20世纪60年代。最初,深度图像是通过手工标注或利用先验知识推测出来的。随着计算机视觉技术的发展,深度图像的获取方法和算法也不断进步和完善。
深度图的获取方式有多种,常见的方法包括:
通过激光雷达或结构光等传感器获取深度信息,再将其转换为深度图像。
利用双目或多目相机的视差信息计算深度,再将其转换为深度图像。
利用先验知识或模型对图像进行分析,推测出每个像素点的深度信息。
激光雷达或结构光等传感器的方法激光雷达或结构光等传感器获得的深度,可以得到绝对深度,因为他们的数据是测出来的,根据TOF计算得到的真实距离。所以在连续的图片序列中,由于深度是绝对的,他们具有一样的参考价值。
激光雷达这种方法也被叫做TOF方法(Time Of Fly)即通过激光/雷达波发出和收到的时间差,结合光速,计算信号在这段时间所走过的路程,所以也就能获得不同物体距离激光发射点的距离了 ...
三维空间的表示方法
三维空间的表示方法http://t.csdnimg.cn/PauoT
显示表示体素Voxel,点云Point Cloud,三角面片Mesh等。
隐式表达符号距离函数Signed Distance Funciton(SDF),占用场Occupancy Field,神经辐射场Neural Radiance Field(NeRF),TSDF截断符号距离。TSDF截断符号距离 | CJH’s blog (cjh0220.github.io)
函数function与场field先回顾一下函数和场的概念,我认为函数和场实际上都是代表了一种映射关系。
函数 f(x)=y 是自变量 x 的集合到因变量 y 集合的映射,也就是每个x对应一个y。
场的定义是向量到向量或数的映射,空间中的场可以认为是 “空间中点”到“点的属性”的映射,也就是每个点对应这个点的属性。以磁场为例,磁场就是空间中每个点都具有一个磁感应矢量B,也就是点到向量的映射,即空间中每个点都对应到一个特定的向量B。在其他情况下,点不一定对应到向量,也可以对应到标量或者其他属性,只要是空间中点到属性的映射都是空间场。( 一般用坐标 (x,y ...
铰链损失Hinge_Loss
铰链损失Hinge Loss铰链损失(Hinge Loss)是一种常用于 支持向量机(SVM) 中的损失函数,尤其是在分类任务中。它衡量模型的预测结果与实际标签之间的差异,并试图最大化分类的间隔,使样本尽量远离决策边界。
铰链损失的公式假设模型的输入为特征向量 x,目标标签为 y(取值为 +1 或 −1),模型的预测为 $\hat{y} = w^T x + b$。铰链损失的公式如下:
$\text{Hinge Loss} = \max(0, 1 - y \cdot \hat{y})$
公式解释
y 是真实标签,取值为 +1 或 −1。
$\hat{y}$ 是模型预测的值。
当$y \cdot \hat{y} \geq 1$ 时,损失为 0,这意味着样本被正确分类,并且与决策边界的间隔足够大。
当 $y \cdot \hat{y} < 1$ 时,损失为$1 - y \cdot \hat{y}$,这意味着模型的预测与标签之间的差距越大,损失越大。
应用场景铰链损失主要用于 线性支持向量机(Linear SVM) 的优化过程中,用来最大化分类的间隔,从而找到最优的决策边界。它的目标是 ...
三维重建学习(八)SLAM
三维重建学习(八)SLAM图像的词袋表示,图像检索
给一张图片,转化为词频向量。相似的图像就是某个小图像比较高。也能分类。难在如何生成词典。
词典来自于特征提取与表示
把所有特征做成描述符,再做聚类。
给一个块,看跟那个块近,就认为他是哪个单词。将所有小区块变成了索引值。每个框框统计,就得到词袋描述。
相似性度量给两个图像向量,进行相似性度量,算余弦距离即可。
TF-IDE 词频因子
对他进行改良,对向量进行加权,凸显了部分单词的重要性和抑制了部分单词。
倒排索引加速运算。重要性大的先比较。
捆绑调整
摄像机的内参数不优化。
生成树
SLAM介绍
扫地机器人的初始化步骤,就是走边房间进行建图与定位。绿色的是摄像机,黑色为点云。
传感器分类传感器可分为俩个类:
携带于机器人本体上的,例如机器人的轮式编码器、相机、激光等等。
安装于环境中的,例如前面讲的导轨、二维码标志等等。
摄像机:单目、双目、深度相机。
SLAM开源方案
ORB-SLAM核心就是三个线程:
跟踪:确定当前帧位姿
建图:完成局部地图构建
回环修正:回环检测以及基于回环信息修正系统漂移。
不是每 ...
论文精读(八)OReX:使用神经场从平面横截面重建物体
论文精读(八)OReX:使用神经场从平面横截面重建物体原论文
代码与数据: https://github.com/haimsaw/OReX
引言
从平面横截面重建3D形状是一项挑战,受到医学成像和地理信息学等下游应用的启发。输入是一个在空间中稀疏的平面集合上完全定义的输入/输出指示函数,输出是指示函数到整个体积的插值。以前的工作解决这个稀疏和不适定的问题,要么产生低质量的结果,或依赖于额外的先验,如目标拓扑结构,外观信息,或输入法线方向。在本文中,我们提出了OReX,这是一种仅根据切片进行3D形状重建的方法,其特征是将神经场作为插值先验。在输入平面上训练一个适度的神经网络,以返回给定3D坐标的内部/外部估计,从而产生一个强大的先验知识,从而产生平滑性和自相似性。这种方法的主要挑战是高频细节,因为神经先验过于平滑。为了缓解这一问题,我们提供了一个迭代估计架构和一个分层输入采样方案,鼓励从粗到精的训练,使训练过程在后期阶段专注于高频。此外,我们确定和分析了波纹状的效果源于网格提取步骤。我们通过在网络训练期间围绕输入/输出边界正则化指示函数的空间梯度来缓解它,从根本上解决问题。通过大量的定性 ...
三维重建学习(七)SFM
三维重建学习(七)运动恢复结构(SfM)系统解析回顾单应矩阵单应矩阵—空间平面在两个摄像机下的投影几何。
捆绑调整BA(Bundle Adjustment)
恢复结构和运动的非线性方法。
P3P求解摄像机位姿
核心思路:
求解A,B,C三点在当前摄像机坐标系上的坐标;
通过A,B,C在当前摄像机下的坐标以及其在世界坐标系下的坐标,估计摄像机相对于世界坐标系的旋转与平移。
SfM系统输入输出输入:多张图片
输出:3D点云(structure),摄像机位姿(motion)
问题描述已知:三维场景的m张图像以及每张图像对应的摄像机内参数矩阵$K_i(i=1,…,m)$
求解:
三维场景结构,即三维场景点坐标$X_j(j=1,…,n)$;
m个摄像机的外参数$R_i$及$T_i(i=1,…,m)$
特征提取SIFT
相当于为每个像素提取一个梯度方向,并累加。所有梯度方向做累加,看最大的方向朝向。将整个图形旋转同一方向即可对应。
不直接计算像素对比,而是计算梯度对比。
特征匹配
但是里面的点存在错误的匹配点,也就是说数据收到异常值污染。
可以用RANSAC模型拟合方法解决。 ...