视觉SLAM基础补盲

3D Gaussian Splatting for Real-Time Radiance Field Rendering

  • SOTA方法
  • 3DGS contribution
  • 传统重建
    • 基于点的渲染
    • NeRF
  • 基础知识补盲
    • 光栅化
    • SFM
    • 三角化
    • 极线几何
    • 标准的双目立体视觉
    • 立体匹配理论与方法
    • 立体匹配的基本流程
    • 李群和李代数
  • 李群和李代数的映射
  • 李代数的求导
    • 李代数解决求导问题
      • 李代数求导:
      • 扰动模型则
    • SE(3) 上的李代数求导

SOTA方法

3D表示:格网和点
连续场景表示:
NeRF(体积射线行进优化多层感知机(MLP),以实现捕获场景的新视图合成)
插值存储在体素、哈希网格或点中的值来
构建连续表示

未考虑插值会受到外部噪声干扰

3DGS contribution

  1. 3D 高斯作为灵活且富有表现力的场景表示。
  2. 使用 SfM 过程中生成的稀疏点云初始化 3D 高斯,仅使用 SfM 点作为输入即可获得高质量结。
  3. 3D 高斯是可微的体积表示,同时可以通过投影到 2D应用标准 α 混合来非常高效地进行光栅化
  4. 3D 高斯属性的优化 ——3D 位置、透明度 α、各向异性协方差和球面谐波(SH)系数
  5. 3DGS属性优化与自适应密度控制步骤交错进行,在优化过程中添加和偶尔移除 3D 高斯。优化过程产生了场景的合理紧凑、非结构化且精确的表示
  6. 快速可见性感知渲染:其使用快速 GPU 排序算法并受基于瓦片的光栅化启发。然而,由于我们的 3D 高斯表示,我们可以执行尊重可见性顺序的各向异性 splatting—— 借助排序和 α 混合 —— 并通过跟踪所需数量的已排序 splat 的遍历实现快速准确的反向传播
    ??如何理解3DGS与自适应密度控制交错进行?如何理解在优化过程添加和移除3DGS?如何理解快速GPU排序算法以及瓦片光栅化和各向异性splatting?什么是α混合?作用是什么?如何理解后向传播?关注什么参数调整

传统重建

基于点的渲染

NeRF

基础知识补盲

光栅化

什么是光栅化?光栅化具体的实现步骤?

SFM

如何通过运动恢复结构(SfM)校准的相机

三角化

极线几何

极平面、极线
在第二张图像上面搜索空间点M在第一张图像的投影点m的对应点m’的时候,只需要在对应的极线上搜索就可以了
在这里插入图片描述

标准的双目立体视觉

条件
视差 d:指同一物体在左右两张图像中对应点的水平坐标差,在左视图的列坐标xl减去在右视图上的列坐标xr,是像素单位,则最终的水平视差为:d = xl - xr
深度
深度D等于像素在该视图相机坐标系下Z坐标,是空间单位
视差图
视差图指存储立体校正后单视图所有像素视差值的二维图像

  1. 视差图是一张二维图像,和原图等大小
  2. 视差图每个位置保存的以像素为单位的该位置像素的视差值
  3. 左视图视差图:在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标
    视差与深度的关系:视差与深度成反比:d = f x b / z对应的视差d越小,深度z越大(距离相机越远)
  4. 相机的视线平行
  5. 相机光心连接构成的基线,与两个相机的光轴平行
    极线校正——使两幅图像的极线相互平行

立体匹配理论与方法

主要用来估计图像中每个像素点的可靠的深度信息
立体匹配理论:立体匹配的目的就是对同一三维场景两幅成像平面中的每一个像素点找到与其相匹配的点,于是可以计算出每个坐标点的视差值 d ,进而可以准确的描述场景的三维空间信息
视差和深度之间的关系
立体匹配(视差估计)
输入为一对在同一个时刻捕获的经过极线校正的左右两幅图像Ir,Il,输出是由参考图像中(左图)中每个像素对应的视差值所构成的视差图d。视差是三维场景中某一点在左右图像中对应点位置的像素级差距。
在这里插入图片描述
在这里插入图片描述

立体匹配难点:
光照变化、遮挡、无纹理区域、重复纹理、视差不连续

立体匹配的基本流程

匹配代价计算:
衡量待匹配像素与候选像素之间的相关性。代价越小则说明相关性越大,是同名点的概率也越大。(是否为同名点都可以进行匹配计算)
每个像素在搜索同名点之前,往往会指定一个视差搜索范围D(Dmin ~ Dmax),视差搜索时将范围限定在D内,用一个大小为W×H×D(W为影像宽度,H为影像高度)的三维矩阵C存储每个像素在视差范围内每个视差下的匹配代价值。矩阵C通常称为DSI(Disparity Space Image)。
选择合适的匹配代价计算函数是立体匹配中不可忽视的关键步骤
代价聚合:

视差计算
视差优化

李群和李代数

这里首先利用了旋转矩阵的正交性质,并考虑旋转矩阵是具有连续时间变化的性质,对旋转矩阵基于时间t求导
最终求导整理得出反对称矩阵的性质
在这里插入图片描述
反对称矩阵能够用一个三维向量表示量 ϕ(t) ∈ R3——这也是反对称矩阵与三维向量存在的性质
考虑在原点附近进行一阶泰勒展开,同时考虑李群在原点附近的正切空间的性质,最终得到R(t)
在这里插入图片描述
特殊正交群SO3与特殊欧式群SE3
SO3代表旋转矩阵,而SE3代表变换矩阵。
这里需要注意:SO3旋转矩阵具有约束条件,而且旋转矩阵以及变换矩阵对加法不封闭,但是这些矩阵对乘法是封闭的
在这里插入图片描述
同时李群指的是具有连续(光滑)性质的群——SE(3)与SO(3)在实数空间上是连续的
李代数:
这里需要注意的是:李代数是一个由三维向量组成的集合每个向量对应到一个反对称矩阵,可以用于表达旋转矩阵的导数
李群与李代数的关系为:**指数映射关系R = exp(ϕ^). **
在这里插入图片描述
对于罗德里格斯公式可以形象的理解为:旋转矩阵R能够通过利用模长θ以及单位方向向量a^计算得出的,这样可以将李代数so(3)中的任意一个三维旋转向量,通过罗德里格斯公式,最终计算得出与指数映射等价的旋转矩阵
在这里插入图片描述
姿态矩阵SE(3)上的指数映射:
首先:对于矩阵SE(3),考虑为:在这里插入图片描述
将矩阵SE(3)通过se(3)李代数通过指数映射表示为:
在这里插入图片描述
那么如何理解李代数呢?se(3)位于R6空间中,对应的SE(3)的李代数se(3)包含三维平移向量ρ以及三维旋转向量φ
在这里插入图片描述
构建se(3)上面的指数映射:
在这里插入图片描述
得出se(3)的指数映射形式为:
在这里插入图片描述
将右上角的进行推导得:
在这里插入图片描述
平移部分经过指数映射后,发生了一次以J为系数矩阵的线性变换
那么怎么通过对数映射构建李群和李代数的关系呢?

  1. 旋转矩阵由9个量构成,但是一次旋转只是存在3个自由度。
  2. 旋转矩阵自身带有的约束:必须是正交矩阵,而且行列式为1
    通过一种方式,紧凑的描述旋转和平移:
    旋转矩阵R可以用一个单位长度的向量n,以及旋转角度θ来描述这个变换
    罗德里格斯公式能够明确这种变换
    注意Rn = n表示旋转轴上的向量在旋转后不发生任何变换,说明转轴 n 是矩阵 R 特征值 1 对应的特征向量,并且“旋转轴经过旋转之后不变”
    在这里插入图片描述
    李群与李代数的关系
    理解一下从SE(3)到se(3)的变化:
    通过在这里插入图片描述能够计算出旋转角θ,然后李代数又可以表示为一个绕着某个固定轴a旋转了θ角度的向量,也就是ε = θa,而绕着旋转轴a旋转角度θ,旋转轴经过旋转后仍然不变(Ra = a),如果通过姿态矩阵T求得t的话,就很简单!!!t = Jρ,而J可以通过θ和a求得,ρ就能够简单得出。
    在这里插入图片描述
    大家可能会想:这个雅可比矩阵J怎么求——通过se(3)的罗德里格斯公式求解:
    在这里插入图片描述

李群和李代数的映射

指数映射以及对数映射
在这里插入图片描述

李代数的求导

设计优化问题:
在这里插入图片描述
而针对于观测到的每一个路标点,都会产生一个error误差模型——最终的问题:寻找一个最优的T,使得整体误差的参茶值最小:
在这里插入图片描述
这里观察到:求解此问题,需要计算目标函数 J 关于变换矩阵 T 的导数。这里的重点是,我们经常会构建与位姿有关的函数,然后讨论该函数关于位姿的导数,以调整当前的估计值。然而,SO(3), SE(3) 上并没有良好定义的加法,它们只是群。如果我们把 T 当成一个普通矩阵来处理优化,那就必须对它加以约束(正交矩阵T*TT = I,det(T) = 1)。而从李代数角度来说,由于李代数由向量组成,具有良好的加法运算
!!! 使用李代数解决求导问题:

  1. 李代数表示姿态,然后根据李代数加法来对李代数求导
  2. 李群左乘或右乘微小扰动,然后对该扰动求导,称为左扰动和右扰动模型

李代数解决求导问题

BCH公式
在这里插入图片描述
上式对于φ1,φ2标量,该式成立。
但是将李代数通过指数映射转化为矩阵形式——>ln (exp (A) exp (B)) = A + B
这里需要关注的问题:如果标量φ1,φ2成立,那么此时变成矩阵上式仍然满足么?φ1,φ2的反对称矩阵为矩阵的形式,所以如果φ1 = A,φ2 = B,那么整个式子变成如下形式,对于矩阵来说,为非标量,所以,上面的式子就不成立
两个李代数指数映射乘积的完整形式,由 Baker-Campbell Hausdorff 公式(BCH 公式)给出
在这里插入图片描述
BCH 公式告诉我们,当处理两个矩阵指数之积时,它们会产生一些由李括号组成的余项。但是SO(3) 上的李代数
ln (exp (ϕ1) exp (ϕ2))∨,当 ϕ1 或 ϕ2 为小量时,小量二次以上的项都可以被忽略掉。

那么BCH 拥有线性近似表达:
== 这个公式将矩阵相乘转化为李代数相加的形式做了等式的近似!!==
在这里插入图片描述
该式告诉我们,当对一个旋转矩阵 R2(李代数为 ϕ2)左乘一个微小旋转矩阵 R1(李代数为 ϕ1)时,可以近似地看作,在原有的李代数 ϕ2 上加上了一项 Jl2)−1ϕ1
李代数在 BCH 近似下,分成了左乘近似和右乘近似两种,在使用时我们须注意使用的是左乘模型还是右乘模型
这里的J对应的是罗德里格斯公式在姿态矩阵上成立的变形等式
在这里插入图片描述
!!!而右乘雅可比仅需要对自变量取负号
在这里插入图片描述
在这里插入图片描述
对应的李代数实现优化问题求导可以考虑为:
在这里插入图片描述
用李代数实现优化问题求导:
由于李代数由向量组成,具有良好的加法运算。因此,使用李代数解决求导问题的思路分为两种:
1. 用李代数表示姿态,然后根据李代数加法来对李代数求导。
2. 对李群左乘或右乘微小扰动,然后对该扰动求导,称为左扰动和右扰动模型。

第一种方式对应到李代数的求导模型,而第二种则对应到扰动模型。下面来讨论这两种思路的异同

李代数求导:

李代数的求导根据优化函数:
在这里插入图片描述
此时对于T矩阵进行求导,也就是对矩阵求导(将李代数Φ通过指数映射为R的形式):
在这里插入图片描述
最终得到的函数对于R矩阵的求导为:
在这里插入图片描述
第 4 行至第 5 行将反对称符号看作叉积,交换之后变号。们推导出了旋转后的点相对于李代数的导数
在这里插入图片描述
利用李代数求导,引入了然含有形式比较复杂的 Jl,我们不太希望计算它

扰动模型则

由于这里仍然含有形式比较复杂的 Jl,我们不太希望计算它。而下面要讲的扰动模型提供了更简单的导数计算方式

在这里插入图片描述

在这里插入图片描述
!!!对于直接用李代数进行求导,通过对李代数先进性指数映射,然后进行左乘扰动,然后再通过对残差函数求导,将对旋转矩阵R的求导转化为对李代数再经过左乘扰动模型后的求导
这里避免了计算直接对李代数求导后,引入了雅可比矩阵Jl,带来额外的计算负担,通过左乘扰动,能够有效地规避Jl的计算
关注一下经过扰动模型得到的求导公式与直接对李代数求导的公式:
经过左乘扰动:
在这里插入图片描述在这里插入图片描述
直接对李代数求导
在这里插入图片描述在这里插入图片描述

SE(3) 上的李代数求导

直接对姿态矩阵进行上面的左乘扰动,这样能够避免直接对李代数计算引入额外的雅可比矩阵Jl的复杂计算:
请添加图片描述
在这里插入图片描述
在这里插入图片描述
SE(3)上的推导:
在这里插入图片描述在这里插入图片描述
根据下面的求导规则:
在这里插入图片描述
得到如下计算结果:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908426.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何利用 Redis 实现跨多个无状态服务实例的会话共享?

使用 Redis 实现跨多个无状态服务实例的会话共享是一种非常常见且有效的方案。无状态服务本身不存储会话信息,而是将用户的会话数据集中存储在外部存储中(如 Redis),这样任何一个服务实例都可以通过查询外部存储来获取和更新用户的…

《chipyard》docker使用

一、启动/重启服务 二、登入/退出 容器对象查看 sudo docker ps -a # 查看容器列表 登入已例化的容器 sudo docker exec -it -u root 737ed3ddd5ff bash # 737ed3ddd5ff<容器名称/ID> 三、容器编辑 删除单个容器 sudo docker stop <容器ID> #停止容器 s…

浏览器工作原理06 [#]渲染流程(下):HTML、CSS和JavaScript是如何变成页面的

引用 浏览器工作原理与实践 简单回顾下上节前三个阶段的主要内容&#xff1a;在HTML页面内容被提交给渲染引擎之后&#xff0c;渲染引擎首先将HTML解析为浏览器可以理解的DOM&#xff1b;然后根据CSS样式表&#xff0c;计算出DOM树所有节点的样式&#xff1b;接着又计算每个元素…

AI书签管理工具开发全记录(十三):TUI基本框架搭建

文章目录 AI书签管理工具开发全记录&#xff08;十三&#xff09;&#xff1a;TUI基本框架搭建前言 &#x1f4dd;1.TUI介绍 &#x1f50d;2. 框架选择 ⚙️3. 功能梳理 &#x1f3af;4. 基础框架搭建⚙️4.1 安装4.2 参数设计4.3 绘制ui4.3.1 设计结构体4.3.2 创建头部4.3.3 创…

CC7利用链深度解析

CommonsCollections7&#xff08;CC7&#xff09;是CC反序列化利用链中的重要成员&#xff0c;由Matthias Kaiser在2016年发现。本文将从底层原理到实战利用&#xff0c;全面剖析这条独特而强大的利用链。 一、CC7链技术定位 1.1 核心价值 无第三方依赖&#xff1a;仅需JDK原…

openvino使用教程

OpenVINO使用教程 本专栏内容支持平台章节计划 本专栏内容 OpenVINO 是一款开源工具包&#xff0c;用于在云端、本地和边缘部署高性能 AI 解决方案。我们可以使用来自最热门模型框架的生成式和传统 AI 模型来开发应用程序。充分利用英特尔 硬件的潜力&#xff0c;使用openvino…

ESP8266(NodeMcu)+GPS模块+TFT屏幕实现GPS码表

前言 去年写过一篇关于使用esp8266(nodemcu)gps模块oled屏幕diy的gps定位器的文章.点击回顾 .无奈OLED屏幕太小了,最近刚好有时间又折腾使用TFT屏幕diy了一款gps码表 效果如图 材料准备 依旧是请出我们的两位老演员 nocdmcu一块. GPS定位模块(我买的大夏龙雀的DX-GP10-GP…

解决获取视频第一帧黑屏问题

文章目录 解决获取视频第一帧黑屏问题核心代码 解决获取视频第一帧黑屏问题 废话不多说&#xff0c;直接上代码&#xff1a; <script setup> const status ref(请点击“添加视频”按钮添加视频) const videoElement ref(document.createElement(video)) const curren…

通过BUG(prvIdleTask、pxTasksWaitingTerminatio不断跳转问题)了解空闲函数(prvIdleTask)和TCB

一、前言与问题 在基于 FreeRTOS 的嵌入式系统中&#xff0c;我使用 STM32F1 开发一个 MQTT 客户端应用&#xff0c;涉及两个主要任务&#xff1a; ATRecvParser&#xff1a;负责解析 Wi-Fi 模块的 AT 命令响应&#xff08;如 OK、ERROR 和 IPD 数据&#xff09;。MQTT_Clien…

继MySQL之后的技术-JDBC-从浅到深-02

目录 概念 编程六部曲 SQL注入和statement 工具类的封装 JDBC事务 模糊查询 批处理 数据库连接池 Apache-DBUtils BasicDao 概念 JDBC为访问不同的数据库提供了统一的接口&#xff0c;为使用者屏蔽了细节问题。 Java程序员使用JDBC&#xff0c;可以连接任何提供了JD…

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多&#xff0c;如何一步解决&#xff0c;采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集&#xff08;每个目录代表一个类别&#xff0c;目录下是该类别的所有图片&#xff09;&#xff0c;你需要进行以下配置步骤&#x…

浅谈python如何做接口自动化

工具与环境准备 开发工具 PyCharm专业版&#xff1a;支持项目视图、代码导航、调试功能和主流框架开发官方资源&#xff1a;JetBrains PyCharm 数据库操作 使用mysqlclient库操作MySQL&#xff08;Django官方推荐&#xff09;安装命令&#xff1a;pip install mysqlclient1.3.…

知识图谱技术概述

一、概述 知识图谱&#xff08;Knowledge Graph&#xff09; 是一种基于图结构的语义网络&#xff0c;用于表示实体及其之间的关系&#xff0c;旨在实现更智能的知识表示和推理。它通过将现实世界中的各类信息抽象为 “实体-关系-实体” 的三元组结构&#xff0c;构建出复杂的知…

NodeJS Koa 后端用户会话管理,JWT, Session,长短Token,本文一次性讲明白

前言 前几天&#xff0c;我写了一篇文章&#xff0c;《我设计的一个安全的 web 系统用户密码管理流程》。其中着重点是讲的如何利用非对称加密进行安全的设计&#xff0c;并在讲述了原理之后&#xff0c;又写了 《node 后端和浏览器前端&#xff0c;有关 RSA 非对称加密的完整…

0.5S 级精度背后:DJSF1352-RN-6 如何让储能电站的每 1kWh 都「有迹可循」?

1、背景 在能源转型的时代洪流里&#xff0c;大型储能电站作为保障电网稳定运行、平衡能源供需的核心基础设施&#xff0c;其战略价值愈发凸显。而储能电站的高效运转&#xff0c;始终离不开精准的电能计量体系支撑。今日为您重点推介一款针对 1500V 储能系统研发的专业电能表…

Linux运维笔记:服务器安全加固

文章目录 背景加固措施1. 修改用户密码2. 使用公钥认证替代密码登录3. 强化系统安全4. 扫描与清理残留威胁5. 规范软件管理&#xff08;重点&#xff09; 注意事项总结 提示&#xff1a;本文总结了大学实验室 Linux 电脑感染挖矿病毒后的安全加固措施&#xff0c;重点介绍用户密…

Pycharm 配置解释器

今天更新了一版pycharm&#xff0c;因为很久没有配置解释器了&#xff0c;发现一直失败。经过来回试了几次终于成功了&#xff0c;记录一下过程。 Step 1 Step 2 这里第二步一定要注意类型要选择python 而不是conda。 虽然我的解释器是conda 里面建立的一个环境。挺有意思的

【Linux】awk 命令详解及使用示例:结构化文本数据处理工具

【Linux】awk 命令详解及使用示例&#xff1a;结构化文本数据处理工具 引言 awk 是一种强大的文本处理工具和编程语言&#xff0c;专为处理结构化文本数据而设计。它的名称来源于其三位创始人的姓氏首字母&#xff1a;Alfred Aho、Peter Weinberger 和 Brian Kernighan。 基…

MS1023/MS1224——10MHz 到 80MHz、10:1 LVDS 并串转换器(串化器)/串并转换器(解串器)

产品简述 MS1023 串化器和 MS1224 解串器是一对 10bit 并串 / 串并转 换芯片&#xff0c;用于在 LVDS 差分底板上传输和接收 10MHz 至 80MHz 的并行字速率的串行数据。起始 / 停止位加载后&#xff0c;转换为负载编 码输出&#xff0c;串行数据速率介于 120Mbps…

跟我学c++中级篇——理解类型推导和C++不同版本的支持

一、类型推导 在前面反复分析过类型推导&#xff08;包括前面提到的类模板参数推导CTAD&#xff09;&#xff0c;类型推导其实就是满足C语言这种强类型语言的要求即编译期必须确定对象的数据类型。换一句话说&#xff0c;理论上如果编译器中能够自动推导所有的相关数据类型&am…