代码编织梦想

神经辐射场 (NeRF) 概念

理论介绍

  NeRF模型以其基本形式将三维场景表示为由神经网络近似的辐射场。辐射场描述了场景中每个点和每个观看方向的颜色和体积密度。这写为:
F ( x , θ , φ ) → ( c , σ ) , ( 1 ) F\left( x,\theta ,\varphi \right) →\left( c,\sigma \right) ,(1) F(x,θ,φ)(c,σ),(1)
  其中 x = ( x , y , z ) x = (x,y,z) x=(xyz) 是场景内坐标, ( θ , φ ) (θ,φ) (θφ) 表示方位角和极视角, c = ( r , g , b ) c = (r,g,b) c=(rgb) 表示颜色, σ σ σ表示体积密度。该5D函数由一个或多个多层预加速器 (MLP) 近似,有时表示为f Θ。两个视角 ( θ , φ ) (θ,φ) (θφ)通常由 d = ( d x , d y , d z ) d = (dx,dy,dz) d=(dxdydz)表示,这是一个3D笛卡尔单位向量。通过将 σ σ σ (体积密度 (即场景的内容) 的预测限制为与观看方向无关),该神经网络表示被约束为多视图一致,而允许颜色 c c c取决于观看方向和场景内坐标。在基线NeRF模型中,这是通过将MLP设计为两个阶段来实现的。
  第一阶段作为输入 x x x并输出 σ σ σ 和高维特征向量 (在原始论文中256)。在第二阶段,特征向量然后与观看方向 d d d连接,并传递给额外的MLP,该MLP输出 c c c。我们注意到Mildenhall等人 [1] 认为 σ σ σ MLP和 c c c MLP是同一神经网络的两个分支,但是许多后来的作者认为它们是两个独立的MLP网络,这是我们从这一点开始遵循的惯例。从广义上讲,使用经过训练的NeRF模型进行的新颖视图合成如下。

  • 对于正在合成的图像中的每个像素,通过场景发送相机光线并生成一组采样点 (参见图1中的 (a))。
  • 对于每个采样点,使用观看方向和采样位置来提取局部颜色和密度,由NeRF MLP(s) 计算 (参见图1中的 (b))。
  • 使用体绘制从这些颜色和密度产生图像 (参见图1中的 ©)。

  更详细地说,给定体积密度和颜色函数,使用体积渲染来获得任何相机射线 r ( t ) = o + t d r(t) = o+td r(t)=o+td的颜色 C ( r ) C(r) C(r),相机位置 o o o和观看方向 d d d使用
C ( r ) = ∫ t 1 t 2 T ( t ) ⋅ σ ( r ( t ) ) ⋅ c ( r ( t ) , d ) ⋅ d t , ( 2 ) C(r)=\int_{t_1}^{t_2}{T(t)·\sigma(r(t))·c(r(t),d)·dt},(2) C(r)=t1t2T(t)σ(r(t))c(r(t),d)dt,(2)
  其中 T ( t ) T(t) T(t) 是累积透射率,表示光线从 t 1 t_1 t1传播到 t t t而不被拦截的概率,由
T ( t ) = e − ∫ t t 1 σ ( r ( u ) ) ⋅ d u , ( 3 ) T(t)=e^{-\int_{t}^{t_1}{\sigma (r(u))·du}},(3) T(t)=ett1σ(r(u))du,(3)
   C ( r ) C(r) C(r)通过待合成图像的每个像素。这个积分可以用数值计算。最初的实现 [1] 和大多数后续方法使用了非确定性分层抽样方法,将射线分成 N N N个等间距的仓,并从每个仓中均匀抽取一个样本。然后,等式 (2) 可以近似为
C ^ ( r ) = ∑ i = 1 N α i T i c i   ,   w h e r e T i = e − ∑ j = 1 i − 1 σ j δ j , ( 4 ) \hat{C}\left( r \right) =\sum_{i=1}^N{\alpha _iT_ic_i}\,,\,where\quad T_i=e^{-\sum_{j=1}^{i-1}{\sigma _j\delta _j}},(4) C^(r)=i=1NαiTici,whereTi=ej=1i1σjδj,(4)
   δ i \delta _i δi是从样本 i i i到样本 i + 1 i+1 i+1的距离。 ( σ i , c i ) (\sigma_i,c_i) (σi,ci)是根据NeRF MLP(s) 计算的在给定射线的采样点 i i i上评估的密度和颜色。 α i α_i αi在采样点 i i i处合成 a l p h a alpha alpha的透明度/不透明度由
α i = 1 − e σ i δ i , ( 5 ) \alpha_i = 1-e^{\sigma_i\delta_i},(5) αi=1eσiδi,(5)
  可以使用累积的透射率计算射线的预期深度为
d ( r ) = ∫ t 1 t 2 T ( t ) ⋅ σ ( r ( t ) ) ⋅ t ⋅ d t , ( 6 ) d(r)=\int_{t_1}^{t_2}{T(t)·\sigma(r(t))·t·dt},(6) d(r)=t1t2T(t)σ(r(t))tdt,(6)
  这可以近似于方程 (4) 近似方程 (2) 和 (3)
D ^ ( r ) = ∑ i = 1 N α i t i T i , ( 7 ) \hat{D}(r) = \sum_{i=1}^{N}{\alpha_it_iT_i},(7) D^(r)=i=1NαitiTi,(7)
  某些深度正则化方法使用预期的深度来将密度限制为场景表面的类似delta的函数,或增强深度平滑度。
  对于每个像素,使用平方误差光度损失来优化MLP参数。在整个图像上,这是由
L = ∑ r ∈ R ∣ ∣ C ^ ( r ) − C g t ( r ) ∣ ∣ 2 2 , ( 8 ) L = \sum_{r\in R}{|| \hat{C}(r)-C_{gt}(r)||_2^2},(8) L=rR∣∣C^(r)Cgt(r)22,(8)
  其中, C g t ( r ) C_{gt}(r) Cgt(r) 是与 r r r相关联的训练图像的像素的地面真实颜色, R R R是与待合成图像相关联的射线批次。

数据集

数据集地址:https://drive.google.com/drive/folders/128yBriW1IG_3NJ5Rp7APSTZsJqdJdfc1

  • Synthetic NeRFDataset
  • Local Light Field Fusion (LLFF) Dataset
  • DTU Dataset
  • ScanNet Dataset
  • Tanks andTemples Dataset
  • ShapeNet Dataset

评估指标

  在标准设置中,通过NeRF进行新颖的视图综合使用基准的视觉质量评估指标。这些指标试图评估具有 (完全参考) 或不具有 (无参考) 地面真实图像的单个图像的质量。峰值信噪比 (PSNR),结构相似性指数度量 (SSIM) [31],学习的感知图像补丁相似性 (LPIPS) [32] 是迄今为止NeRF文献中最常用的。

PSNR

  PSNR是一种无参考质量评估指标:
P S N R ( I ) = 10 ⋅ l o g 10 M A X ( I ) 2 M S E ( I ) , ( 10 ) PSNR(I)=10·log_{10}{\frac{MAX(I)^2}{MSE(I)}},(10) PSNR(I)=10log10MSE(I)MAX(I)2,(10)
  其中 M A X ( I ) MAX(I) MAX(I) 是图像中的最大可能像素值 (对于8位整数255),并且 M S E ( I ) MSE(I) MSE(I) 是在所有颜色通道上计算的像素方向均方误差。 P N S R PNSR PNSR也通常用于信号处理的其他领域,并且被很好地理解。

SSIM

  SSIM是一个完整的参考质量评估指标,对于单个小块
S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( μ x 2 + μ y 2 + C 2 ) , ( 11 ) SSIM(x,y) = \frac{(2\mu_x\mu_y+C_1)(2\sigma_{xy}+C_2)}{(\mu_x^2+\mu_y^2+C_1)(\mu_x^2+\mu_y^2+C_2)},(11) SSIM(x,y)=(μx2+μy2+C1)(μx2+μy2+C2)(2μxμy+C1)(2σxy+C2),(11)
  其中 C i = ( K i L ) 2 C_i = (K_iL)^2 Ci=(KiL)2,L是像素的动态范围 (对于8bit整数255),并且 K 1 = 0.01 K_1 = 0.01 K1=0.01 K 2 = 0.03 K_2 = 0.03 K2=0.03是由原始作者选择的常数。我们注意到,在原始论文 [31] 中,有 (12) 给出的 S S I M SSIM SSIM的更一般形式。在11 × 11圆形对称高斯加权窗口内计算局部统计量 μ , s \mu^,s μ,s, σ , s \sigma^,s σ,s,权重 w i w_i wi的标准差为1.5,并归一化为1。这些是由给出的,没有损失概括
μ x = ∑ i w i x i , ( 12 ) \mu_x = \sum_i{w_ix_i},(12) μx=iwixi,(12)
σ x = ( ∑ i w i ( x i − μ x ) 2 ) 1 2 , ( 13 ) \sigma_x=(\sum_iw_i(x_i-\mu_x)^2)^{\frac{1}{2}},(13) σx=(iwi(xiμx)2)21,(13)
σ x y = ∑ i w i ( x i − μ x ) ( y i − μ y ) , ( 14 ) \sigma_{xy}=\sum_iw_i(x_i-\mu_x)(y_i-\mu_y),(14) σxy=iwi(xiμx)(yiμy),(14)
  其中 x i x_i xi y i y_i yi分别是从参考图像和评估图像中采样的像素。在实践中,对整个图像的 S S I M SSIM SSIM分数进行平均。

LPIPS

   L P I P S LPIPS LPIPS是使用学习的卷积特征的完整参考质量评估指标。得分由多层特征图的加权像素 M S E MSE MSE给出。
L P I P S ( x , y ) = ∑ l L 1 H l W l ∑ h , w H l , W l ∣ ∣ w l ⊙ x h w l − y h w l ∣ ∣ 2 2 , ( 15 ) LPIPS(x,y)=\sum_l^L\frac{1}{H_lW_l}\sum_{h,w}^{H_l,W_l}{||w_l\odot x_{hw}^{l}-y_{hw}^{l}||}_2^2,(15) LPIPS(x,y)=lLHlWl1h,wHl,Wl∣∣wlxhwlyhwl∣∣22,(15)
   x h w l x_{hw}^{l} xhwl y h w l y_{hw}^{l} yhwl是参考和评估图像在像素宽度w,像素高度h和层l处的特征。Hl和Wl是相应层处的特征图高度和宽度。最初的 L P I P S LPIPS LPIPS论文使用SqueezeNet [444],VGG [34] 和AlexNet [35] 作为特征提取主干。原始纸张使用了五层。原始作者提供了微调和从头开始的配置,但实际上,已按原样使用预先训练的网络。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/pylittlebrat/article/details/127704137

[非卷积5D中文翻译及学习笔记] 神经辐射场 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis-爱代码爱编程

不使用3D建模,使用静态图片进行训练,用(非卷积)深度网络表示场景的5D连续体表示,再通过ray marching进行渲染。 本中文翻译使用“机器学习+人工校准/注解”的方式完成。 本人非英语专业,水平有限,如有错误敬请指出。 仅作个人学习笔记之用,转载请注明出处 https://editor.csdn.net/md?articleId=105890

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 神经辐射场将场景表示用于视图合成-爱代码爱编程

系列论文 https://github.com/yenchenlin/awesome-NeRF 视频与演示 https://www.matthewtancik.com/nerf Core:使用完全连通(非卷积)的深度网络来表示场景,通过使用稀疏的输入视图集来优化底层的连续体积场景函数,从而获得用于合成复杂场景的新视图。查询相机光线上的5D坐标来合成视图,并

NeRF笔记-爱代码爱编程

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 神经辐射场(Neural Radiance Fields)nerf NeRF:表示场景为神经辐射场的视图合成 2020 ECCV Best paper candidate 最佳论文候选人 博客参考: htt

神经稀疏体素场论文笔记-爱代码爱编程

论文地址:https://proceedings.neurips.cc/paper/2020/file/b4b758962f17808746e9bb832a6fa4b8-Paper.pdf Github:https://github.com/facebookresearch/NSVF 摘要 使用经典计算机图形技术对真实世界场景进行逼真的自由视角渲染具

NeRF入门知识汇总-爱代码爱编程

NeRF 在2020年ECCV上名声大噪,作为best paper展示(https://www.matthewtancik.com/nerf) 作者在网上收罗了NeRF的相关评说,汇总如下,内容可能杂乱,可作为对NeRF初步认识的资料。 文章目录 参考链接1:https://zhuanlan.zhihu.com/p/380015071Vanilla

nerf++: analyzing and improving neural radiance fields分析和改进神经辐射场_y_su_hang的博客-爱代码爱编程

目录 NERF++: ANALYZING AND IMPROVING NEURAL RADIANCE FIELDS分析和改进神经辐射场 ABSTRACT 1 INTRODUCTION 2 PRELIMINARIES 3 SHAPE-RADIANCE AMBIGUITY形状-辐射模糊度 4 INVERTED SPHERE PARAMETRIZAT

nerf神经辐射场eccv2020_tzc_fly的博客-爱代码爱编程

目录 NeRF前置内容:渲染和观察方向摘要1.Introduction2.Related Work2.1.Neural 3D shape representations2.2.View synthesis and image-based rendering3.Neural Radiance Field Scene Representation4.V

nerf 神经辐射场_nismilesucc的博客-爱代码爱编程

蓝色 紫色 红色 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Author From UC Berkeley , Goog

【ad-nerf】音频驱动人脸nerf_门被核桃夹了还能补脑嘛的博客-爱代码爱编程

AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis 🔗 PDF Link 🍺 GitHub Code 文章目录 AD-N

人工智能神经网络概念股,神经网络芯片概念股_幸福的小浣熊的博客-爱代码爱编程

人工智能概念股有哪些? 人工智能芯片谁是龙头? 谷歌人工智能写作项目:神经网络伪原创 人工智能概念股上市公司有哪些 人工智能概念股的上市公司有五十余家,其中,具有代表性的有以下几个:1、科大智能300222科大智能科技股份有限公司专业从事配电自动化系统、用电自动化系统软硬件产品研发、生产与销售以及配电自动化工程与技术服务的企业,长期致力于中压电力

读论文-nerf学习笔记_故里_的博客-爱代码爱编程

文章目录 NeRF的背景NeRF的原理NeRF的算法思路:Step1 :使用MLP学习该场景的隐式3D模型表达Step 2:使用体渲染方程将3D场景渲染成图片Step 3:训练Step 4: 观测方向d的作用:Ste

火爆科研圈的三维重建技术:neural radiance fields (nerf)-爱代码爱编程

如果说最近两年最火的三维重建技术是什么,相信NeRF[1]是一个绝对绕不过去的名字。这项强到逆天的技术,一经提出,就被众多研究者所重视,对该技术进行深入研究并提出改进已经成为一个热点。仅仅过了不到两年的时间,NeRF及其变种已经成为重建领域的主流。由此可见,NeRF技术出色的实用性。今天,我们就来看一看NeRF是个啥,学习下该方法到底强在哪里。 1.

【nerf】背景、改进、应用与发展_neural fields in visual computing and beyond-爱代码爱编程

推荐阅读: Neural Fields in Visual Computing and Beyond[1]State of the art on neural rendering[2]NeRF Explosion 2020

nerf论文阅读_llff mpi-爱代码爱编程

NeRF 论文阅读 论文地址 理解视频 论文翻译 摘要 我们提出了一种方法,通过使用一组稀疏的输入视图来优化底层连续的体积场景函数,从而获得合成复杂场景的新视图的最新结果。我们的算法使用全连接(非卷积)深度网络表示

【论文精读】nerf —— 解读《nerf: representing scenes as neural radiance fields for view synthesis》_nerf论文解读-爱代码爱编程

NeRF的核心点是实现了复杂静态场景的隐式表达,用一个神经网络来建模。 Abstract 本文提出了一种新方法,通过使用稀疏的输入视图集优化底层连续的体积场景函数,实现了合成复杂场景的新视图的SOTA。 算法使用全连接深