A Review of Neural Radiance Field Approaches for Scene Reconstruction of Satellite Remote Sensing Imagery
-
摘要: 随着高分辨率卫星遥感图像成为认知地理空间不可或缺的重要手段,卫星遥感图像在城市建图、生态监测和导航等领域发挥着日益重要的作用,利用卫星遥感图像进行地球表面大规模3维重建成为了计算机视觉和摄影测量领域的研究热点。神经辐射场(NeRF)利用可微渲染学习场景的隐式表示,在复杂场景新视图合成任务中实现了逼真的视觉效果,并在3维场景重建和渲染领域获得了极大的关注。近期的研究主要集中在利用神经辐射场技术,从卫星遥感图像中提取场景表示及其重建。面向卫星遥感图像的神经辐射场方法主要集中在光线空间优化、场景表示优化以及模型高效训练3方面。该文全面归纳了神经辐射场技术在卫星遥感应用中的最新进展。首先介绍神经辐射场技术的基本概念及相关数据集。然后提出一个面向卫星遥感图像的神经辐射场方法分类框架,用于系统性地回顾和整理该技术在卫星遥感领域的研究进展。接着详述了神经辐射场技术在实际卫星遥感场景应用中的相关成果。最后,基于当前研究所面临的问题和挑战进行分析和讨论,同时对未来的发展趋势和研究方向进行了展望。Abstract: High-resolution satellite remote sensing images have been recognized as an indispensable means for understanding geographical spaces, and their role in areas such as urban mapping, ecological monitoring, and navigation, has become increasingly important. The use of satellite remote sensing images for large-scale 3D reconstruction of the Earth’s surface is currently a subject of active research in the fields of computer vision and photogrammetry. Neural Radiance Fields (NeRF), which utilizes differentiable rendering to learn implicit representations of scenes, has achieved the most realistic visual effects in novel view synthesis tasks of complex scenes and has attracted significant attention in the field of 3D scene reconstruction and rendering. Recent research has been primarily focused on using neural radiance field technology to extract scene representation and reconstruction from satellite remote sensing images. Ray space optimization, scene representation optimization, and efficient model training are mainly focused on by the neural radiance field methods for satellite remote sensing images. The latest progress in the application of neural radiance field technology in satellite remote sensing is comprehensively summarized in this paper. First, the basic concepts of neural radiance field technology and related datasets are introduced. Then a classification framework of neural radiance field methods for satellite remote sensing images is proposed to systematically review and organize the research progress of this technology in the field of satellite remote sensing. The relevant results of the application of neural radiance field technology in actual satellite remote sensing scenarios are detailed. Finally, analysis and discussion are conducted based on the problems and challenges faced by current research, and future development trends and research directions are prospected.
-
1. 引言
随着遥感对地观测技术的不断发展,天空地一体化的多源遥感观测体系带来了海量的遥感数据。其中,卫星遥感能够快速且高效地采集全球范围内地球表面的地理空间数据,已成为获取和理解地理空间信息的重要工具。利用卫星遥感图像进行地球表面大规模3维重建,能够为城市规划、生态环境监测和灾害救援等领域提供精确的数字3维模型,从而增强对复杂环境的空间理解和认知,具有重要的研究意义和应用价值。
从一组图像中合成3D场景的新视角图像是计算机视觉和计算机图形学领域的一项重要任务。神经辐射场(Neural Radiance Field, NeRF)[1]方法使用由多层感知器(Multi-Layer Perceptron, MLP)参数化的连续体积函数对3D场景进行编码,将空间位置和观察方向映射到场景中相应的颜色和体积密度,并使用体积渲染来合成场景的新视角图像。与传统的点云、网格、体素等离散显式表示方法相比,神经辐射场方法除逼真的视觉质量外,还具有其他优势:(1)场景表示连续。神经辐射场表示是连续的,因此可以建模几何结构复杂的场景,而不存在离散化误差;(2)自监督。神经辐射场能够仅从1组图像中对场景的几何形状和外观进行建模,而无需3维模型等真值进行监督;(3)高度的灵活性。神经辐射场已被证明是3维场景的一种紧凑、高质量和通用表示,并能够支持多种下游任务,例如场景理解、编辑、导航等。
神经辐射场作为一种隐式场景表示方法,最初提出是用于新视图合成任务,但由于其同时能够从学习的隐式表示中生成深度图和网格模型,因而也在3维重建领域获得了极大的关注。最近利用卫星遥感图像进行地球表面大规模3维重建的研究工作主要集中在使用神经辐射场方法从卫星遥感图像中学习场景表示和重建。面向卫星遥感图像的神经辐射场方法(以下称为“遥感神经辐射场”)通过输入对地球观测多视角卫星遥感图像,快速生成新视图图像和准确的高程预测。该方法输入为无标签的高分辨率光学图像,并通过图像重建损失进行自监督学习[2]。遥感神经辐射场不仅能够实现地球表面大规模3维重建,还能够拓展到场景编辑、仿真和导航等任务,在数字孪生、气候变化模拟以及虚拟现实等领域具有重要的应用潜力。
遥感神经辐射场目前也存在很多困难和挑战。首先,它们使用的相机模型不同,自然场景通常采用针孔相机模型,而卫星遥感图像则基于有理多项式相机(Rational Polynomial Camera, RPC)模型,这导致光线投射和计算方式有所不同,需要开发特定的数据处理方法。其次,卫星遥感图像捕捉的场景并非静态,图像之间可能存在光照、阴影、地表特征和季节属性的变化,增加了模型处理的复杂性。最后,由于卫星轨道设计和运行周期的限制,获取的多视角图像数量有限且分布稀疏,限制了模型训练时可用的视角信息,对场景精确表示和重建构成挑战。
本文对卫星遥感图像相关的神经辐射场方法进行了系统性的梳理和总结。首先阐述了神经辐射场的基本原理以及自然场景和遥感场景相关的数据集,并总结了神经辐射场方法在卫星遥感场景中面临的挑战。其次,从光线空间优化,场景表示优化和模型高效训练3个方面对相关工作进行了分析总结。最后,讨论了未来可能的发展趋势和研究方向。
2. 背景
2.1 神经辐射场理论
NeRF方法使用由多层感知器MLP参数化的连续体积函数对3D场景进行编码,并将3D位置x=(x,y,z)和2D观察方向d=(θ,ϕ)映射到场景中相应的颜色c=(r,g,b)和体积密度σ
Fθ(x,d)=(c,σ) (1) 其中,Fθ表示多层感知器,θ是多层感知器的可学习参数。在实践中,2D观察方向通常由3D笛卡尔单位向量d=(dx,dy,dz)表示。为了使MLP能够从低维坐标输入中学习渲染视图中更高频率的细节,NeRF采用最高频率为L的位置编码将3D位置和2D观察方向映射到更高维度空间
γ(p)=(sin(20πp),cos(20πp),⋯,sin(2L−1πp),cos(2L−1πp)) (2) 其中,对于3D位置,L设置为10;对于2D观察方向,L设置为4。NeRF的保真度在很大程度上取决于位置编码的使用,位置编码允许参数化场景的MLP作为插值函数[3],通过改变最高频率L可控制场景函数的平滑度[4]。
在原始NeRF模型中,MLP网络被设计为两个阶段。第1阶段将3D位置x作为输入,并输出体积密度σ和256维特征向量。在第2阶段,该特征向量与相机光线的2D观察方向d连接起来,并传递到一个额外的全连接层,输出与视图相关的颜色c。这种架构确保了体积密度σ与观察方向无关,以鼓励学习到的场景表示是多视图一致的。此外,当从不同角度观察时,输出颜色仍然可以变化,从而允许NeRF对反射和光泽表面进行建模[5]。
使用NeRF模型合成新视图的方法如图1所示:(1)对于被合成图像中的每个像素,发射相机光线穿越场景,并采样一组3D点;(2)对于每个采样点,使用3D位置和对应的2D观察方向作为神经网络的输入,推理出颜色和密度;(3)使用体积渲染将这些颜色和密度累积到2D图像中。
图 1 NeRF体积渲染和训练过程[1]在渲染时,NeRF为图像中的每个像素投射一条穿过3D空间的相机光线r(t)=o+td,其中o和d分别表示光线的原点和方向,t表示沿光线的距离。为了计算光线颜色,NeRF沿光线在近平面和远平面之间采样空间点xi=r(ti)=o+tid,并根据采样位置xi和观察方向d查询MLP,以获得密度σi和颜色值ci。给定体积密度和颜色,NeRF使用数值正交[6]来近似体积渲染,以计算任意相机光线的颜色C(r)
C(r)=N∑i=1Ti(1−exp(−σiδi))ci (3) Ti=exp(−i−1∑j=1σjδj) (4) 其中,δi=ti+1−ti是相邻采样i到i+1之间的距离。(σi,ci)是光线上采样点i处评估的密度和颜色,由NeRF的MLP计算得出。Ti表示沿光线到ti的累积透射率,即光线传播到ti而不与任何其他粒子相互作用的概率。αi=1−exp(−σiδi)表示采样点i处的不透明度。为了优化MLP网络,NeRF使用渲染像素颜色和真实像素颜色之间的平方误差。
尽管NeRF学习的是场景的隐式表示,但是可以使用累积的透射率计算光线的深度,从而获得场景的深度信息[7]
D(r)=N∑i=1Ti(1−exp(−σiδi))ti (5) 除深度图外,在NeRF网络训练完成后,还可以使用Marching Cubes算法[8]从神经辐射场表示中直接提取显式三角网格模型。这也是神经辐射场方法在3维重建领域引起广泛关注的原因之一。
2.2 数据集
神经辐射场方法通过多视图一致性来学习场景的几何形状和外观。因此,用于神经辐射场性能评估的数据集通常为多视角图像数据集。在自然场景中,常用于NeRF基准测试的数据集包括 合成神经辐射场(Synthetic NeRF)[1]、局部光场融合(Local Light Field Fusion, LLFF)[9]、抗锯齿神经辐射场 (Mip-NeRF 360)[10]和Tanks and Temples[11]等。由于部分数据集包含众多场景,而NeRF模型通常针对单个场景进行训练,因此在这些数据集上评估NeRF方法性能时,一般选取部分具有代表性的场景进行评估。各数据集的详细信息如表1所示。
表 1 神经辐射场常用数据集数据集名称 类别 场景数量 分辨率/
像素每场景
图像数量Synthetic NeRF 物体 8 800×800 400 LLFF 前向场景 8 1008×756 20~62 Mip-NeRF 360 室内、室外场景 9 1237×822 100~330 Tanks and Temples 室外场景 4 1920×1080 283 在针对卫星遥感场景的NeRF模型研究中,一般采用2019年IEEE GRSS Data Fusion Contest提供的公开数据集[12,13](以下简称DFC2019)作为评估基准。DFC2019数据集广泛应用于遥感领域的新视图合成和3维重建等任务。该数据集提供了2014~2016年期间在佛罗里达州杰克逊维尔由WorldView-3卫星收集的分辨率为0.3 m的光学遥感图像。此外,数据集还提供采样距离为0.5 m的机载LiDAR数据。按照文献[14]的设置,通常选择其中编号为004, 068, 214, 260的4个场景作为测评场景,每个场景包含10~20张图像。DFC2019数据集详细信息如表2所示。
表 2 DFC2019数据集详细信息1 2 3 4 区域编号 004 068 214 260 输入图像 9 17 21 15 高度范围 [–24, 1] [–27, 30] [–29, 73] [–30, 13] 纬度 30.357 30.348 30.316 30.311 经度 –81.706 –81.663 –81.663 –81.663 与自然场景数据集相比,多视角卫星遥感图像数据集呈现出以下特点:(1)相机模型不同。自然场景图像通常采用针孔相机模型,而卫星遥感图像则采用有理多项式相机模型,不同的相机模型导致了不同的光线计算方式,需要设计专门的数据处理方式。(2)场景并非静态。由于卫星遥感图像是在不同时间拍摄的,因此场景的光照、阴影分布、地表特征和季节属性等都可能发生变化。(3)视角的数量及其分布有限。多视角卫星遥感图像的采集受限于卫星的轨道设计和运行周期,导致图像数量较少,分布较为稀疏。例如,DFC2019数据集的每个场景平均仅包含10~20张图像。以上这些特性都对应用在多视角卫星遥感图像的神经辐射场方法提出了一定的挑战。
3. 研究进展
神经辐射场方法的工作流程如图2所示,主要分为4个核心环节:光线投射、场景建模、体积渲染以及模型训练。由于卫星遥感图像在采集高度和采集方式等方面的特殊性,遥感神经辐射场在光线投射、场景建模和模型训练3个主要方面面临光线计算复杂、场景动态变化和模型训练缓慢的问题。因此,本节将从光线空间优化,场景表示优化和模型高效训练3个维度出发,对应用于卫星遥感场景的神经辐射场方法进行综合性的总结和回顾。
3.1 光线空间优化
神经辐射场方法首先为图像中的每个像素计算投射到场景中的光线,这就需要计算输入图像的位姿。由于卫星遥感图像的特殊性,并不能像自然场景图像一样,使用 COLMAP库[15]计算图像的位姿。因此,不同的遥感神经辐射场方法采用了不同的位姿计算方式,可以分为球坐标表示、地心地固(Earth-Centered Earth-Fixed, ECEF)坐标表示、通用横轴墨卡托投影(Universal Transverse Mercator, UTM)坐标表示和RPC近似模型表示4大类,如表3所示。
表 3 光线空间优化方法总结光线空间 优点 缺点 代表方法 球坐标表示 易于理解和计算 精度略低 S-NeRF(2021年) ECEF坐标表示 适合精确位置计算 计算变换复杂且不直观 Sat-NeRF(2022年) UTM坐标表示 易于理解和应用 需要额外的高度信息 EO-NeRF(2023年) RPC近似模型表示 精度较高,灵活性高 近似过程存在误差 Sat-Mesh(2023年) 球坐标表示[16]使用卫星的方位角和俯仰角,并将径向距离近似为地球平均半径,以表示采样点在3维空间中的位置。尽管这种方法简化了计算过程,但由于地球的平均半径是一个相对较大的数值,这种近似处理在计算空间点位置时可能会导致较大的误差。
ECEF坐标表示[14]利用卫星遥感图像的有理多项式相机模型在场景空间中投射相机光线。使用RPC模型的优势是能够充分利用卫星遥感图像精确的位姿信息。然而,该表示的主要限制是RPC模型计算复杂,且投射后的光线方向与坐标系中的z轴不平行,这一特性可能会对特定算法或模型的应用造成约束,进而导致计算效率降低或精度损失。
UTM坐标表示[17]进一步利用RPC模型计算UTM坐标,并使用UTM坐标和高度来表示3D点。该表示方法实现了场景高度与全局坐标系中z 轴的对齐,保留了笛卡尔坐标系的特性,能够充分利用3D场景表示的空间效率。
RPC近似模型表示[18]将RPC模型近似为针孔相机模型,从而能够使得现有方法应用于卫星遥感图像。该类方法具有较高的精度,而且能够类比为针孔相机模型的处理方式,在光线投射和采样过程中更加简单。但是由于对相机模型进行了近似,因此可能存在一定的精度损失。
3.2 场景表示优化
场景表示优化的主要目标是解决多日期卫星遥感图像之间的光照不一致性,以及场景中存在的阴影和动态物体。解决该问题的思路通常是采用场景分解的思想,对场景变化内容进行独立建模。
文献[16]率先探索了神经辐射场方法在多视角卫星摄影测量领域的应用,并提出了阴影神经辐射场(Shadow Neural Radiance Field, S-NeRF)。S-NeRF能够应用于具有不同光照条件的多视角卫星遥感图像。为了适应变化的光照条件,S-NeRF使用光混合模型,将总辐照度定义为太阳定向光源和天空漫反射光源的加权和,并由太阳可见性进行加权。太阳可见性表示太阳定向光源在3D位置处沿某方向的可见度。S-NeRF采用朗伯反射模型对场景的反照率进行建模,并将辐射度建模为辐照度和反照率的乘积。S-NeRF渲染过程如图3所示。
图 3 S-NeRF渲染模型[16]文献[14]提出了卫星神经辐射场(Satellite Neural Radiance Field, Sat-NeRF),将神经渲染与原生卫星相机模型相结合。Sat-NeRF采用S-NeRF中提出的阴影感知辐照度模型来计算光线上每一点的颜色。为了解释输入图像中的瞬态现象,Sat-NeRF采用类似于NeRF-W方法[19],学习特定于每张图像的瞬态嵌入向量,并根据预测的不确定性对损失进行加权。Sat-NeRF 处理由于阴影和瞬态物体引起的外观变化,实现高质量的表面模型和视图合成。
文献[17]进一步扩展了Sat-NeRF,提出了地球观测神经辐射场(Earth Observation Neural Radiance Field, EO-NeRF)。与S-NeRF和Sat-NeRF根据太阳方向将阴影预测为颜色属性的思路不同,EO-NeRF不预测阴影,而是根据几何形状和太阳位置来渲染阴影。此外,EO-NeRF还提出了多种不同的策略以适应卫星遥感图像,包括使用UTM坐标,以及在优化过程中对位姿和图像中的颜色偏差进行联合优化。EO-NeRF的高度精度超过了最先进的立体视觉方法和之前的NeRF方法,充分证明了NeRF方法在利用多日期卫星遥感图像进行3D重建的巨大潜力。
3.3 模型高效训练
由于原始NeRF模型的训练速度和推理速度都很慢,包括直接体素网格优化(Direct Voxel Grid Optimization, DVGO)[20] 、张量辐射场(Tensorial Radiance Field, TensoRF)[21]和即时神经图形基元(Instant Neural Graphics Primitives, Instant-NGP)[22]在内的一系列研究工作旨在加速NeRF模型的训练和推理,并取得了显著的进展。这些加速方法可以分为基于体素网格的方法和基于张量分解的方法。其中,基于体素网格的方法通过在体素网格中学习和存储特征,然后将其输入到预测颜色和密度的MLP,从而提高训练和推理速度。基于张量分解的方法将场景表示分解为低秩分量,有效地减少了模型大小和内存占用,显著提高了计算速度和效率。
基于原始NeRF的卫星辐射场方法同样面临训练速度缓慢的问题,场景重建效率较低。对于单个场景的训练通常需要耗费8~10 h,甚至更长的时间,这严重限制了NeRF方法在卫星摄影测量领域的研究和应用。目前已有部分工作建立在快速NeRF模型的基础上,以实现卫星遥感辐射场的快速训练。
遥感神经辐射场(Remote Sensing Neural Radiance Field, RS-NeRF)[23]建立在Instant-NGP模型的基础之上,同样使用了额外的体素密度网格来学习场景中每个子区域的密度,并在采样过程中跳过空白空间(低密度区域)。对于约60 000 m2的场景,RS-NeRF仅需6 min即可完成场景模型的训练,大幅提高了模型的训练速度和效率。此外,RS-NeRF提出了一种轻量级网络架构,以减少网络参数数量。
卫星张量辐射场(Satellite Tensorial Radiance Field, SatensoRF)[24]通过引入轻量级、快速的张量辐射场架构,有效地加快了训练和推理过程。与神经辐射场中普遍采用的朗伯表面假设不同,SatensoRF建立了具有镜面反射颜色的光场模型,以捕获地球表面固有的各向异性的反射特征。对于多日期图像中的不一致问题,SatensoRF则利用低秩张量表示的优势,将该问题视为降噪任务,即将地球表面视为要从噪声输入数据中恢复的信号,汽车等瞬态物体被视为需要滤除的噪声。与Sat-NeRF系列方法相比,SatensoRF在大尺寸卫星遥感图像上的图像渲染质量更好,而计算量、内存和训练时间要少得多。
4. 应用
本节详细介绍侧重于神经辐射场方法在卫星遥感场景中应用的相关工作,包括立体匹配、3维重建和场景编辑。
4.1 立体匹配
神经辐射场模型的训练通常需要大量的视图,在输入图像很少的情况下,NeRF模型倾向于拟合不正确的几何形状。在地球观测卫星成像中,能够在特定时间窗口内从多个不同视角对同一地区进行成像的情况较为少见。在实际应用中,最常见的数据获取模式是一对立体图像或三视角图像。而立体图像或三视角图像通常用于卫星遥感场景的立体匹配任务。
稀疏卫星神经辐射场(Sparse Satellite Neural Radiance Field, SpS-NeRF)[2]采用传统多视图立体(Multi-View Stereo, MVS)生成的低分辨率稠密深度进行监督,能够从稀疏卫星遥感图像中生成新视图。与文献[25]类似,SpS-NeRF使用MVS获取的深度先验信息及其不确定性度量,以对光线进行更有效地采样。如图4所示,SpS-NeRF在处理稀疏视图数据中取得了比NeRF和Sat-NeRF更好的性能。SpS-NeRF能够从有限的视图数据中渲染出更为清晰的新视图,并且重建出更加准确可靠的3维几何结构。
图 4 SpS-NeRF立体匹配重建结果[2]4.2 3维重建
虽然神经辐射场支持根据场景表示输出网格模型,但是由于NeRF技术本身固有的形状与辐射歧义问题,生成高质量的网格模型仍然面临挑战。
卫星网格(Satellite Mesh, Sat-Mesh)[18]方法借鉴了神经隐式表面重建领域的最新研究进展,将场景表示为有符号距离函数(Sign Distance Function, SDF),并利用体积渲染框架学习SDF值,实现了基于多视角卫星遥感图像的高质量网格重建。为了提升重建表面的精度,Sat-Mesh引入了多视图立体约束,通过最小化图像块之间的相似性,以优化SDF表面的位置和方向,从而提高表面质量。对于DFC2019数据集的单个场景,Sat-Mesh需要大约8 h进行模型训练,其所重建的部分场景的网格模型可视化如图5所示。
图 5 Sat-Mesh网格模型重建结果[18]4.3 场景编辑
同一场景的卫星遥感图像可能相隔数月拍摄,因此,两幅卫星遥感图像可能会显示出不同的季节特征和阴影。季节神经辐射场(Season-NeRF)[26]通过将时间编码作为额外的输入变量引入NeRF模型中,以使模型渲染季节特征。Season-NeRF将位置、太阳角度和时间作为输入,输出季节性调整的反照率、密度、天空颜色和太阳能见度。Season-NeRF通过调整季节特征,实现了卫星遥感场景的风格转换,具体渲染效果如图6所示。
图 6 Season-NeRF季节特征风格转换[26]5. 发展趋势与展望
对于NeRF模型,如果输入图像数量密集、视角覆盖广泛,场景规模适中、相机位姿精确,同时场景是静态,相机曝光参数恒定,那么原始的NeRF模型能够合成非常逼真和准确的新视图[27]。过去几年里,NeRF技术迅猛发展,成功解决了原始NeRF模型的一系列缺点和限制。本节从卫星遥感图像的特性和潜在应用的实际需求出发,同时结合神经辐射场技术最新的研究进展,从数据、模型和应用的角度,综合展望未来的发展趋势和研究方向。
(1)构建高质量的多视角卫星遥感图像数据集。由于卫星遥感图像采集的限制,现有的多视角卫星遥感图像数据集往往需要在数月甚至1年的时间跨度内,从不同的角度对同一地区进行图像采集。这种长时间跨度的采集方式意味着图像间存在着季节变化、光照条件差异及地物变化等问题,从而违背了静态场景假设。这一特性对神经辐射场方法提出了额外的重要挑战。通过构建更高质量的多视角卫星遥感图像数据集,覆盖更广泛的地理和环境条件,能够有效促进卫星神经辐射场方法的研究和应用。
(2)提升卫星遥感场景可扩展性。训练NeRF模型以处理城市等大规模场景具有重要的应用价值。然后,由于NeRF模型的容量有限,单个NeRF模型难以有效对大规模场景进行建模。为了解决该问题,已有研究[5, 28]通过采用分块训练策略,成功使用街景和无人机影像对大规模场景进行了高效建模。进一步将此方法应用于大规模卫星遥感图像,通过对大规模场景进行分块和融合,理论上可以实现对全球范围内复杂地球表面的重建,这对于全球范围的生态监测和地理信息可视化等应用具有重要的意义。
(3)实现多源多尺度数据融合。随着遥感技术的快速发展,目前已能够通过卫星、航空飞机、无人机、地面摄影等多元化平台,获取地面场景的图像数据。这些不同来源的数据反映了场景不同尺度的信息和特征,卫星遥感图像提供了更宏观的视角,无人机图像因其较低的飞行高度能够提供场景的更多细节,而地面图像则能够捕捉到场景建筑的侧面信息。如何在神经辐射场方法中实现真实场景的多源多尺度数据的融合,实现对城市环境的高精度建模,值得未来进一步探索。
(4)探索卫星遥感场景神经表示的创新应用。在自然场景中,除新视图合成外,NeRF也已被用于场景编辑,虚拟现实和自主导航等应用。随着聊天生成预训练转换器(Chat Generative Pre-trained Transformer , ChatGPT)及生成式人工智能技术成为了当前研究的热点,NeRF已经与扩散模型[29]相结合,应用于生成无边界的3维场景。同时,通过与对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)模型[30]的整合,允许用户使用自然语言与3D场景进行交互[31]。当前,基于卫星遥感场景神经表示的应用尚处于起步阶段,探索如何充分利用神经表示的潜在优势,以促进卫星遥感场景应用的发展,是值得关注的重要研究方向。
6. 结束语
神经辐射场使用多层感知器来近似3D场景的辐射场和密度场,能够生成逼真和高质量的图像,标志着将基于MLP的场景表示应用于新视图合成任务的突破。神经辐射场强大的表示能力和高度灵活性为复杂场景的建模和渲染提供了新途径,使能够从全新的角度探索和理解物理世界的视觉现象。神经辐射场技术在卫星遥感场景中的应用,也为遥感场景重建、编辑和仿真等任务提供了新思路。相比于自然场景,卫星遥感数据具有其独特的属性,使得面向卫星遥感图像的神经辐射场方法研究和应用更具挑战性。本文详细介绍了面向卫星遥感场景的神经辐射场方法的研究进展,在此基础上,总结了其面临的主要挑战和发展趋势,旨在为未来的研究工作提供有价值的参考,并期望能够激发更多卫星遥感场景的创新与应用。
-
图 1 NeRF体积渲染和训练过程[1]
图 3 S-NeRF渲染模型[16]
图 4 SpS-NeRF立体匹配重建结果[2]
图 5 Sat-Mesh网格模型重建结果[18]
图 6 Season-NeRF季节特征风格转换[26]
表 1 神经辐射场常用数据集
数据集名称 类别 场景数量 分辨率/
像素每场景
图像数量Synthetic NeRF 物体 8 800×800 400 LLFF 前向场景 8 1008×756 20~62 Mip-NeRF 360 室内、室外场景 9 1237×822 100~330 Tanks and Temples 室外场景 4 1920×1080 283 表 2 DFC2019数据集详细信息
1 2 3 4 区域编号 004 068 214 260 输入图像 9 17 21 15 高度范围 [–24, 1] [–27, 30] [–29, 73] [–30, 13] 纬度 30.357 30.348 30.316 30.311 经度 –81.706 –81.663 –81.663 –81.663 表 3 光线空间优化方法总结
光线空间 优点 缺点 代表方法 球坐标表示 易于理解和计算 精度略低 S-NeRF(2021年) ECEF坐标表示 适合精确位置计算 计算变换复杂且不直观 Sat-NeRF(2022年) UTM坐标表示 易于理解和应用 需要额外的高度信息 EO-NeRF(2023年) RPC近似模型表示 精度较高,灵活性高 近似过程存在误差 Sat-Mesh(2023年) -
[1] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99–106. doi: 10.1145/3503250. [2] ZHANG Lulin and RUPNIK E. Sparsesat-NeRF: Dense depth supervised neural radiance fields for sparse satellite images[J]. arXiv preprint arXiv: 2309.00277, 2023. doi: 10.48550/arXiv.2309.00277. [3] BARRON J T, MILDENHALL B, TANCIK M, et al. Mip-NeRF: A multiscale representation for anti-aliasing neural radiance fields[C]. The 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 5835–5844. doi: 10.1109/ICCV48922.2021.00580. [4] TANCIK M, SRINIVASAN P P, MILDENHALL B, et al. Fourier features let networks learn high frequency functions in low dimensional domains[C]. The 34th International Conference on Neural Information Processing Systems, Vancouver, Canada, 2020: 632. [5] TANCIK M, CASSER V, YAN Xinchen, et al. Block-NeRF: Scalable large scene neural view synthesis[C]. The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 8238–8248. doi: 10.1109/CVPR52688.2022.00807. [6] MAX N. Optical models for direct volume rendering[J]. IEEE Transactions on Visualization and Computer Graphics, 1995, 1(2): 99–108. doi: 10.1109/2945.468400. [7] GAO K, GAO Yina, HE Hongjie, et al. NeRF: Neural radiance field in 3D vision, a comprehensive review[J]. arXiv preprint arXiv: 2210.00379, 2022. doi: 10.48550/arXiv.2210.00379. [8] LORENSEN W E and CLINE H E. Marching cubes: A high resolution 3D surface construction algorithm[M]. WOLFE R. Seminal Graphics: Pioneering Efforts that Shaped the Field. New York: Association for Computing Machinery, 1998: 347–353. doi: 10.1145/280811.281026. [9] MILDENHALL B, SRINIVASAN P P, ORTIZ-CAYON R, et al. Local light field fusion: Practical view synthesis with prescriptive sampling guidelines[J]. ACM Transactions on Graphics, 2019, 38(4): 29. doi: 10.1145/3306346.3322980. [10] BARRON J T, MILDENHALL B, VERBIN D, et al. Mip-NeRF 360: Unbounded anti-aliased neural radiance fields[C]. The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 5460–5469. doi: 10.1109/CVPR52688.2022.00539. [11] KNAPITSCH A, PARK J, ZHOU Qianyi, et al. Tanks and temples: Benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics, 2017, 36(4): 78. doi: 10.1145/3072959.3073599. [12] BOSCH M, FOSTER K, CHRISTIE G, et al. Semantic stereo for incidental satellite images[C]. 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), Waikoloa, USA, 2019: 1524–1532. doi: 10.1109/WACV.2019.00167. [13] LE SAUX B, YOKOYA N, HANSCH R, et al. 2019 data fusion contest [technical committees][J]. IEEE Geoscience and Remote Sensing Magazine, 2019, 7(1): 103–105. doi: 10.1109/MGRS.2019.2893783. [14] MARÍ R, FACCIOLO G, and EHRET T. Sat-NeRF: Learning multi-view satellite photogrammetry with transient objects and shadow modeling using RPC cameras[C]. The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, New Orleans, USA, 2022: 1310–1320. doi: 10.1109/CVPRW56347.2022.00137. [15] SCHÖNBERGER J L and FRAHM J M. Structure-from-motion revisited[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 4104–4113. doi: 10.1109/CVPR.2016.445. [16] DERKSEN D and IZZO D. Shadow neural radiance fields for multi-view satellite photogrammetry[C]. The 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Nashville, USA, 2021: 1152–1161. doi: 10.1109/CVPRW53098.2021.00126. [17] MARÍ R, FACCIOLO G, and EHRET T. Multi-date earth observation NeRF: The detail is in the shadows[C]. The 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Vancouver, Canada, 2023: 2035–2045. doi: 10.1109/CVPRW59228.2023.00197. [18] QU Yingjie and DENG Fei. Sat-mesh: Learning neural implicit surfaces for multi-view satellite reconstruction[J]. Remote Sensing, 2023, 15(17): 4297. doi: 10.3390/rs15174297. [19] MARTIN-BRUALLA R, RADWAN N, SAJJADI M S M, et al. Nerf in the wild: Neural radiance fields for unconstrained photo collections[C]. The 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 7206–7215. doi: 10.1109/CVPR46437.2021.00713. [20] SUN Cheng, SUN Min, and CHEN H T. Improved direct voxel grid optimization for radiance fields reconstruction[J]. arXiv preprint arXiv: 2206.05085, 2022. doi: 10.48550/arXiv.2206.05085. [21] CHEN Anpei, XU Zexiang, GEIGER A, et al. TensoRF: Tensorial radiance fields[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 333–350. doi: 10.1007/978-3-031-19824-3_20. [22] MÜLLER T, EVANS A, SCHIED C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics, 2022, 41(4): 102. doi: 10.1145/3528223.3530127. [23] XIE Songlin, ZHANG Lei, JEON G, et al. Remote sensing neural radiance fields for multi-view satellite photogrammetry[J]. Remote Sensing, 2023, 15(15): 3808. doi: 10.3390/rs15153808. [24] ZHANG Tongtong and LI Yuanxiang. Fast satellite tensorial radiance field for multi-date satellite imagery of large size[J]. arXiv preprint arXiv: 2309.11767, 2023. doi: 10.48550/arXiv.2309.11767. [25] ROESSLE B, BARRON J T, MILDENHALL B, et al. Dense depth priors for neural radiance fields from sparse input views[C]. Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 12882–12891. doi: 10.1109/CVPR52688.2022.01255. [26] GABLEMAN M and KAK A. Incorporating season and solar specificity into renderings made by a NeRF architecture using satellite images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(6): 4348–4365. doi: 10.1109/TPAMI.2024.3355069. [27] REMATAS K, LIU A, SRINIVASAN P, et al. Urban radiance fields[C]. The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 12922–12932. doi: 10.1109/CVPR52688.2022.01259. [28] TURKI H, RAMANAN D, and SATYANARAYANAN M. Mega-NeRF: Scalable construction of large-scale NeRFs for virtual fly-throughs[C]. The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 12912–12921. doi: 10.1109/CVPR52688.2022.01258. [29] HO J, JAIN A, and ABBEEL P. Denoising diffusion probabilistic models[C]. The 34th International Conference on Neural Information Processing Systems, Vancouver, Canada, 2020: 574. [30] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]. The 38th International Conference on Machine Learning, 2021: 8748–8763. [31] YANG Jianing, CHEN Xuweiyi, QIAN Shengyi, et al. LLM-grounder: Open-vocabulary 3D visual grounding with large language model as an agent[J]. arXiv preprint arXiv: 2309.12311, 2023. doi: 10.48550/arXiv.2309.12311. -