Sonar Image Underwater Target Recognition: A Comprehensive Overview and Prospects
摘要: 随着海洋资源开发和水下作业的增加,声呐图像水下目标识别已成为热门研究领域。该文全面回顾了该领域的现状和未来趋势。首先,强调了声呐图像水下目标识别的背景和重要性,指出水下环境复杂和样本稀缺增加了任务难度。其次,深入探讨了典型的成像声呐技术,包括前视声呐、侧扫声呐、合成孔径声呐、多波束测深仪、干涉合成孔径声呐和前视三维声呐等。接下来,系统地审视了二维和三维声呐图像水下目标识别方法,比较了不同算法的优劣,还讨论了声呐图像序列的关联识别方法。最后,总结了当前领域的主要挑战,展望了未来研究方向,旨在促进水下声呐目标识别领域的发展。Abstract: With the increasing development of marine resources and underwater operations, sonar image-based underwater target recognition has become a hot research area. This article provides a comprehensive review of the current status and future trends in this field. Initially, the background and significance of sonar image-based underwater target recognition are emphasized, noting that the complexity of the underwater environment and the scarcity of samples increase the task difficulty. Subsequently, typical imaging sonar technologies are delved, including forward-looking sonar, side-scan sonar, synthetic aperture sonar, multibeam echo sounder, interferometric synthetic aperture sonar, and forward-looking 3D sonar. Following that, 2D and 3D sonar image-based underwater target recognition methods are systematically examined, the strengths and weaknesses of different algorithms are compared, and methods for the correlated recognition of sonar image sequences are discussed. Finally, the major challenges in the current field and future research directions are summarized, aiming to foster the development of the underwater sonar target recognition field.
表 1 二维声呐图像目标识别方法比较
类别 文献索引 优点 缺点 传统识别方法 模板匹配[25–28] 计算速度快,不需要训练数据 需要目标先验知识 多源/多特征[30–38] 性能优于单源数据 数据差异大,易误判;特征维数过高易性能下降 统计分析[39–41] 不需要训练数据 模型与数据不匹配时,性能下降 深度学习分类 小型网络[42] 对数据需求小 性能不高 迁移学习[43–49] 对待识别数据需求较小 利用数据和领域相似性不合理,性能下降 大型网络改进[57–59] 特征提取能力强、分类准确 需要大量声图数据 深度学习检测 文献[60–67] 性能优、定位精度高 需要大量声图数据、检测速度与网络模型和声图尺寸相关 样本扩充 成像仿真模拟[50,51] 生成过程
可解译,不需要样本真实场景仿真复杂度高,与真实场景还有差距 图像生成[51,55,56] 与真实声图场景差距较小 需要训练数据,生成过程不可解译 表 2 三维声呐图像目标识别方法比较
类型 方法 优点 缺点 二维化 图像分割、手工特征及统计学习[69-72];二维目标检测网络及语义分割网络[73-77] 应用条件和二维声图像识别相似,研究工作相对成熟;参数规模和训练成本较低。 对空间关系的利用不足;不同成像类型的处理方法差异大,视角选择对识别结果影响显著;难以适用于具备穿透作用的低频声呐。 体素 浅层神经网络[79];3D-UNet及3D-VNet[78] 信息完整,对空间关联的描述清晰;适用于具备穿透作用的低频声呐;可以面向语义分割。 计算量大;对部分成像声呐数据冗余计算多;非直接获得的体素数据,网格分辨率影响识别结果;对小目标适应性不足。 点云 点云抽稀、聚类分割[80];浅层神经网络[83];三维点云检测网络(PointNet等)[81,82,84] 计算规模可控;信息相对完整,表达方式接近多波束成像的本质。 需克服点云排列顺序的影响(无序性);点云滤波算法对识别结果和计算规模有较大影响; -
