基于香农熵代表性特征和投票机制的三维模型分类

高雪瑶; 闫少康; 张春祥

doi:10.11999/JEIT230405

基于香农熵代表性特征和投票机制的三维模型分类

doi: 10.11999/JEIT230405

哈尔滨理工大学计算机科学与技术学院哈尔滨 150080

基金项目: 国家自然科学基金(61502124, 60903082)，中国博士后科学基金(2014M560249)，黑龙江省自然科学基金(LH2022F031, LH2022F030, F2015041, F201420)

详细信息

作者简介:
高雪瑶：女，教授，研究方向为图形图像处理、自然语言处理、机器学习

闫少康：男，硕士生，研究方向为图形图像处理

张春祥：男，教授，研究方向为自然语言处理、图形图像处理、机器学习

通讯作者:
张春祥　z6c6x666@163.com

中图分类号: TN911.7; TP391.7
计量
- 文章访问数: 338
- HTML全文浏览量: 215
- PDF下载量: 49
- 被引次数: 0
出版历程
- 收稿日期: 2023-05-12
- 修回日期: 2023-12-12
- 网络出版日期: 2023-12-20
- 刊出日期: 2024-04-24

3D Model Classification Based on Shannon Entropy Representative Feature and Voting Mechanism

School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China

Funds: The National Natural Science Foundation of China (61502124, 60903082), China Postdoctoral Science Foundation (2014M560249), Heilongjiang Provincial Natural Science Foundation of China (LH2022F031, LH2022F030, F2015041, F201420)

摘要

摘要: 目前基于视图的3维模型分类方法存在单视图视觉信息不充分、多视图信息冗余的问题，且同等对待所有视图会忽略不同投影视角之间的差异性。针对上述问题，该文提出一种基于香农熵代表性特征和投票机制的3维模型分类方法。首先，通过在3维模型周围均匀设置多个视角组来获取表征模型的多组视图集。为了有效提取视图深层特征，在特征提取网络中引入通道注意力机制；然后，针对Softmax函数输出的视图判别性特征，使用香农熵来选择代表性特征，从而避免多视图特征冗余；最后，基于多个视角组的代表性特征利用投票机制来完成3维模型分类。实验表明：该方法在3维模型数据集ModelNet10上的分类准确率达到96.48%，分类性能突出。
- 3维模型分类 /
- 注意力机制 /
- 香农熵代表性特征 /
- 投票机制
Abstract: At present, view-based 3D model classification has the problems of insufficient visual information for single view and redundant information for multiple views, and treating all views equally will ignore the differences between different projection angles. To solve the above problems, a 3D model classification method based on Shannon entropy representative feature and voting mechanism is proposed. Firstly, multiple angle groups are set uniformly around 3D model, and multiple view sets representing the model are obtained. In order to extract effectively deep features from view, channel attention mechanism is introduced into the feature extraction network. Secondly, based on view discriminative features output from Softmax function, Shannon entropy is used to select representative feature for avoiding redundant feature of multiple views. Finally, based on representative features from multiple angle groups, voting mechanism is used to classify 3D model. Experiments show that the classification accuracy of the proposed method on 3D model dataset ModelNet10 reaches 96.48%, and classification performance is outstanding.
- 3D model classification /
- Attention mechanism /
- Shannon entropy representative feature /
- Voting mechanism

HTML全文

1. 引言

近年来，随着小型3维传感器的出现及计算机视觉的不断发展，3维模型生成过程变得更加便捷，其数量呈现指数级增长。目前3维模型已被广泛应用于无人驾驶、工业设计、虚拟现实和3维重建等领域。3维模型分类效果的优劣影响着实际应用，如何对3维模型进行高效的分类和管理已成为许多学者研究的热点。传统3维模型分类利用人工设计的几何描述子获取3维模型特征，然后通过支持向量机(SVM)、聚类等方法对特征进行处理，进而完成模型分类。但人工提取的特征依赖于设计者经验和主观分析，存在非客观性且难以有效地捕获模型深层特征。随着深度学习的迅速发展，AlexNet^[1], GoogleNet^[2], ResNet^[3]等网络的不断提出，使得卷积神经网络(Convolutional Neural Network, CNN)在2维图像语义分割和分类领域取得很好效果，也为3维模型分类提供了新思路。但是由于3维模型几何结构的无序性和复杂性，深度学习直接应用于3维模型分类面临着极大的挑战。

根据3维模型数据表示的多样性，可将基于深度学习的3维模型分类算法分为3类：基于点云的分类方法、基于体素的分类方法和基于视图的分类方法。在基于点云的方法中，Charles等人^[4]提出的PointNet对无序点云数据进行输入变换和特征变换，然后通过Maxpool对称函数获取点云的全局特征，进而实现模型分类。随后Qi等人^[5]改进PointNet提出了分层神经网络PointNet++，能够自适应地组合多尺度特征，获取点云的局部特征。此后，Song等人^[6]提出的核相关学习块(Kernel Correlation learning Block, KCB)可以自适应地学习不同层的局部几何特征和全局特征，增强网络的感知能力。张溯等人^[7]通过构建转换网络提取点云模型自身空间结构信息，实现模型分类。Hassan等人^[8]引入深度分层3D点云分类架构，该架构由多层采样、同心环卷积、池化层和残差特征传播块组成，能够学习鲁棒的几何特征。Zhou等人^[9]提出的空间通道注意力网络能有效利用不同层次点云的内部和全局信息，增强信息之间的相关性。点云数据可以利用密集的点全面地表示3维模型细节信息，通过点云能够获得3维模型的位置、尺寸和几何信息。上述方法虽然能直接处理点云数据，但分类效果仍然受到点云无序性和信息有限性的影响。在基于体素的方法中，将3维模型转换成规则的体素化表示形式，然后利用3维卷积神经网络(3D CNN)实现特征提取及模型分类。Wu等人^[10]将3维模型的几何形状表示为3维体素网格上二进制变量的概率分布，然后利用3D ShapeNets学习模型的类别特征。Xu等人^[11]采用与3D ShapeNets类似的框架，将CNN学习过程表述为一种定向搜索。此后，Kim等人^[12]设计了一种部分几何网络(Part Geometry Network, PG-Net)，PG-Net可以作为3维模型分类和重建的鲁棒性特征描述符。Ma等人^[13]提出双通道注意残差网络，采用双通道输入体素和3维Radon特征矩阵。Cai等人^[14]提出一种基于体素和三视图混合并行网络，结合视图与体素进行加权融合。He等人^[15]结合图注意力网络和3D稀疏卷积设计一种双分支体素特征提取框架。体素化数据可以直接利用3维卷积神经网络来提取多层次和多尺度的局部信息，基于体素的方法受限于体素分辨率，同时3维卷积相比于2维卷积在特征提取中消耗的资源更大。由于深度学习在2维图像处理领域相对成熟，与点云和体素相比，基于视图的方法通过2维投影获取3维模型的视图表征，并利用2维神经网络提取视图深层特征，避免直接在模型上进行3维卷积操作。Shi等人^[16]提出的DeepPano将3维模型转为全景视图，然后利用改进的CNN从视图中学习深度表征。Sinha等人^[17]提出一种将3维模型转为几何图像的方法，并直接使用CNN来学习3维形状。Su等人^[18]提出多视图卷积神经网络(Multi-View Convolutional Neural Networks, MVCNN)，利用池化操作融合多视图的信息。Liang等人^[19]利用多视角卷积LSTM网络(Multi-View Convolutional LSTM Network, MVCLN)提取视图时间信息和空间信息。白静等人^[20]提出的CNN-Voting算法基于CaffeNet实现2维视图分类，并采用加权投票的方式完成3维模型分类。Hegde等人^[21]设计一种体素CNN架构，利用视图和体素相结合的方式表示3维模型，并通过CNN提取模型特征。Jin等人^[22]利用旋转方向预测和旋转角度预测提出3维模型代表性视图定位框架。Zhu等人^[23]提出的局部信息融合网络利用图像区域和特征映射通道之间的关系，进行特征映射重组和区域特征提取。

目前基于视图的方法利用多种成熟的2维神经网络获得较好的分类效果。但现有投影方式会产生大量冗余视图，如果同等对待所有视图会忽略代表性视图的重要性，且单视图难以提供足够的模型视觉信息。针对以上问题，本文提出一种基于香农熵代表性特征和投票机制的3维模型分类方法。该方法首先设置多个视角组，利用获取的多组视图集从多个不同角度充分表征3维模型；其次采用引入ECA注意力机制的RegNet特征提取网络获取视图深层特征；然后针对Softmax函数输出的视图判别性特征，给出了基于香农熵的代表性特征选择方法；最后以多视角组的代表性特征为基础，利用投票算法完成3维模型分类。

2. 3维模型多视图表征

3维模型M共有c种类别s₀, s₁, ···, s_c–1。视角组的选取会影响模型投影视图的效果，单视角组下获取的视图信息未能充分地表征3维模型。因此，在3维模型斜上方设置6个不同的视角组，在每个视角组相应的圆周上又均匀地设置n个视点。虚拟相机沿着圆周依次对模型进行二维投影，获得表示模型的多组视图集。对于给定的3维模型M，构建其多视图表征集V(M)={v_αl, 1≤α≤6, 1≤l≤n}。其中，n为视角组α下的视图数目，v_αl为模型M在视角组α下的2维视图。通过设置6个视角组和6n个视点进行2维投影，来全面地描述3维模型的形状信息。以n=6为例，3维模型M的投影过程如图1所示。本文在模型斜上方设置6个视角组，其中视角组1, 2, 3, 4, 5, 6与Z轴的夹角分别为15°, 30°, 45°, 60°, 75°, 90°。在每个视角组相应的圆周上又均匀地设置6个视点，如图1红圆圈所示。对于某个视角组，虚拟相机绕Z轴逆时针旋转一周在相应圆周的视点上对3维模型进行投影生成6幅2维视图。共获得了36(6×6)幅投影视图。

图 1 3维模型投影示意图

下载: 全尺寸图片幻灯片

3. 基于多视角组的3维模型分类

本文的3维模型分类框架如图2所示。主要分为3部分：第一，选取6个不同视角组对3维模型进行2维投影，构建表征3维模型的多组2维视图集；第二，基于RegNet和ECA构建特征提取网络，实现视图深层特征的获取；第三，针对Softmax函数输出的判别性特征，使用香农熵来选择代表性特征，并利用Concat对各个视角组下的代表性特征进行融合，最后通过投票策略完成3维模型的分类。

图 2 3维模型分类框架

下载: 全尺寸图片幻灯片

3.1 基于RegNet与ECA的深层特征提取

RegNet^[24]具有泛化能力强和集中度高的优点，因此本文选择RegNet提取视图的深层特征。RegNet结构如图3所示，主要包括stem, body和head 3部分。stem为普通卷积层，包括32个大小为3×3的卷积核，卷积步长为2。head是一个分类器，由全局平均池化层(Global Average Pooling, GAP)、Dropout层和全连接层组成。body是RegNet主体，由4个stage堆叠构成，而每个stage又由若干个block组成。block为带有分组卷积的标准残差瓶颈块，主干结构由两个1×1的普通卷积和一个3×3的分组卷积组成。其中，w_i为特征矩阵通道数；r_i为特征矩阵高或宽；s是卷积步长；g代表分组卷积组宽度；d_i表示每个stage中block数量，d₁, d₂, d₃, d₄分别为1, 3, 5, 7。

图 3 RegNet模型结构

下载: 全尺寸图片幻灯片

注意力机制能根据特征重要性自适应为相应特征赋予权重，使网络聚焦于更为关键的信息。由图3可知：特征矩阵通道数是逐渐增加的，而高或宽是逐渐减小的，因此如何在众多通道中学习到有用信息是十分重要的。ECA(Efficient Channel Attention)^[25]是一种基于通道域的轻量级注意力模块，采用不降维的1维卷积实现更好的跨通道信息交互，ECA结构如图4所示。

图 4 ECA模块结构

下载: 全尺寸图片幻灯片

由图4可知，对于大小为(C,H,W)的输入特征矩阵F_I，首先经过GAP获得大小为(C,1,1)的未降维特征；然后通过1维卷积(1DConv)捕获通道域上信息；最后利用Sigmoid函数将特征权重映射到[0,1]之间，并与F_I进行加权得到输出特征矩阵F_O。卷积核K代表局部跨通道交互覆盖率，由式(1)得到，其中|t|_odd表示距t最近的奇数。

$K = {\left| {\frac{{\log_2 \left( {{w_i}/b} \right)}}{2} + \frac{1}{2}} \right|_{{\text{odd}}}}$

(1)

在RegNet的block中嵌入ECA模块，如图5所示。首先将多组视图集输入到stem模块中提取浅层特征；然后输入到body中进行优化和降噪，stage1, stage2, stage3, stage4分别由1, 3, 5, 7个block组成；接着将body的输出送入head中提取视图深层特征；最后利用Softmax函数提取判别性特征。

图 5 基于RegNet和ECA的特征提取网络

下载: 全尺寸图片幻灯片

本文通过设置6个不同视角组、6n个视点对3维模型进行2维投影产生6n个视图，因此单个视角组下共有n个Softmax分类器，6个视角组共设置6n个Softmax分类器。同一视角组下的多视图间彼此共享网络参数，不同视角组获取的多视图使用不同网络参数。网络训练过程分为2步：(1)首先利用图像数据集ImageNet对网络进行预训练；(2)然后基于步骤(1)获取的预训练权重初始化RegNet+ECA特征提取网络的参数，以3维模型的多组视图集作为网络输入来优化网络参数。

3.2 基于香农熵的代表性特征选取

将3维模型M的多视图表征集V(M)={v_αl, 1≤α≤6, 1≤l≤n}输入到RegNet+ECA中，提取M的视图深层特征，以Softmax层输出的结果 ${\boldsymbol{P}}({{\alpha}} )$ ={p_lj^α, 1≤l≤n, 0≤j≤c–1}作为视角组α下的视图判别性特征，其中c为类别数目，p_lj^α表示视角组α下视图v_αl属于各个类别的概率，其中0≤j≤c–1。 ${\boldsymbol{P}}({{\alpha}} )$ 如式(2)所示。

${\boldsymbol{P}}({{\alpha}} ) = \left[ \begin{gathered} p_{10}^\alpha ,p_{11}^\alpha , \cdots ,p_{1,c - 1}^\alpha \\ p_{20}^\alpha ,p_{21}^\alpha , \cdots ,p_{2,c - 1}^\alpha \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ddots {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots {\kern 1pt} \\ p_{n0}^\alpha ,p_{n1}^\alpha , \cdots ,p_{n,c - 1}^\alpha \\ \end{gathered} \right]$

(2)

Softmax输出的判别性特征对分类的不确定性影响着3维模型的分类效果，利用香农熵衡量Softmax分类器的不确定性，并提出一种基于香农熵的代表性特征选择方法。对式(2)所示的视角组α下的判别性特征 ${\boldsymbol{P}}({{\alpha}} )$ ，分类器Softmax_l^α相应的香农熵H_l^α如式(3)所示。

$H_l^\alpha = - \sum\limits_{j = 0}^{c - 1} {p_{lj}^\alpha \cdot {{\log }_2}p_{lj}^\alpha } ,{\text{ 1}} \le l \le n,{\text{ 1}} \le \alpha \le 6$

(3)

香农熵H_l^α越小，说明该Softmax_l^α分类器不确定性越小，模型分类结果可信度越高。由式(4)得到视角组α下的代表性特征 ${\boldsymbol{T}}({{\alpha }})$ ，其中i(α)表示视角组α下最小熵值对应的代表性特征标号。

$\begin{split} & {\boldsymbol{T}}({{\alpha }}) = \left[ {p_{i(\alpha ),0}^\alpha ,p_{i(\alpha ),1}^\alpha , \cdots ,p_{i(\alpha ),c - 1}^\alpha } \right],{\text{ }}\\ & i(\alpha ) = \mathop {\arg \min }\limits_{l = 1,2, \cdots ,n} (H_l^\alpha ) \end{split}$

(4)

$p_{i(\alpha ),c - 1}^\alpha$ 表示视角组α下代表性特征属于第c–1类别的概率。利用Concat对6个视角组下的代表性特征进行融合，融合代表性特征R如式(5)所示。

${\boldsymbol{R}} = \left[ \begin{gathered} {\boldsymbol{T}}(1) \\ {\boldsymbol{T}}(2) \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots \\ {\boldsymbol{T}}(6) \\ \end{gathered} \right] = \left[ \begin{gathered} p_{i(1),0}^1,p_{i(1),1}^1, \cdots ,p_{i(1),c - 1}^1 \\ p_{i(2),0}^2,p_{i(2),1}^2, \cdots ,p_{i(2),c - 1}^2 \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ddots {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \vdots \\ p_{i(6),0}^6,p_{i(6),1}^6, \cdots ,p_{i(6),c - 1}^6 \\ \end{gathered} \right]$

(5)

3.3 投票算法

本文以融合代表性特征R作为投票算法的输入，利用硬投票和软投票两种策略来完成3维模型分类。

(1)硬投票算法(Hard-Voting, HV)称为标签投票法，将 ${\boldsymbol{T}}({{\alpha }})$ 中最大概率对应的类别标签作为视角组α下的代表性特征的投票，将出现次数最多的标签作为3维模型M的分类结果。Label为由6组视角投票结果所构成的向量，如式(6)所示：

$\begin{split} {{\mathrm{Label}}} = \,& \left[ \mathop {\arg \max }\limits_{j = 0,1, \cdots ,c - 1} (p_{i(1),j}^1),\mathop {\arg \max }\limits_{j = 0,1, \cdots ,c - 1} (p_{i(2),j}^2), \cdots ,\right.\\ &\left. \mathop {\arg \max }\limits_{j = 0,1, \cdots ,c - 1} (p_{i(6),j}^6) \right] \end{split}$

(6)

由式(7)确定模型M的最终分类结果，其中，maxnum(·)表示向量Label中数量最多的标签。

${{\mathrm{Class}}} (M) = \max {\text{num}}({\text{Label}})$

(7)

(2)软投票算法(Soft-Voting, SV)称为概率投票法，按类别累加R中6个视角组下的代表性特征，得到最终的投票结果V，如式(8)所示：

$V = \left[ {\sum\limits_{\alpha = 1}^6 {p_{i(\alpha ),0}^\alpha } ,\sum\limits_{\alpha = 1}^6 {p_{i(\alpha ),1}^\alpha } , \cdots ,\sum\limits_{\alpha = 1}^6 {p_{i(\alpha ),c - 1}^\alpha } } \right]$

(8)

由式(9)确定模型M的最终分类结果：

${{\mathrm{Class}}} (M) = \mathop {\arg \max }\limits_{j = 0,1, \cdots ,c - 1} \left(\sum\limits_{\alpha = 1}^6 {p_{i(\alpha ),j}^\alpha } \right)$

(9)

3维模型的分类过程如下所示。

输入：3维模型M

输出：M的类别

步骤1　在M周围设置6个视角组和6n个视点，通过投影得到模型M的多视图表征集V(M)={v_αl, 1≤α≤6, 1≤l≤n}；

步骤2　多视图集V(M)作为特征提取网络RegNet+ECA的输入，以全连接层的输出作为M的视图深层特征描述，以Softmax层输出的结果P(α)={p_lj^α, 1≤l≤n, 0≤j≤c–1}作为M的视图判别性特征；

步骤3　以P(α)为基础根据式(3)，式(4)计算各个视角组下的代表性特征T(α)，并利用式(5)获取6个视角组下的融合代表性特征R；

步骤4　R作为投票算法的输入，依据式(6)，式(7)或式(8)，式(9)确定M的类别；

4. 实验结果与分析

本文选取的3维模型数据集ModelNet10共有10个类别，训练集有3991个模型，测试集有908个模型。为了探究视图数目对分类结果的影响，本文在图1所示的视角组4相应圆周上分别均匀放置3, 6, 9, 12, 18个虚拟相机，利用获取的3视图(3V)、6视图(6V)、9视图(9V)、12视图(12V)、18视图(18V)分别表征3维模型。为了验证RegNet模型的性能，本实验并没有在RegNet中引入ECA注意力机制，而是基于RegNet实现视图深层特征的提取。首先3V, 6V, 9V, 12V, 18V分别作为stem模块的输入进行浅层特征提取；然后将获取的特征送入body中进行降噪与优化，其中body由4个stage组成，stage1, stage2, stage3, stage4分别包括1, 3, 5, 7个block块；最后body的输出送入head中提取视图深层语义特征，并以Softmax输出的视图判别性特征作为投票算法的输入，进而完成模型分类，模型分类结果如表1所示。

表 1 不同视图数目下的分类准确率(%)

网络模型	投票算法	3V	6V	9V	12V	18V
RegNet	HV	94.05	93.83	93.98	94.82	94.27
RegNet	SV	94.05	94.60	94.27	94.71	94.60

下载: 导出CSV

| 显示表格

由表1可知：12V取得最高的分类准确率94.82%；3V的分类准确率最低，为94.05%；18V的分类效果略微低于12V。实验结果表明：较少的视图不能提供足够的模型视觉信息，而较多的视图会造成视图间的信息冗余，模型的分类效果并不与视图数目成正比。HV与SV投票算法在分类效果上有所差别，但整体变化较小，其中HV算法在12V下分类准确率略高于SV，其它情况下均低于SV。这表明HV算法根据最大概率值进行投票可能会忽略更多相近概率对应的类标签，这些相近概率对模型分类精度有所影响；SV算法利用概率累加进行投票分类精度优于HV的标签投票法，具有较强的鲁棒性。6V和12V分类效果接近，但在6个视角组下，12V的视图数目与6V相比增加了36个视图(6×6)。因此6V的RegNet模型训练时间和测试时间都远远低于12V。本文后期实验无特殊说明各个视角组下的视图数目均采用6V。由图5可知，stage1, stage2, stage3, stage4所含block数会影响RegNet抽取特征的性能。在RegNet的stage1, stage2, stage3, stage4中设置不同的block数，分别形成了RegNet2X, RegNet4X, RegNet6X和RegNet8X。不同RegNet网络的分类效果，如表2所示。

表 2 不同RegNet网络的分类准确率(%)

RegNet模型	stage1	stage2	stage3	stage4	flops(B)	params(M)	HV	SV
RegNet2X	1×block	1×block	4×block	7×block	0.2	2.7	92.51	93.83
RegNet4X	1×block	2×block	7×block	12×block	0.4	5.2	93.50	94.16
RegNet6X	1×block	3×block	5×block	7×block	0.6	6.2	93.83	94.60
RegNet8X	1×block	3×block	7×block	5×block	0.8	7.3	94.16	94.71

下载: 导出CSV

| 显示表格

由表2可知：RegNet8X提取特征的性能最好，其分类准确率为94.71%；而RegNet2X分类效果最差，为93.83%。这是因为RegNet8X的flops和参数量最高，而RegNet2X的flops和参数量最低。但flops和参数量越高，模型的训练速度越慢，GPU内存消耗越大，有可能导致内存溢出。由于RegNet6X的分类效果略低于RegNet8X，为了兼顾分类效果和效率，本文在后期实验均选用RegNet6X作为RegNet。为了探究注意力机制对RegNet模型性能的影响，本文在RegNet中嵌入ECA模块，并基于RegNet+ECA实现视图深层特征的提取。如图5所示，视图深层特征的提取效果与block块中ECA插入位置有关，因此基于图6所示的4个不同位置(ECA1, ECA2, ECA3和ECA4)，利用消融实验确定最优的插入位置。由于已经确定各个视角组下视图数目为6，因此该实验以视角组4下6个Softmax输出的判别性特征为基础，利用投票算法完成模型分类，其分类结果如表3所示。

图 6 block块中ECA具体嵌入位置

下载: 全尺寸图片幻灯片

表 3 ECA不同嵌入位置对RegNet分类的影响(%)

投票算法	ECA1	ECA2	ECA3	ECA4
HV	93.72	93.72	93.94	94.05
SV	94.60	94.49	95.26	94.60

下载: 导出CSV

| 显示表格

由表3可知：ECA3在SV算法中取得最好的分类效果95.26%，而ECA2取得相对较差的分类准确率94.49%。该实验结果表明：在block块中3×3分组卷积之后引人ECA模块与其它位置相比，RegNet模型具有较强的特征提取能力，能有效捕获视图关键性的判别信息，可以进一步提高3维模型的分类准确率。因此，本文后期实验均采用ECA3。为了验证RegNet中引入ECA是否能提高3维模型的分类效果，本文基于RegNet+ECA对6个视角组下的6视图进行深层特征的提取，并针对Softmax输出的判别性特征利用投票算法完成模型分类，其分类结果如表4所示。

表 4 ECA对RegNet分类的影响(%)

网络模型	投票算法	视角1	视角2	视角3	视角4	视角5	视角6
RegNet	HV	92.51	92.95	93.06	93.83	94.05	88.66
RegNet	SV	93.06	93.94	94.05	94.60	94.49	89.43
RegNet+ECA	HV	93.28	94.27	93.39	93.94	94.05	88.88
RegNet+ECA	SV	93.72	94.71	94.93	95.26	95.04	90.42

下载: 导出CSV

| 显示表格

由表4可知：RegNet+ECA在6个视角下的分类准确率相较于RegNet均有所提高。其中，对于HV算法，视角1, 2, 3, 4, 5, 6分别提高0.77%, 1.32%, 0.33%, 0.11%, 0, 0.22%；对于SV算法，视角1, 2, 3, 4, 5, 6分别提高0.66%, 0.77%, 0.88%, 0.66%, 0.55%, 0.99%。其原因是：ECA采用不降维的1维卷积具有较好的跨通道捕获信息能力，RegNet在引入ECA后可以获得更强的特征提取能力。在这6个视角组中，视角组4, 5的分类效果较好，表明在视角组4到视角组5之间投影得到的多视图可以捕获更加丰富的模型视觉信息。

视角组下的代表性特征可以有效避免多视图信息冗余，本实验首先使用RegNet+ECA提取6个视角组相应的视图深层特征，运用Softmax函数进一步得到视图判别性特征；然后以判别性特征为基础，利用香农熵计算该视角组下的代表性特征，采用Concat对各个视角组的代表性特征进行融合；最后利用投票算法完成模型分类。各个类别分类结果如表5所示。

表 5 多视角代表性特征的对比(%)

类别	视角1	视角2	视角3	视角4	视角5	视角6	R-SV	R-HV
bathtub	92.00	98.00	98.00	100.00	96.00	88.00	100.00	100.00
bed	99.00	100.00	100.00	100.00	100.00	97.00	100.00	100.00
chair	100.00	100.00	100.00	100.00	100.00	97.00	100.00	100.00
desk	91.86	88.37	89.53	86.05	91.86	75.58	91.86	91.86
dresser	83.72	91.86	95.35	94.19	89.53	87.21	94.19	94.19
monitor	100	99.00	100.00	100.00	99.00	99.00	100.00	100.00
night_stand	89.53	82.56	79.07	82.56	88.37	72.09	83.72	86.05
sofa	99.00	98.00	98.00	99.00	98.00	96.00	99.00	99.00
table	92.00	91.00	85.00	87.00	88.00	87.00	92.00	93.00
toilet	96.00	99.00	100.00	100.00	100.00	100.00	100.00	100.00
平均准确率	94.71	94.93	94.60	94.93	95.26	90.53	96.15	96.48

下载: 导出CSV

| 显示表格

由表5可知：对多个视角组的代表性特征进行硬投票(R-HV)取得最高分类准确率96.48%，多视角组代表性特征软投票(R-SV)取得96.15%的分类效果，居于第2位。从单个视角组来看，视角组5下的代表性特征分类效果最好，达到95.26%；视角组6下代表性特征分类准确率为90.53%，效果最差。多视角组代表性特征进行投票的分类效果始终优于单视角组的代表性特征。而单视角组代表性特征分类效果较差的类别desk, dresser和table在R-HV或R-SV中均得到了提升。实验结果表明：利用Concat融合的多视角组代表性特征与单视角组代表性特征相比更具有表征能力，单视角组的代表性特征则会丢弃过多的有益特征信息。由于R-HV和R-SV的分类精度较高，为了统计本文方法在各个类别的错分情况，采用表5数据构建基于R-HV和R-SV的混淆矩阵，如图7所示。

图 7 基于R-HV和R-SV的混淆矩阵

下载: 全尺寸图片幻灯片

bathtub, bed, chair, desk, dresser, monitor, sofa, table和toilet这9个类的分类准确率均在90%以上，其中bathtub, bed, chair, monitor和toilet取得了100%的分类效果。对于night_stand类，在R-HV中取得86%的分类精度，有12%的模型错分至dresser类；在R-SV中取得84%的分类准确率，有14%的模型错分至dresser类，与其它9个类相比该类分类效果最差。如图8所示，通过比较night_stand类和dresser类的实例可以发现，这两类模型的整体形状极其类似，仅在局部细节上有所差异，在分类实验中易于造成混淆，影响模型的分类效果。

图 8 错分模型实例

下载: 全尺寸图片幻灯片

基于视图的分类方法对比

本文在各个视角组下的视图数目均设置为6，6个视角组共选取36个视图。本文方法在3维模型数据集ModelNet10上与其它基于视图方法的对比结果如表6所示。由表6可知：由于多视图表征3维模型与单视图表征相比，可以捕获更多的模型视觉信息，因此基于多视图方法的模型分类效果整体上优于单视图方法；本文方法的模型分类准确率虽然居于第1位，但表征模型的视图数目与MVCLN和CNN-Voting相比分别增加24,24，视图数目的增多会降低本文方法的分类效率。

表 6 基于视图的分类方法准确率对比(%)

方法	视图数	准确率
DeepPano^[16]	1	88.66
Geometry Image^[17]	1	88.40
MVCLN^[19]	12	95.68
CNN-Voting^[20]	12	92.85
FusionNet^[21]	60	93.11
本文-R-SV	36	96.15
本文-R-HV	36	96.48

下载: 导出CSV

| 显示表格

5. 结束语

为了提高3维模型分类的准确率，本文提出一种基于香农熵代表性特征和投票机制的3维模型分类方法。该方法在模型周围均匀设置6个视角组，在每个视角组下通过投影得到3维模型的一组2维视图。采用RegNet与ECA相结合的网络提取视图深层特征，利用Softmax实现判别性特征的获取。同一视角组下的多视图间彼此共享参数。基于判别性特征给出了一种香农熵代表性特征选择方法，并采用Concat对多个视角组的代表性特征进行融合。多视角组代表性特征作为投票算法的输入完成3维模型分类。与单视图表征3维模型(DeepPano)相比，该方法通过设置多个视角组来避免单视图视觉信息不充分的问题，分类准确率提高了7.82%。与多视图表征3维模型(CNN-Voting)相比，该方法利用香农熵代表性特征来区分不同视图之间的差异性，突出有效视图特征的重要性，并采用投票算法避免有益信息的混淆和冗余，分类准确率提高了3.63%。实验结果表明本文方法在ModelNet10上具有较高的分类准确率。

图 1 3维模型投影示意图

下载: 全尺寸图片幻灯片

图 2 3维模型分类框架

下载: 全尺寸图片幻灯片

图 3 RegNet模型结构

下载: 全尺寸图片幻灯片

图 4 ECA模块结构

下载: 全尺寸图片幻灯片

图 5 基于RegNet和ECA的特征提取网络

下载: 全尺寸图片幻灯片

图 6 block块中ECA具体嵌入位置

下载: 全尺寸图片幻灯片

图 7 基于R-HV和R-SV的混淆矩阵

下载: 全尺寸图片幻灯片

图 8 错分模型实例

下载: 全尺寸图片幻灯片

表 1 不同视图数目下的分类准确率(%)

网络模型	投票算法	3V	6V	9V	12V	18V
RegNet	HV	94.05	93.83	93.98	94.82	94.27
RegNet	SV	94.05	94.60	94.27	94.71	94.60

下载: 导出CSV

表 2 不同RegNet网络的分类准确率(%)

RegNet模型	stage1	stage2	stage3	stage4	flops(B)	params(M)	HV	SV
RegNet2X	1×block	1×block	4×block	7×block	0.2	2.7	92.51	93.83
RegNet4X	1×block	2×block	7×block	12×block	0.4	5.2	93.50	94.16
RegNet6X	1×block	3×block	5×block	7×block	0.6	6.2	93.83	94.60
RegNet8X	1×block	3×block	7×block	5×block	0.8	7.3	94.16	94.71

下载: 导出CSV

表 3 ECA不同嵌入位置对RegNet分类的影响(%)

投票算法	ECA1	ECA2	ECA3	ECA4
HV	93.72	93.72	93.94	94.05
SV	94.60	94.49	95.26	94.60

下载: 导出CSV

表 4 ECA对RegNet分类的影响(%)

网络模型	投票算法	视角1	视角2	视角3	视角4	视角5	视角6
RegNet	HV	92.51	92.95	93.06	93.83	94.05	88.66
RegNet	SV	93.06	93.94	94.05	94.60	94.49	89.43
RegNet+ECA	HV	93.28	94.27	93.39	93.94	94.05	88.88
RegNet+ECA	SV	93.72	94.71	94.93	95.26	95.04	90.42

下载: 导出CSV

表 5 多视角代表性特征的对比(%)

类别	视角1	视角2	视角3	视角4	视角5	视角6	R-SV	R-HV
bathtub	92.00	98.00	98.00	100.00	96.00	88.00	100.00	100.00
bed	99.00	100.00	100.00	100.00	100.00	97.00	100.00	100.00
chair	100.00	100.00	100.00	100.00	100.00	97.00	100.00	100.00
desk	91.86	88.37	89.53	86.05	91.86	75.58	91.86	91.86
dresser	83.72	91.86	95.35	94.19	89.53	87.21	94.19	94.19
monitor	100	99.00	100.00	100.00	99.00	99.00	100.00	100.00
night_stand	89.53	82.56	79.07	82.56	88.37	72.09	83.72	86.05
sofa	99.00	98.00	98.00	99.00	98.00	96.00	99.00	99.00
table	92.00	91.00	85.00	87.00	88.00	87.00	92.00	93.00
toilet	96.00	99.00	100.00	100.00	100.00	100.00	100.00	100.00
平均准确率	94.71	94.93	94.60	94.93	95.26	90.53	96.15	96.48

下载: 导出CSV

表 6 基于视图的分类方法准确率对比(%)

方法	视图数	准确率
DeepPano^[16]	1	88.66
Geometry Image^[17]	1	88.40
MVCLN^[19]	12	95.68
CNN-Voting^[20]	12	92.85
FusionNet^[21]	60	93.11
本文-R-SV	36	96.15
本文-R-HV	36	96.48

下载: 导出CSV

参考文献(25)

[1]	KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. doi: 10.1145/3065386.
[2]	SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, USA, 2015: 1–9. doi: 10.1109/CVPR.2015.7298594.
[3]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90.
[4]	CHARLES R Q, SU Hao, MO Kaichun, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017: 77–85. doi: 10.1109/CVPR.2017.16.
[5]	QI C R, YI Li, SU Hao, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 5105–5114.
[6]	SONG Yupeng, HE Fazhi, DUAN Yansong, et al. A kernel correlation-based approach to adaptively acquire local features for learning 3D point clouds[J]. Computer-Aided Design, 2022, 146: 103196. doi: 10.1016/j.cad.2022.103196.
[7]	张溯, 杨军. 利用空间结构信息的三维点云模型分类[J]. 小型微型计算机系统, 2021, 42(4): 779–784. doi: 10.3969/j.issn.1000-1220.2021.04.018. ZHANG Su and YANG Jun. 3D model classification using spatial structure information[J]. Journal of Chinese Computer Systems, 2021, 42(4): 779–784. doi: 10.3969/j.issn.1000-1220.2021.04.018.
[8]	HASSAN R, FRAZ M M, RAJPUT A, et al. Residual learning with annularly convolutional neural networks for classification and segmentation of 3D point clouds[J]. Neurocomputing, 2023, 526: 96–108. doi: 10.1016/j.neucom.2023.01.026.
[9]	ZHOU Ruqin, LI Xixing, and JIANG Wanshou. SCANet: A spatial and channel attention based network for partial-to-partial point cloud registration[J]. Pattern Recognition Letters, 2021, 151: 120–126. doi: 10.1016/j.patrec.2021.08.002.
[10]	WU Zhirong, SONG Shuran, KHOSLA A, et al. 3D ShapeNets: A deep representation for volumetric shapes[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, USA, 2015: 1912–1920. doi: 10.1109/CVPR.2015.7298801.
[11]	XU Xu and TODOROVIC S. Beam search for learning a deep convolutional neural network of 3D shapes[C]. 2016 23rd International Conference on Pattern Recognition (ICPR), Cancun, Mexico, 2016: 3506–3511. doi: 10.1109/ICPR.2016.7900177.
[12]	KIM S, CHI H G, and RAMANI K. Object synthesis by learning part geometry with surface and volumetric representations[J]. Computer-Aided Design, 2021, 130: 102932. doi: 10.1016/j.cad.2020.102932.
[13]	MA Ziping, ZHOU Jie, MA Jinlin, et al. A novel 3D shape recognition method based on double-channel attention residual network[J]. Multimedia Tools and Applications, 2022, 81(22): 32519–32548. doi: 10.1007/s11042-022-12041-9.
[14]	CAI Weiwei, LIU Dong, NING Xin, et al. Voxel-based three-view hybrid parallel network for 3D object classification[J]. Displays, 2021, 69: 102076. doi: 10.1016/j.displa.2021.102076.
[15]	HE Yunqian, XIA Guihua, LUO Yongkang, et al. DVFENet: Dual-branch voxel feature extraction network for 3D object detection[J]. Neurocomputing, 2021, 459: 201–211. doi: 10.1016/j.neucom.2021.06.046.
[16]	SHI Baoguang, BAI Song, ZHOU Zhichao, et al. DeepPano: Deep panoramic representation for 3-D shape recognition[J]. IEEE Signal Processing Letters, 2015, 22(12): 2339–2343. doi: 10.1109/LSP.2015.2480802.
[17]	SINHA A, BAI Jing, and RAMANI K. Deep learning 3D shape surfaces using geometry images[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 223–240. doi: 10.1007/978-3-319-46466-4_14.
[18]	SU Hang, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2015: 945–953. doi: 10.1109/ICCV.2015.114.
[19]	LIANG Qi, WANG Yixin, NIE Weizhi, et al. MVCLN: Multi-view convolutional LSTM network for cross-media 3D shape recognition[J]. IEEE Access, 2020, 8: 139792–139802. doi: 10.1109/ACCESS.2020.3012692.
[20]	白静, 司庆龙, 秦飞巍. 基于卷积神经网络和投票机制的三维模型分类与检索[J]. 计算机辅助设计与图形学学报, 2019, 31(2): 303–314. doi: 10.3724/SP.J.1089.2019.17160. BAI Jing, SI Qinglong, and QIN Feiwei. 3D model classification and retrieval based on CNN and voting scheme[J]. Journal of Computer-Aided Design & Computer Graphics, 2019, 31(2): 303–314. doi: 10.3724/SP.J.1089.2019.17160.
[21]	HEGDE V and ZADEH R. FusionNet: 3D object classification using multiple data representations[EB/OL]. https://arxiv.org/abs/1607.05695, 2016.
[22]	JIN Xun and LI De. Rotation prediction based representative view locating framework for 3D object recognition[J]. Computer-Aided Design, 2022, 150: 103279. doi: 10.1016/j.cad.2022.103279.
[23]	ZHU Feng, XU Junyu, and YAO Chuanming. Local information fusion network for 3D shape classification and retrieval[J]. Image and Vision Computing, 2022, 121: 104405. doi: 10.1016/j.imavis.2022.104405.
[24]	RADOSAVOVIC I, KOSARAJU R P, GIRSHICK R, et al. Designing network design spaces[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 10425–10433. doi: 10.1109/CVPR42600.2020.01044.
[25]	WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 11531–11539. doi: 10.1109/CVPR42600.2020.01155.

施引文献

资源附件(0)

访问统计

图(8) / 表(6)

计量

文章访问数: 338
HTML全文浏览量: 215
PDF下载量: 49
被引次数: 0

1. 引言
2. 3维模型多视图表征
3. 基于多视角组的3维模型分类
3.1 基于RegNet与ECA的深层特征提取
3.2 基于香农熵的代表性特征选取
3.3 投票算法
4. 实验结果与分析
基于视图的分类方法对比
5. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于香农熵代表性特征和投票机制的三维模型分类

doi: 10.11999/JEIT230405

作者简介:
高雪瑶：女，教授，研究方向为图形图像处理、自然语言处理、机器学习

闫少康：男，硕士生，研究方向为图形图像处理

张春祥：男，教授，研究方向为自然语言处理、图形图像处理、机器学习

通讯作者:
张春祥　z6c6x666@163.com

计量

3D Model Classification Based on Shannon Entropy Representative Feature and Voting Mechanism

1. 引言

2. 3维模型多视图表征

3. 基于多视角组的3维模型分类

3.1 基于RegNet与ECA的深层特征提取

3.2 基于香农熵的代表性特征选取

3.3 投票算法

4. 实验结果与分析

基于视图的分类方法对比

5. 结束语

计量

目录

1. 引言

2. 3维模型多视图表征

3. 基于多视角组的3维模型分类

3.1 基于RegNet与ECA的深层特征提取

3.2 基于香农熵的代表性特征选取

3.3 投票算法

4. 实验结果与分析

基于视图的分类方法对比

5. 结束语

留言板

基于香农熵代表性特征和投票机制的三维模型分类

doi: 10.11999/JEIT230405

作者简介: 高雪瑶：女，教授，研究方向为图形图像处理、自然语言处理、机器学习 闫少康：男，硕士生，研究方向为图形图像处理 张春祥：男，教授，研究方向为自然语言处理、图形图像处理、机器学习

通讯作者: 张春祥 z6c6x666@163.com

计量

出版历程

3D Model Classification Based on Shannon Entropy Representative Feature and Voting Mechanism

1. 引言

2. 3维模型多视图表征

3. 基于多视角组的3维模型分类

3.1 基于RegNet与ECA的深层特征提取

3.2 基于香农熵的代表性特征选取

3.3 投票算法

4. 实验结果与分析

基于视图的分类方法对比

5. 结束语

计量

出版历程

目录

1. 引言

2. 3维模型多视图表征

3. 基于多视角组的3维模型分类

3.1 基于RegNet与ECA的深层特征提取

3.2 基于香农熵的代表性特征选取

3.3 投票算法

4. 实验结果与分析

基于视图的分类方法对比

5. 结束语

作者简介:
高雪瑶：女，教授，研究方向为图形图像处理、自然语言处理、机器学习

闫少康：男，硕士生，研究方向为图形图像处理

张春祥：男，教授，研究方向为自然语言处理、图形图像处理、机器学习

通讯作者:
张春祥　z6c6x666@163.com