基于感兴趣区域的高性能视频编码帧内预测优化算法

宋人杰; 张元东

doi:10.11999/JEIT190330

基于感兴趣区域的高性能视频编码帧内预测优化算法

doi: 10.11999/JEIT190330

宋人杰,
张元东^,

东北电力大学计算机学院吉林 132012

详细信息

作者简介:
宋人杰：女，1966年生，教授，研究方向为数字图像处理与可视化应用、计算机视觉与电力应用

张元东：男，1993年生，硕士生，研究方向为感兴趣区域HEVC算法

通讯作者:
张元东　1406632033@qq.com

中图分类号: TN919.81
计量
- 文章访问数: 2086
- HTML全文浏览量: 933
- PDF下载量: 58
- 被引次数: 4
出版历程
- 收稿日期: 2019-05-13
- 修回日期: 2020-05-24
- 网络出版日期: 2020-07-01
- 刊出日期: 2020-11-16

High Efficiency Video Coding Intra Prediction Optimization Algorithm Based on Region of Interest

Renjie SONG,
Yuandong ZHANG^,

School of Computer, Northeast Electric Power University, Jilin 132012, China

摘要

摘要: 针对高性能视频编码(HEVC)帧内预测编码算法复杂度较高的问题，该文提出一种基于感兴趣区域的高性能视频编码帧内预测优化算法。首先，根据图像显著性划分当前帧的感兴趣区域(ROI)和非感兴趣区域(NROI)；然后，对ROI基于空域相关性采用提出的快速编码单元(CU)划分算法决定当前编码单元的最终划分深度，跳过不必要的CU划分过程；最后，基于ROI采用提出的预测单元(PU)模式快速选择算法计算当前PU的能量和方向，根据能量和方向确定当前PU的预测模式，减少率失真代价的相关计算，达到降低编码复杂度和节省编码时间的目的。实验结果表明，在峰值信噪比(PSNR)损失仅为0.0390 dB的情况下，所提算法可以平均降低47.37%的编码时间。
- 高性能视频编码 /
- 感兴趣区域 /
- 编码单元划分 /
- 预测单元模式选择
Abstract: For the high complexity of High Efficiency Video Coding (HEVC) intra prediction coding algorithm, an HEVC intra prediction optimization algorithm based on Region Of Interest (ROI) is proposed. Firstly, the algorithm divides the Region Of Interest and Non-Region Of Interest (NROI) of the current frame according to image saliency; Then, the final grading depth of the current coding unit is determined by the proposed fast Coding Unit (CU) partitioning algorithm based on spatial correlation in the ROI, and the unnecessary CU partitioning process is skipped. Finally, the proposed Prediction Unit (PU) mode fast selection algorithm is used to calculate the energy and direction of the current PU based on the ROI, and the current PU prediction mode is determined according to the energy and direction, and the correlation calculation of the rate distortion cost is reduced, Achieving the purposes of reducing coding complexity and saving coding time. The experimental results show that the proposed algorithm can reduce the coding time by 47.37% on average when the Peak Signal-to-Noise Ratio (PSNR) loss is only 0.0390 dB.
- High Efficiency Video Coding(HEVC) /
- Region Of Interest(ROI) /
- Coding Unit(CU) division /
- Prediction Unit(PU) mode selection

HTML全文

1. 引言

随着人们对视频清晰度要求的提高，传统视频编码标准已经无法满足高清晰度视频编解码要求。为适应技术发展的要求和高分辨率视频发展的趋势，2010年视频编码联合工作组JCT-VC(Joint Collaborative Team on Video Coding)在H.264/AVC的基础上制定了新一代视频编码标准，即高性能视频编码(High Efficiency Video Coding, HEVC)标准，并于2013年正式成为国际标准^[1]。HEVC编码标准在保证视频重建质量的前提下，相较于H.264/AVC编码标准在编码码率上可以减少50%以上。但HEVC在降低码率的同时却增加了编码的复杂度，在保证视频编码质量的基础上如何降低编码复杂度并节省编码时间成为当前视频编码领域研究的热点问题。

目前，针对HEVC编码算法的研究主要集中在帧内预测阶段，具体表现在编码单元(Coding Unit, CU)划分的提前终止和预测单元(Prediction Unit, PU)的快速选择，因此有许多学者针对此进行了大量的研究。在编码单元划分方面，文献[2]根据时域上PU模式的相关性跳过一些不必要的CU划分过程；文献[3]通过早期Skip模式来提前终止下一深度CU的划分；文献[4]结合率失真代价和早期分割条件作为提前终止CU划分的条件来决定CU最终划分的深度。上面的算法减少了一些不必要CU深度选择过程，但编码效率提升不明显。在预测模式选择方面，文献[5]利用全零残差块和CU块的面积特征来提前终止PU模式的遍历；文献[6]利用CU深度和PU深度的相关性来减少PU模式的遍历次数；文献[7]根据RD代价值滤掉一些预测模式来缩短预测模式的选择时间。上面的算法虽减少了PU模式选择的遍历时间，但预测模式选择编码复杂度依然较高。以上算法都是单方面从CU深度划分或PU预测模式选择来降低帧内预测编码复杂度，其编码复杂度降低程度有限。本文基于感兴趣区域从CU深度划分和PU模式选择这两个方面来降低帧内预测编码复杂度，以达到降低编码复杂度和节省编码时间的目的。

2. HEVC帧内预测算法

2.1 编码单元CU

HEVC采用灵活的四叉树划分结构对当前CU按递归的方式进行划分，CU的划分深度为0～3共4个深度级，其划分尺寸也对应从 $64 \times 64$ 到 $8 \times 8$ 进行变化。在CU递归划分的过程中，一个 $64 \times 64$ 大小的CU需要进行85次迭代划分和率失真计算来获得当前CU的最佳划分深度，因此CU递归划分过程将增加帧内预测编码复杂度。

2.2 预测单元PU

相对于H.264/AVC使用9种帧内预测模式，HEVC在H.264/AVC的基础上增加到35种预测模式,包括33种方向性预测模式和2种非方向性预测模式。在PU预测模式选择过程中，最佳预测模式的选择需要进行11953次率失真代价计算，可见PU预测模式选择过程将增加帧内预测编码复杂度。

3. 基于相位一致性算法的ROI检测

相比于传统提取ROI的算法，如背景建模法、光流法等需要提取ROI中所有点，其算法复杂度会明显升高。本文采用边缘检测的思想定位ROI和NROI的边界来提取ROI。针对图像边缘，很多学者提出了改进的检测算法，Wang等人^[8]对Sobel算子改进来进行边缘检测，该算法可提取图像的边缘轮廓，但对于边缘的定位不够精确；Gong等人^[9]使用改进的Canny算子进行边缘检测，可提取图像的边缘，但存在多余的图像边缘，影响检测结果。根据人类视觉系统(Human Visual System, HVS)特性^[10]，人眼感知图像信息主要依靠图像信号在频域的相位信息而非时域的幅度信息，因此本文基于频域采用相位一致性算法来检测视频帧的边缘进而提取ROI。与传统基于时域的边缘检测算法相比，基于频域的边缘检测算法复杂度更低，且可以很好克服光照突变对定位图像边缘产生的影响。相位一致性公式如式(1)

${\rm{PC}} (x) = \mathop {\max }\limits_{\overline \varphi } \frac{{\displaystyle\sum\limits_{n = 1}^N {{A_n}\cos ({\varphi _n}(x) - \overline \varphi )} }}{{\displaystyle\sum\limits_{n = 1}^N {{A_n}} }}$

(1)

式中， ${\varphi _n}$ 表示局部相位， $\overline \varphi$ 表示相位的加权平均值，其范围在 $0$ ～ $2\pi$ 之间， ${A_n}$ 表示局部幅值。相位一致性算法按照相位一致性的顺序寻找特征点来标识ROI，但传统的相位一致性算法检测的边缘会存在断点现象，影响检测精度。为解决图像边缘检测不完整问题，本文引用具有各向异性的海森矩阵(Hesse matrix)对图像边缘进行增强来消除图像边缘的断点现象。并根据线性尺度空间理论(LOG)替代泰勒展开对图像中每个像素点求2阶导数来减低算法复杂度。

通过Hesse矩阵对提取的图像边缘进行增强后，将消除图像边缘处的断点现象，但在图像中纹理复杂度相似的区域会出现多条边缘线，将对后续针对ROI进行编解码产生影响，因此这里根据图像区域显著性性质，采用改进的均值绝地偏差(MAD)定义纹理复杂度作为消除无用边缘的判断依据，改进的MAD如式(2)所示

${\rm{MA}}{{\rm{D}}_{{\rm{new}}}} = \sum\limits_{j = 0}^{N - 1} {\sum\limits_{i = 0}^{M - 1} {|q(i,j) - {q_{{\rm{avg}}}}|} }$

(2)

式中， $M$ , $N$ 分别代表当前封闭区域的宽和高，由于区域可能不规则，这里取端点之间连线的近似值作为当前两端点的距离； $q(i,j)$ 表示当前像素点值， ${q_{{\rm{avg}}}}$ 表示当前封闭区域内所有像素点的均值，具体判断依据如式(3)所示

${\rm{Re}} = \left\{ \begin{aligned} & {{\rm{|MA}}{{\rm{D}}_{{\rm{cur}}}}{\rm{ - MA}}{{\rm{D}}_{{\rm{ano}}}}{\rm{| < }}e},\quad{{\rm{Del}}} \\ & {{\rm{|MA}}{{\rm{D}}_{{\rm{cur}}}}{\rm{ - MA}}{{\rm{D}}_{{\rm{ano}}}}{\rm{| > }}e},\quad {{\rm{Rev}}} \end{aligned} \right.$

(3)

式中， ${\rm{MA}}{{\rm{D}}_{{\rm{cur}}}}$ 表示当前区域的纹理复杂度， ${\rm{MA}}{{\rm{D}}_{{\rm{ano}}}}$ 表示当前区域相邻区域的纹理复杂度， $e$ 表示阈值， $e$ 由当前比较的两个区域的 ${\rm{MAD}}$ 均值得到， ${\rm{Del}}$ 表示删除该边缘线， ${\rm{Rev}}$ 表示保留该边缘线。

通过上述步骤可最终获取到ROI的边缘，实现对ROI的准确检测和定位。为验证上述算法的有效性，选取JCT-VC提供的BasketballPass序列的第48帧、Tennis序列的第121帧和MSRA数据集提供的两张图片进行测试，图1为基于相位一致性的边缘检测算法与文献[8]算法和文献[9]算法的实验结果对比图。

图 1 本文算法与文献[8]、文献[9]算法的检测结果

下载: 全尺寸图片幻灯片

从图1中可以看出，基于相位一致性的边缘检测算法可较好地对边缘进行检测和定位，利于对ROI的提取。相较于本文算法，文献[8]和文献[9]的检测结果不够准确且存在多余的边缘线，影响边缘检测的精度，不利于对ROI的提取。

4. 快速CU划分算法

针对CU划分过程中复杂度较高的问题，许多学者提出了改进的CU划分算法，Zhang等人^[11]提出改进的CU划分算法来降低帧内编码复杂度，但编码复杂度的降低程度不明显。本文基于空域采用降维的思想获得当前CU的表征值，并利用表征值对当前CU进行初始深度划分，然后基于NROI深度采用设计的判断准则确定当前CU的最终划分深度。

本文算法首先对已划分好的NROI进行编码并记录当前帧NROI的最大划分深度 ${\rm{NROI}}{_{{\rm{MaxDep}}}}$ ，同时需对ROI中上、左方向边缘位置处的CU按HEVC中CU划分算法进行正常编码。由于当前CU和邻近CU具有相似的纹理特征，因此基于空域相关性通过当前CU的左、左上和上3个方向相邻CU的深度来预测当前CU的深度。首先将CU看成一个矩阵，并采用奇异值分解(SVD)的原理提取CU的表征值，SVD可通过降维的思想获取图像信息的特征值，其表达式如式(4)所示

${{A}} = {{U}}{{\varSigma}} {{{V}}^{\rm{T}}}$

(4)

式中， ${{A}}$ 表示原矩阵，这里代表CU中所有像素构成的矩阵； ${{\varSigma}}$ 是一个对角矩阵，其对角线上的元素称为奇异值，这里代表图像的表征值； ${{U}}$ 和 ${{V}}$ 表示左右奇异向量。以奇异值作为图像信息的表征值，其对应的特征向量表示包含图像信息的容量，即表征值越大，特征向量中含有的信息越多，通常情况下 ${{\varSigma}}$ 矩阵对角线上所包含的奇异值按从大到小的顺序排列，且其前10%甚至1%的奇异值就占全部奇异值总和的99%以上，因此本文只提取 ${{\varSigma}}$ 矩阵对角线的第1个元素作为当前CU的表征值。算法具体步骤如下：

(1) 对当前CU相邻的左、左上和上3个方向的CU按照式(4)进行奇异值分解，并都提取对角矩阵中第1个元素作为当前CU的表征值，记此时3个方向CU的表征值依次为 ${\alpha _1}$ , ${\alpha _2}$ 和 ${\alpha _3}$ 。

(2)已知相邻3个方向CU的深度，依次记为 ${d_1}$ , ${d_2}$ 和 ${d_3}$ ，根据式(5)确定当前CU的初始深度 ${\rm{De}}{{\rm{p}}_{{\rm{cur}}}}$

${\rm{De}}{{\rm{p}}_{{\rm{cur}}}} = \sum\limits_{i = 1}^3 {{\beta _i} \cdot {d_i}}$

(5)

式中， ${\beta _i}$ 代表当前CU相邻CU的表征值所占权重，其计算公式如式(6)

${\beta _i} = \frac{{{\alpha _i}}}{{{\alpha _{{\rm{Total}}}}}},i = 1,2,3$

(6)

式中， ${\alpha _{{\rm{Total}}}}$ 表示 ${\alpha _1}$ , ${\alpha _2}$ 和 ${\alpha _3}$ 的加和，其中 $\displaystyle\sum\nolimits_{i = 1}^3 {{\beta _i}} = 1$ 。

(3) 对当前CU初始深度按式(7)进行判断并通过式(8)确定最终划分深度。

$\left. \begin{aligned} & {\rm(a)}\quad {0 \le {\rm{De}}{{\rm{p}}_{{\rm{cur}}}} < 1} \\ & {\rm(b)}\quad {1 \le {\rm{De}}{{\rm{p}}_{{\rm{cur}}}} < 2} \\ & {\rm(c)}\quad {2 \le {\rm{De}}{{\rm{p}}_{{\rm{cur}}}} \le 3} \end{aligned} \right\}$

(7)

$\left. \begin{aligned} & {\rm{NRO}}{{\rm{I}}_{{\rm{MaxDep}}}} = 0\left\{ {\begin{array}{*{20}{c}} {{\rm (a)}}&{{\rm{De}}{{\rm{p}}_{{\rm{cur}}}} = 1}\ \ \\ {{\rm (b)}}&{{\rm{Dep}} = [1,2]} \\ {{\rm (c)}}&{{\rm{Dep}} = [2,3]} \end{array}} \right. \\ & {\rm{NRO}}{{\rm{I}}_{{\rm{MaxDep}}}} = 1\left\{ {\begin{array}{*{20}{c}} {{\rm (a)}}&\varnothing \qquad\qquad\qquad\ \ \\ {{\rm (b)}}&{{\rm{De}}{{\rm{p}}_{{\rm{cur}}}} = 2}\ \ \qquad\qquad \\ {{\rm (c)}}&{{\rm{Dep}} = [2,3]} \qquad\qquad \end{array}} \right. \\ & {\rm{NRO}}{{\rm{I}}_{{\rm{MaxDep}}}} = 2\left\{ {\begin{array}{*{20}{c}} {{\rm (a)}}&\varnothing\qquad\qquad\qquad \\ {{\rm (b)}}&\varnothing\qquad\qquad\qquad \\ {{\rm (c)}}&{{\rm{De}}{{\rm{p}}_{{\rm{cur}}}} = 3} \end{array}} \right. \\ & {\rm{NRO}}{{\rm{I}}_{{\rm{MaxDep}}}} = 3\left\{ {\begin{array}{*{20}{c}} {{\rm (a)}}&\varnothing \\ {{\rm (b)}}&\varnothing \\ {{\rm (c)}}&\varnothing \end{array}} \right. \end{aligned} \right\}$

(8)

式中， $\varnothing$ 表示不存在的划分深度结果； ${\rm{Dep}} = [i,i + 1]$ 表示当前CU的最终深度位于深度 $i$ 和深度 $i + 1$ 之间，此时计算两个深度率失真值最小的深度作为当前CU的最终划分深度。通过上述步骤即可完成基于ROI的CU深度快速划分。

5. PU模式快速选择算法

针对PU预测模式选择过程复杂度较高的问题，许多学者提出了改进的PU模式选择算法，Pan等人^[12]采用梯度幅值法来降低率失真计算复杂度，但降低程度有限。有研究表明，图像在频域中的频率表征图像中灰度变化的剧烈程度，在时域即为灰度在平面空间的梯度，梯度可反映图像中灰度变化最快的地方，即此时图像的方向走向。同时在图像处理中从时域到频域的应用可降低图像处理过程的计算量，并利于计算。因此本文在ROI中基于频域采用2维离散傅里叶变换(Two-dimensional discrete Fourier transform, TF)计算当前PU 4个方向的能量和方向，并取最大能量值所对应的方向作为当前PU的最佳预测模式。2维离散傅里叶变换公式如式(9)

$F(u,v) = \sum\limits_{x = 0}^{N - 1} {\sum\limits_{y = 0}^{N - 1} {f(x,y){{\rm{e}}^{ - {\rm{j}}2\pi (\frac{{ux}}{N} + \frac{{vy}}{N})}}} }$

(9)

式中， $f(x,y)$ 为 $N \times N$ 大小的矩阵，在这里代表当前PU中所有像素点构成 $N \times N$ 大小的矩阵， $u$ , $v$ 用于确定正余弦的频率， $F(u,v)$ 表示 $f(x,y)$ 的2维离散傅里叶变换。PU模式快速选择算法的步骤如下：

(1) 根据式(9)计算ROI中当前PU的 ${0^ {\circ} }$ , ${45^ {\circ} }$ , ${90^ {\circ} }$ 和 ${135^ {\circ} }$ 4个方向的方向和能量，这里令 $F(u,v)$ 的实部为 $R(u,v)$ ，虚部为 $I(u,v)$ ，以2维离散傅里叶变换中的相位角 $\varphi (u,v)$ 和幅度 $F(u,v)$ 表示当前PU的方向和对应的能量，表达式如式(10)和式(11)

$\varphi (u,v) = \arctan \frac{{I(u,v)}}{{R(u,v)}}$

(10)

$|F(u,v)| = {[R{(u,v)^2} + I{(u,v)^2}]^{1/2}}$

(11)

为减少能量的计算量，根据seam carving算法中能量的定义，将式(11)改进为式(12)

$e = |R(u,v)| + |I(u,v)|$

(12)

(2) 比较4个方向的能量值 $e$ ，选择最大值能量对应的方向作为当前PU的初始预测方向。

(3) 由于Planar模式和DC模式通常作为纹理平滑区域的预测模式，基于ROI忽略对这两种模式的比较。将当前PU的预测方向与其他33种预测模式进行对比，并按照如下规则决定当前PU的最佳预测模式：

(a)若当前PU方向和预测模式中的某个方向重合时，则对应的预测模式为当前PU的最佳预测模式。

(b)若当前PU的方向落在2个预测模式之间，则当前PU的方向为这2个预测模式的几率最大，则将这2个预测模式都加入到最佳预测模式(MPM)中。

(c)若当前PU的方向落在某个预测模式或某2个预测模式之间的反方向时，其预测方向则为其反方向按上面步骤(a)或(b)所对应的预测模式。

通过上述步骤即可完成基于ROI的PU预测模式快速选择。

6. 实验结果分析

为验证本文提出算法的有效性，在硬件配置为：Inter(R)Core(TM) i5-3470，主频为3.20 GHz，内存为4 GB；软件配置为：Microsoft Visual Studio 2010的实验平台进行仿真。在HEVC的测试模型HM13.0上进行测试来验证编码性能，测试时使用JCT-VC提供的5组不同级别的视频序列，编码帧数为100帧，编码配置采用全I帧(All Intra Main, AI-Main)配置模式，量化参数QP分别设置为22, 27, 32和37。为评估提出算法对不同类别测试序列的编码性能，使用比特率增加的百分比BDBR(Bjontegaard Delta Bit Rate)和亮度峰值信噪比的减少量BDPSNR(Bjontegaard Delta Peak Signal-to-Noise Rate)作为衡量提出算法编码性能优劣的指标，同时采用编码节省时间 $T$ 来衡量提出算法的编码效率，其中 $T$ 表达式如式(13)

$T = \frac{{{\rm{Tim}}{{\rm{e}}_{{\rm{Proposed}}}}{\rm{ - Tim}}{{\rm{e}}_{{\rm{HM13}}{\rm{.0}}}}}}{{{\rm{Tim}}{{\rm{e}}_{{\rm{HM13}}{\rm{.0}}}}}}$

(13)

式中， ${\rm{Tim}}{{\rm{e}}_{\Pr {\rm{oposed}}}}$ 表示本文算法的编码时间， ${\rm{Tim}}{{\rm{e}}_{{\rm{HM}}13.0}}$ 表示HM13.0中原始算法的编码时间。为验证上述算法的正确性与合理性，选取JCT-VC提供的5个标准测试序列，基于4组QP参数统计5个测试序列在提出的快速CU划分算法下的正确率和在PU模式快速选择算法下的命中率，表1为本文提出的CU划分算法的正确率结果和PU模式选择算法的命中率结果。

表 1 快速CU划分算法正确率和PU预测模式快速选择算法命中率(%)

序列	QP=22	QP=27	QP=32	QP=37	平均
Traffic	93.7/91.4	95.6/92.3	96.1/95.6	96.8/96.1	95.6/93.9
BQTerrace	93.1/89.7	94.8/91.4	95.8/93.5	96.4/94.7	95.0/92.3
Partyscene	92.4/90.2	94.7/93.1	95.6/93.9	96.2/94.8	94.7/93.0
Blowing Bubbles	91.1/88.6	93.4/90.3	94.7/92.5	95.8/93.7	93.8/91.3
Johnny	92.3/89.8	94.6/92.7	95.3/94.5	96.1/95.3	94.6/93.1
平均	92.5/89.9	94.6/91.9	95.5/94.0	96.3/94.9	94.7/92.7

下载: 导出CSV

| 显示表格

分析表1中的数据可知，快速CU划分算法总体平均正确率达到94.7%，足以说明本文提出的快速CU划分算法具有较好的正确性。同时，PU预测模式快速选择算法总体平均命中率达到92.7%，说明本文提出的PU模式快速选择算法能够有效的选择最佳预测模式。

为验证本文算法的编码性能，在上述3个评估指标的基础上与文献[3]、文献[6]和文献[13]中的算法进行对比。通过对表2中的数据分析，可以看出本文算法与文献[3]中的算法比对中BDBR增量减少0.3885%, BDPSNR的损失减少0.0191 dB，编码所用的时间 $T$ 减少5.24%；本文算法与文献[6]中的算法比对中BDBR增量减少0.3302%, BDPSNR的损失减少0.0184 dB，编码所用时间 $T$ 减少3.43%。从实验数据来看，本文提出的帧内预测优化算法在编码性能损失较低的情况下编码效率有较大的提升。

表 2 本文算法与文献[3]算法及文献[6]算法实验结果对比

分辨率	序列	BDBR(%)	BDPSNR(dB)	$T$ (%)
$2560 \times 1600$	Traffic	0.7054/0.6874/0.6013	–0.0406/–0.0396/–0.0327	42.19/43.62/46.89
$2560 \times 1600$	PeopleOnStreet	1.2017/1.1047/0.7161	–0.0593/–0.0617/–0.0410	43.94/45.05/50.14
$1920 \times 1080$	Kimono	0.6725/0.6435/0.6314	–0.0351/–0.0309/–0.0293	42.76/43.93/47.93
	Basketball Drive	1.3316/1.2704/1.0341	–0.0296/–0.0311/–0.0274	43.35/44.86/48.19
	Cactus	1.2073/1.3160/0.9758	–0.0314/–0.0348/–0.0317	41.87/45.16/48.34
$832 \times 480$	BQMall	1.1986/1.1476/0.7692	–0.0724/–0.0769/–0.0405	40.01/42.93/45.54
	Basketball Drill	1.3843/1.2543/0.6963	–0.0716/–0.0683/–0.0317	39.16/43.47/46.74
	RaceHorsesC	1.2196/1.1702/0.7163	–0.0631/–0.0574/–0.0385	40.54/43.24/45.83
$416 \times 240$	Keiba	1.4055/1.1394/0.5631	–0.0965/–0.0846/–0.0417	41.96/43.56/46.14
	BQSquare	1.3423/1.2761/0.6176	–0.0913/–0.0877/–0.0475	41.64/44.87/46.86
	BasketballPass	1.4063/1.4322/0.7568	–0.0714/–0.0793/–0.0513	43.45/44.14/47.43
$1280 \times 720$	FourPeople	0.9704/0.9417/0.6975	–0.0542/–0.0523/–0.0372	42.64/43.17/47.39
	Vidy01	0.6725/0.6524/0.7351	–0.0403/–0.0443/–0.0462	41.47/41.83/46.87
	Vidyo3	1.0457/0.9125/0.8143	–0.0562/–0.0549/–0.0496	42.09/42.54/46.13
	平均	1.1260/1.0677/0.7375	–0.0581/–0.0574/–0.0390	41.93/43.74/47.17

下载: 导出CSV

| 显示表格

表3为本文算法与文献[13]算法在A-E共18个测试序列下的实验结果，从表中可看出本文算法相较于文献[13]中的算法，BDBR增量减少0.4361%，BDPSNR的损失减少0.0399 dB，编码所用时间 $T$ 减少3.46%，本文算法平均编码时间减少了47.37%，这是由于本文算法在划分层次深的ROI从CU划分和PU预测模式选择两方面进行改进来降低编码复杂度，所以本文算法在保持较好的率失真性能下编码效率有明显的改善。

表 3 本文算法与文献[13]算法实验结果对比

Class	文献[13]算法			本文算法
Class	BDBR(%)	BDPSNR(dB)	$T$ (%)	BDBR(%)	BDPSNR(dB)	$T$ (%)
ClassA	0.9236	–0.0742	44.19	0.6697	–0.0392	48.62
ClassB	1.1747	–0.0557	45.77	0.8926	–0.0327	48.74
ClassC	1.3532	–0.0823	41.89	0.7369	–0.0354	45.86
ClassD	1.3479	–0.1022	43.94	0.6461	–0.0473	46.69
ClassE	1.0754	–0.0837	43.76	0.7493	–0.0441	46.93
平均	1.1750	–0.0796	43.91	0.7389	–0.0397	47.37

下载: 导出CSV

| 显示表格

为更直观的表示编码性能，图2给出了本文算法和HM13.0标准算法在视频序列FourPeople下的率失真(Rate-Distortion, RD)曲线比较结果，从图中可看出本文算法的RD曲线与HM13.0算法的RD曲线几乎重合，表明提出算法的编码性能与HM13.0算法编码性能相比没有明显下降。

图 2 本文算法和HM13.0算法的RD性能比较

下载: 全尺寸图片幻灯片

7. 结束语

本文提出一种基于ROI的HEVC帧内预测优化算法。首先，该算法根据图像的显著性采用相位一致性算法并结合纹理复杂度性质划分当前编码帧的ROI和NROI边缘，最终提取ROI；然后，对ROI基于空域相关性采用SVD并结合NROI中CU最大划分深度通过提出的判决准则决定当前CU的最终划分深度；最后，采用2维离散傅里叶变换计算当前PU的4个方向和能量，并通过判断准则决定当前PU的预测方向。通过上述步骤来降低ROI中帧内预测过程编码复杂度，从而节省编码时间来提升编码效率。实验结果表明，在BDPSNR损失仅为0.0390 dB的情况下，本文算法可以平均降低47.37%的编码时间。

图 1 本文算法与文献[8]、文献[9]算法的检测结果

下载: 全尺寸图片幻灯片

图 2 本文算法和HM13.0算法的RD性能比较

下载: 全尺寸图片幻灯片

表 1 快速CU划分算法正确率和PU预测模式快速选择算法命中率(%)

序列	QP=22	QP=27	QP=32	QP=37	平均
Traffic	93.7/91.4	95.6/92.3	96.1/95.6	96.8/96.1	95.6/93.9
BQTerrace	93.1/89.7	94.8/91.4	95.8/93.5	96.4/94.7	95.0/92.3
Partyscene	92.4/90.2	94.7/93.1	95.6/93.9	96.2/94.8	94.7/93.0
Blowing Bubbles	91.1/88.6	93.4/90.3	94.7/92.5	95.8/93.7	93.8/91.3
Johnny	92.3/89.8	94.6/92.7	95.3/94.5	96.1/95.3	94.6/93.1
平均	92.5/89.9	94.6/91.9	95.5/94.0	96.3/94.9	94.7/92.7

下载: 导出CSV

表 2 本文算法与文献[3]算法及文献[6]算法实验结果对比

分辨率	序列	BDBR(%)	BDPSNR(dB)	$T$ (%)
$2560 \times 1600$	Traffic	0.7054/0.6874/0.6013	–0.0406/–0.0396/–0.0327	42.19/43.62/46.89
$2560 \times 1600$	PeopleOnStreet	1.2017/1.1047/0.7161	–0.0593/–0.0617/–0.0410	43.94/45.05/50.14
$1920 \times 1080$	Kimono	0.6725/0.6435/0.6314	–0.0351/–0.0309/–0.0293	42.76/43.93/47.93
	Basketball Drive	1.3316/1.2704/1.0341	–0.0296/–0.0311/–0.0274	43.35/44.86/48.19
	Cactus	1.2073/1.3160/0.9758	–0.0314/–0.0348/–0.0317	41.87/45.16/48.34
$832 \times 480$	BQMall	1.1986/1.1476/0.7692	–0.0724/–0.0769/–0.0405	40.01/42.93/45.54
	Basketball Drill	1.3843/1.2543/0.6963	–0.0716/–0.0683/–0.0317	39.16/43.47/46.74
	RaceHorsesC	1.2196/1.1702/0.7163	–0.0631/–0.0574/–0.0385	40.54/43.24/45.83
$416 \times 240$	Keiba	1.4055/1.1394/0.5631	–0.0965/–0.0846/–0.0417	41.96/43.56/46.14
	BQSquare	1.3423/1.2761/0.6176	–0.0913/–0.0877/–0.0475	41.64/44.87/46.86
	BasketballPass	1.4063/1.4322/0.7568	–0.0714/–0.0793/–0.0513	43.45/44.14/47.43
$1280 \times 720$	FourPeople	0.9704/0.9417/0.6975	–0.0542/–0.0523/–0.0372	42.64/43.17/47.39
	Vidy01	0.6725/0.6524/0.7351	–0.0403/–0.0443/–0.0462	41.47/41.83/46.87
	Vidyo3	1.0457/0.9125/0.8143	–0.0562/–0.0549/–0.0496	42.09/42.54/46.13
	平均	1.1260/1.0677/0.7375	–0.0581/–0.0574/–0.0390	41.93/43.74/47.17

下载: 导出CSV

表 3 本文算法与文献[13]算法实验结果对比

Class	文献[13]算法			本文算法
Class	BDBR(%)	BDPSNR(dB)	$T$ (%)	BDBR(%)	BDPSNR(dB)	$T$ (%)
ClassA	0.9236	–0.0742	44.19	0.6697	–0.0392	48.62
ClassB	1.1747	–0.0557	45.77	0.8926	–0.0327	48.74
ClassC	1.3532	–0.0823	41.89	0.7369	–0.0354	45.86
ClassD	1.3479	–0.1022	43.94	0.6461	–0.0473	46.69
ClassE	1.0754	–0.0837	43.76	0.7493	–0.0441	46.93
平均	1.1750	–0.0796	43.91	0.7389	–0.0397	47.37

下载: 导出CSV

参考文献(13)

王莉, 曹一凡, 杜高明, 等. 一种低延迟的3维高效视频编码中深度建模模式编码器[J]. 电子与信息学报, 2019, 41(7): 1625–1632. doi: 10.11999/JEIT180798

WANG Li, CAO Yifan, DU Gaoming, et al. A Low-latency depth modelling mode-1 encoder in 3d-high efficiency video coding standard[J]. Journal of Electronics &Information Technology, 2019, 41(7): 1625–1632. doi: 10.11999/JEIT180798

TAI Kuanghan, HSIEH M Y, CHEN Meijuan, et al. A fast HEVC encoding method using depth information of collocated CUs and RD Cost characteristics of PU modes[J]. IEEE Transactions on Broadcasting, 2017, 63(4): 680–692. doi: 10.1109/TBC.2017.2722239

LI Yue, YANG Gaobo, ZHU Yapei, et al. Unimodal stopping model -based early SKIP mode decision for high -efficiency video coding[J]. IEEE Transactions on Multimedia, 2017, 19(7): 1431–1441. doi: 10.1109/TMM.2017.2669863

TAI Kuanghan, CHEN Meijuan, LIN Jieru, et al. Acceleration for HEVC encoder by bimodal segmentation of Rate-Distortion cost and accurate determination of early termination and early split[J]. IEEE Access, 2019, 7: 45259–45273. doi: 10.1109/ACCESS.2019.2900517

HUANG Chao, PENG Zongju, CHEN Fen, et al. Efficient CU and PU decision based on neural network and gray level co-occurrence matrix for intra prediction of screen content coding[J]. IEEE Access, 2018, 6: 46643–46655. doi: 10.1109/ACCESS.2018.2866081

CHEN Meijuan, WU Yude, YEH C H, et al. Efficient CU and PU decision based on motion information for interprediction of HEVC[J]. IEEE Transactions on Industrial Informatics, 2018, 14(11): 4735–4745. doi: 10.1109/TII.2018.2801852

LIU Xingang, LIU Yinbo, WANG Peicheng, et al. An adaptive mode decision algorithm based on video texture characteristics for HEVC intra prediction[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(8): 1737–1748. doi: 10.1109/TCSVT.2016.2556278

WANG Xinzhi, FANG Yifan, LI Changdi, et al. Static gesture segmentation technique based on improved Sobel operator[J]. The Journal of Engineering, 2019, 2019(22): 8339–8342. doi: 10.1049/joe.2019.1075

GONG Shenjian, LI Guangqiang, ZHANG Yongju, et al. Application of static gesture segmentation based on an improved canny operator[J]. The Journal of Engineering, 2019, 2019(15): 543–546. doi: 10.1049/joe.2018.9377

余映, 吴青龙, 邵凯旋, 等. 超复数域小波变换的显著性检测[J]. 电子与信息学报, 2019, 41(9): 2231–2238. doi: 10.11999/JEIT180738

YU Ying, WU Qinglong, SHAO Kaixuan, et al. Saliency detection of wavelet transform in hypercomplexdomain[J]. Journal of Electronics &Information Technology, 2019, 41(9): 2231–2238. doi: 10.11999/JEIT180738

ZHANG Tao, SUN Mingting, ZHAO Debin, et al. Fast intra-mode and CU size decision for HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(8): 1714–1726. doi: 10.1109/TCSVT.2016.2556518

PAN Zhaoqing, LEI Jianjun, ZHANG Yun, et al. Fast motion estimation based on content property for low-complexity H.265/HEVC encoder[J]. IEEE Transactions on Broadcasting, 2016, 62(3): 675–684. doi: 10.1109/TBC.2016.2580920

GU Jiawen, TANG Minhao, WEN Jiangtao, et al. Adaptive intra candidate selection with early depth decision for fast intra prediction in HEVC[J]. IEEE Signal Processing Letters, 2018, 25(2): 159–163. doi: 10.1109/LSP.2017.2766766

施引文献

期刊类型引用(2)

1.	刘雷，徐书文，韩正涛，陈鹏，韩东. 一种基于虚拟仪器技术的视频分析仪校准装置. 计量学报. 2024(10): 1562-1569 . 百度学术
2.	高宇鹏，梁世军. 交通禁令标志自动图像识别方法设计与仿真. 计算机仿真. 2022(06): 123-126+145 . 百度学术

其他类型引用(2)

资源附件(0)

访问统计

图(2) / 表(3)

计量

文章访问数: 2086
HTML全文浏览量: 933
PDF下载量: 58
被引次数: 4

1. 引言
2. HEVC帧内预测算法
2.1 编码单元CU
2.2 预测单元PU
3. 基于相位一致性算法的ROI检测
4. 快速CU划分算法
5. PU模式快速选择算法
6. 实验结果分析
7. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于感兴趣区域的高性能视频编码帧内预测优化算法

doi: 10.11999/JEIT190330

作者简介:
宋人杰：女，1966年生，教授，研究方向为数字图像处理与可视化应用、计算机视觉与电力应用

张元东：男，1993年生，硕士生，研究方向为感兴趣区域HEVC算法

通讯作者:
张元东　1406632033@qq.com

计量

High Efficiency Video Coding Intra Prediction Optimization Algorithm Based on Region of Interest

1. 引言

2. HEVC帧内预测算法

2.1 编码单元CU

2.2 预测单元PU

3. 基于相位一致性算法的ROI检测

4. 快速CU划分算法

5. PU模式快速选择算法

6. 实验结果分析

7. 结束语

期刊类型引用(2)

其他类型引用(2)

计量

目录

1. 引言

2. HEVC帧内预测算法

2.1 编码单元CU

2.2 预测单元PU

3. 基于相位一致性算法的ROI检测

4. 快速CU划分算法

5. PU模式快速选择算法

6. 实验结果分析

7. 结束语

留言板

基于感兴趣区域的高性能视频编码帧内预测优化算法

doi: 10.11999/JEIT190330

作者简介: 宋人杰：女，1966年生，教授，研究方向为数字图像处理与可视化应用、计算机视觉与电力应用 张元东：男，1993年生，硕士生，研究方向为感兴趣区域HEVC算法

通讯作者: 张元东 1406632033@qq.com

计量

出版历程

High Efficiency Video Coding Intra Prediction Optimization Algorithm Based on Region of Interest

1. 引言

2. HEVC帧内预测算法

2.1 编码单元CU

2.2 预测单元PU

3. 基于相位一致性算法的ROI检测

4. 快速CU划分算法

5. PU模式快速选择算法

6. 实验结果分析

7. 结束语

期刊类型引用(2)

其他类型引用(2)

计量

出版历程

目录

1. 引言

2. HEVC帧内预测算法

2.1 编码单元CU

2.2 预测单元PU

3. 基于相位一致性算法的ROI检测

4. 快速CU划分算法

5. PU模式快速选择算法

6. 实验结果分析

7. 结束语

作者简介:
宋人杰：女，1966年生，教授，研究方向为数字图像处理与可视化应用、计算机视觉与电力应用

张元东：男，1993年生，硕士生，研究方向为感兴趣区域HEVC算法

通讯作者:
张元东　1406632033@qq.com