基于局部亮度直方图的自适应视频帧类型决策算法

刘鹏宇; 张悦; 贾克斌; 段堃; 刘畅; 孙萱; 崔腾鹤

doi:10.11999/JEIT211199

基于局部亮度直方图的自适应视频帧类型决策算法

doi: 10.11999/JEIT211199

1.
北京工业大学信息学部北京 100124
2.
先进信息网络北京实验室北京 100124
3.
计算机智能与智能系统北京市重点实验室北京 100124

基金项目: 国家重点研发计划(2018YFF01010100)，北京自然科学基金(4212001)，青海省重点研发与转化计划(2022-QY-205)

详细信息

作者简介:
刘鹏宇：女，副教授，博士生导师，研究方向为多媒体信息处理

张悦：女，硕士生，研究方向为视频编码技术

贾克斌：男，教授，博士生导师，研究方向为信息与通信系统

段堃：男，硕士，研究方向为视频编码技术

刘畅：女，博士生，研究方向为3D视频编码

孙萱：男，硕士生，研究方向为视频编码技术

崔腾鹤：男，硕士，研究方向为视频编码技术

通讯作者:
刘鹏宇　liupengyu@bjut.edu.cn

中图分类号: TN919.81
计量
- 文章访问数: 586
- HTML全文浏览量: 425
- PDF下载量: 79
- 被引次数: 0
出版历程
- 收稿日期: 2021-11-01
- 修回日期: 2022-03-25
- 网络出版日期: 2022-04-15
- 刊出日期: 2023-01-17

Adaptive Video Frame Type Decision Algorithm Based on Local Luminance Histogram

1.
The Information Department, Beijing University of Technology, Beijing 100124, China
2.
Advanced Information Network Beijing Laboratory, Beijing 100124, China
3.
Computational Intelligence and Intelligent Systems Beijing Key Laboratory, Beijing 100124, China

Funds: The National Key Research and Development Program of China (2018YFF01010100), The Beijing Natural Science Foundation (4212001), The Key R&D and Transformation Program of Qinghai Province (2022-QY-205)

摘要

摘要: 视频帧类型决策是影响视频编码效率的关键因素之一。为提升x265视频编码器的编码性能，该文提出基于局部亮度直方图的自适应视频帧类型决策算法。首先，在64×64大小的编码树单元(CTU)级别上统计各帧局部亮度直方图，用帧间局部亮度直方图差异表征帧间场景变换程度；其次，引入帧内编码帧(I帧)检测窗，在检测窗内通过比较帧间场景变换程度自适应确定I帧；最后，根据帧间场景变换程度与迷你图像组(MiniGOP)大小之间的相关性确定MiniGOP大小，从而自适应确定普通P和B帧(GPB帧)及双向预测编码帧(B帧)。实验结果表明，与x265标准中的相关算法相比，所提算法能够有效降低x265的编码复杂度，可在减少近5%编码时间的前提下，实现视频I帧、GPB帧和B帧的高效自适应决策。
- 视频编码 /
- x265 /
- 局部亮度直方图 /
- 视频帧类型决策
Abstract: The video frame type decision is one of the key factors affecting the efficiency of video coding. This paper proposes an adaptive video frame type decision algorithm based on local luminance histogram to improve the x265 encoding performance. Firstly, the local luminance histograms of frames are calculated at the level of 64×64 Coding Tree Unit (CTU), and the difference of local luminance histogram between frames is used to represent the degree of scene variation between frames. Secondly, Intra-coded picture (I-frame) detection window is introduced. I-frame is determined by comparing the degree of scene variation between frames. Finally, the Mini Group Of Picture (MiniGOP) size is determined according to the correlation between the degree of scene variation and MiniGOP size, so as to determine adaptively Generalized P and B picture (GPB-frame) and Bidirectionally predicted picture (B-frame). Experimental results show that compared with the relevant algorithms in x265, the proposed algorithm can effectively reduce the coding complexity of x265, and decide I/GPB/B-frame efficiently and adaptively with nearly 5% less coding time.
- Video coding /
- x265 /
- Local luminance histogram /
- Video frame type decision

HTML全文

1. 引言

随着多媒体技术的不断发展，视频源向着高分辨率、高帧率、多视点的方向迈进，视频数据量呈爆炸式增长。与先进视频编码(Advanced Video Coding, AVC)标准相比，由视频编码联合专家小组(Joint Collaborative Team on Video Coding, JCT-VC)正式发布的高效视频编码(High Efficiency Video Coding, HEVC)标准能在相同视频压缩质量下节省近50%的码率，获得了更高压缩性能^[1-4]。基于HEVC标准的x265是一款面向实际业务场景的高效视频编码器，其极大提升了编码速度，成为业界关注的热点^[5,6]。

视频编码器中涉及的技术主要分为标准技术与非标准技术两大类，视频编码标准所规定的编码技术即为标准技术，而根据不同视频编码业务需求衍生出的技术则为非标准技术，后者能够改善视频编码器的压缩性能^[7]。在众多非标准技术中，帧类型决策技术着眼于最基本的视频帧类型，HEVC中根据对视频各帧采用的预测方式，将待编码帧分为帧内编码帧(Intra-coded picture, I帧)、前向预测编码帧(Predictive-coded picture, P帧)、双向预测编码帧(Bidirectionally predicted picture, B帧)和普通P和B帧(Generalized P and B picture, GPB帧)，不同帧类型因采取的编码方式不同会影响视频压缩效率。因此，根据视频内容特性决策视频帧类型至关重要。

视频通常由具有不同内容的场景拼接而成，不同场景拼接处称为视频的场景切换，场景切换处伴随帧间内容的大幅变化。若使用前一场景帧的内容对当前帧预测编码，无疑会导致编码后的视频质量大幅下降。因此，在视频编码过程中，将场景切换帧定为I帧能够显著提高编码质量。目前，针对待编码视频的场景切换检测主要有基于率失真代价(Rate-Distortion Cost, RD Cost)的场景切换检测算法^[6]和基于亮度直方图的场景切换检测算法^[8-11]。x265采用基于RD Cost的场景切换检测算法，在检测场景切换帧时，比较当前帧的全帧内编码RD Cost和当前帧与参考帧之间的帧间编码RD Cost，当全帧内编码RD Cost大于帧间编码RD Cost时，则将当前帧设为场景切换帧，该算法虽性能优异计算复杂度较高。考虑到亮度直方图统计的图像中每个像素点的亮度信息在一定程度上能够反映图像内容，因此，帧间亮度直方图差异在一定程度上可以表示帧间场景差异。为克服上述方法的缺陷，文献[8-11]通过计算并比较视频前后两帧的全局直方图差异实现场景切换检测，虽显著提升了编码速度，但因为其并没有考虑到帧间的局部内容差异，使得本就不大的帧间亮度分布差异淹没在了巨量像素点中，存在阈值设置困难、检测精度较低的缺点。

非I帧的视频帧则需要通过决策图像组(Group Of Pictures, GOP)大小以确定为GPB帧或B帧，主要包括固定GPB帧和B帧决策算法及自适应GPB帧与B帧决策算法。其中，固定GPB帧和B帧决策算法采用可配置的单一帧结构确定整段视频序列的帧类型^[12]，算法简单且适合大多数视频序列，但无法根据视频时序特性进一步提高压缩性能。与固定GPB帧和B帧决策算法相比，自适应GPB帧和B帧决策算法能够根据视频时序特性自适应调整GOP大小，提升压缩效率。x265中引入了快速自适应GPB帧和B帧决策算法及基于Viterbi思想的自适应GPB帧与B帧决策算法^[13,14]。前者通过比较不同大小GOP的RD Cost实现GPB帧和B帧决策，后者则基于Viterbi算法通过迭代实现GPB帧和B帧决策，与快速自适应GPB帧和B帧决策算法相比显著提升了压缩效率，但计算复杂度也大大增加。

综上分析，为解决全局直方图不能很好地反映视频时序特性、现有GPB帧和B帧决策算法复杂度较高的问题，受视频内容与其亮度直方图具有强相关性，且统计亮度直方图的计算复杂度较低的启发，本文提出基于局部亮度直方图的自适应视频帧类型决策算法，以视频帧间局部亮度直方图差异作为决策视频帧类型的依据，分为I帧决策和GPB帧与B帧决策两个部分，从而高效决策视频帧类型，降低视频编码的算法复杂度。

2. 视频编码中的帧类型和GOP

2.1 视频编码中的帧类型

如前所述，编码视频的帧类型包括I帧、P帧、B帧和GPB帧。I帧采用全帧内编码方式，所占数据量较大。P帧和B帧通过运动补偿得到当前帧与参考帧之间的差值及运动矢量并进行传送。其中，P帧只参考最靠近它的前向I帧或P帧，压缩效率较高，B帧的参考帧为前向I帧或P帧和后向P帧，压缩效率最高。GPB帧是P帧和普通B帧的统称，普通B帧将在低时延应用场景中取代P帧，采用类似B帧的双向预测方式，但其参考帧均为当前帧之前的帧，增加了运动估计的准确度。x265中通过外部配置实现将GPB帧选择为P帧还是普通B帧。

2.2 视频编码中的GOP

GOP是视频编、解码器对视频进行处理的基本单元，一段GOP的第1帧为I帧，其余帧为B帧或P帧，如图1所示，其中箭头方向表示帧间参考关系。在码率不变的前提下，GOP大小将影响视频质量，GOP越大，视频中的B帧和P帧的数量越多，平均每帧所占用的字节数就越多，就能得到更高的视频质量。因此，在编码复杂度可控的前提下，根据视频特性决策视频的各帧类型能够有效提升视频编码效率。

图 1 GOP示意图

下载: 全尺寸图片幻灯片

3. 自适应视频帧类型决策

图像的空间信息是反映图像内容的关键。针对全局亮度直方图无法反映图像空间信息的问题，本文提出基于局部亮度直方图的自适应视频帧类型决策算法，流程图如图2所示。

图 2 基于局部亮度直方图的自适应视频帧类型决策算法流程图

下载: 全尺寸图片幻灯片

3.1 提出局部亮度直方图的动机

为与x265编码框架耦合，避免引入额外的计算负担，本文以64×64大小的CTU为单位获取视频各帧局部亮度直方图以弥补全局亮度直方图空间信息的缺失，如式(1)和式(2)

$\qquad {H_n} = \left\{ {{H_{n,0,0}},} \right.{H_{n,0,1}}, \cdots ,{H_{n,i,j}},\left. \cdots \right\}$

(1)

$\begin{split} \qquad {H_{n,i,j}} =& \left\{ {H_{n,i,j}}[0],{H_{n,i,j}}[1], \cdots ,{H_{n,i,j}}[k], \cdots ,\right.\\ & \left.{H_{n,i,j}}[255] \right\} \end{split}$

(2)

其中， ${H_n}$ 表示第 $n$ 帧中所有CTU的局部亮度直方图集合， ${H_{n,i,j}}$ 表示第 $n$ 帧中第 $i$ 行第 $j$ 列CTU的局部亮度直方图， ${H_{n,i,j}}[k]$ 表示 ${H_{n,i,j}}$ 中第 $k$ 个亮度值出现的次数。

图3为视频《送你一朵小红花》^[15]中一处明显的场景切换前后两帧的全局亮度直方图和相同位置CTU的局部亮度直方图。可以看出当发生场景切换但亮度变化不大时，除个别亮度等级的像素点数量有些许不同外，两帧的全局亮度直方图分布几乎没有差异，而局部亮度直方图在亮度分布和亮度频次上的差异明显。

图 3 某场景切换处前后两帧全局亮度直方图和CTU局部亮度直方图

下载: 全尺寸图片幻灯片

本文比较了存在场景切换且具有不同运动特性的4段视频中场景切换处前后两帧的帧间全局亮度直方图差异 ${D_{{\text{hist}}}}$ 和局部亮度直方图差异 ${D_{{\text{local\_hist}}}}$ ，见表1， ${D_{{\text{hist}}}}$ 和 ${D_{{\text{local\_hist}}}}$ 表达式如式(3)和式(4)。其中，Kimono运动平缓且仅存在一处场景切换，《送你一朵小红花》运动平缓且存在多处场景切换，《战狼2》^[16]运动剧烈且存在多处场景切换，《F1赛车越野》^[17]高速运动且存在多处场景切换。

表 1 全局亮度直方图差异

${D_{{\text{hist}}}}$ 与局部亮度直方图差异

${D_{{\text{local\_hist}}}}$ 比较

序列	总帧数	场景切换数	${D_{{\text{hist}}}} > {D_{{\text{local\_hist}}}}$ 的场景切换数	${D_{ {\text{hist} } } } < {D_{ {\text{local\_hist} } } }$ 的场景切换数
Kimono	240	1	0	1
送你一朵小红花	4089	92	0	92
战狼2	4423	185	0	185
F1赛车越野	1880	48	0	0

下载: 导出CSV

| 显示表格

${D_{{\text{hist}}}} = \sum\limits_{k = 0}^{255} {\left| {{G_n}[k] - {G_{n - 1}}[k]} \right|}$

(3)

${D_{{\text{local\_hist}}}} = \sum\limits_i {\sum\limits_j {\sum\limits_{k = 0}^{255} {\left| {{H_{n,i,j}}[k] - {H_{n - 1,i,j}}[k]} \right|} } }$

(4)

其中， ${G_n}[k]$ 表示第 $n$ 帧中第 $k$ 个亮度值出现的次数。

可以看出，4段视频的 ${D_{{\text{local\_hist}}}}$ 始终大于 ${D_{{\text{hist}}}}$ ，进一步验证了采用局部亮度直方图能更好地反映视频各帧的空间特性，从而提高视频帧类型决策的鲁棒性。

3.2 帧间场景变换程度的度量

进一步，如何利用局部亮度直方图客观度量帧间场景变换程度是帧类型决策的关键问题，步骤为：

(1)以当前帧cur与参考帧ref中相同位置 ${\text{CT}}{{\text{U}}_{i,j}}$ 的局部亮度直方图计算帧间局部亮度直方图差异 ${D_{{\text{local\_hist\_}}i,j}}$ ，如式(5)

${D_{{\text{local\_hist\_}}i,j}} = \sum\limits_{k = 0}^{255} {\left| {{H_{{\text{cur}},i,j}}[k] - {H_{{\text{ref}},i,j}}[k]} \right|}$

(5)

(2)通过比较 ${D_{{\text{local\_hist\_}}i,j}}$ 与所设阈值的大小，确定 ${\text{CT}}{{\text{U}}_{i,j}}$ 是否为内容变换块。同时，为避免噪声和误检，通过判断相邻区域中是否存在一定数量的内容变换块最终确定 ${\text{CT}}{{\text{U}}_{i,j}}$ 是否为场景切换块，表达式如式(6)

${\text{CTU}}_{i,j}\text=\left\{\begin{aligned} & 1\text{ },\text{ }({\text{CTU}}_{i-1,j-1}+{\text{CTU}}_{i-1,j}+{\text{CTU}}_{i,j-1}) > 1或({\text{CTU}}_{i-1,j}+{\text{CTU}}_{i-1,j+1}+{\text{CTU}}_{i,j+1}) > 1\\ & \text{ }或({\text{CTU}}_{i,j-1}+{\text{CTU}}_{i+1,j-1}+{\text{CTU}}_{i+1,j}) > 1或({\text{CTU}}_{i,j+1}+{\text{CTU}}_{i+1,j+1}+{\text{CTU}}_{i+1,j}) > 1\\ & 0\text{ },\text{ }其他\end{aligned}\right.$

(6)

其中， ${\text{CT}}{{\text{U}}_{i - 1,j - 1}}$ , ${\text{CT}}{{\text{U}}_{i - 1,j}}$ , ${\text{CT}}{{\text{U}}_{i - 1,j + 1}}$ , ${\text{CT}}{{\text{U}}_{i,j - 1}}$ , ${\text{CT}}{{\text{U}}_{i,j + 1}}$ , ${\text{CT}}{{\text{U}}_{i + 1,j - 1}}$ , ${\text{CT}}{{\text{U}}_{i + 1,j}}$ 和 ${\text{CT}}{{\text{U}}_{i + 1,j + 1}}$ 为 ${\text{CT}}{{\text{U}}_{i,j}}$ 的8个相邻CTU。

(3)基于得到的场景切换块计算当前帧cur与参考帧ref的帧间场景变换程度 ${\text{inter\_diff}}$ ，如式(7)

${\text{inter\_diff}} = \sum\limits_i {\sum\limits_j {{\text{CT}}{{\text{U}}_{i,j}}} }$

(7)

3.3 I帧决策

根据经验将I帧检测窗的大小和滑动步长均设为5，以检测窗为基本单位遍历整段视频序列检测I帧，具体步骤如下：

(1)如图4所示，将视频帧显示顺序(Picture Order Count, POC)中的第2帧(POC=1)作为检测窗的起始位置，以当前帧 $n$ 的前一帧 $n - 1$ 和检测窗外前一帧 ${\text{W}}$ 为参考帧，从左到右依次遍历检测窗内的5帧，分别计算帧间场景变换程度 ${\text{inter\_dif}}{{\text{f}}_{n - 1}}$ 和 ${\text{inter\_dif}}{{\text{f}}_{\text{W}}}$ 。若 ${\text{inter\_dif}}{{\text{f}}_{n - 1}}$ 和 ${\text{inter\_dif}}{{\text{f}}_{\text{W}}}$ 均大于所设阈值，则判断当前帧为关键帧 ${\text{key\_frame}}$ 。

图 4 I帧检测过程

下载: 全尺寸图片幻灯片

(2)对检测窗内的5帧依次检测后，关键帧数量 ${n_{{\text{key\_frame}}}}$ 存在0帧、1帧和多帧3种情况。关键帧数量为1时，该帧即为I帧；关键帧数量为多帧时，可能存在画面抖动，计算所有关键帧的平均帧间场景变换程度 ${\text{avg\_diff}}$ ，并选择满足式(9)的第1帧作为最终的场景切换帧，即为I帧。 ${\text{avg\_diff}}$ 的表达式如式(8)

${\text{avg\_diff}} = \frac{{\displaystyle\sum {{\text{inter\_diff}}} }}{{{n_{{\text{key\_frame}}}}}}$

(8)

${\text{change\_frame}}_{n}\text=\left\{\begin{aligned} & 1\text{ },\text{ key\_frame}=1且{\text{inter\_diff}}_{\text{W}} > \alpha \times \text{avg\_diff}\\ & 0\text{ },\text{ }其他\end{aligned} \right.$

(9)

其中，参数 $\alpha$ 会影响决策场景切换帧的准确性，本文通过统计大量视频中存在多帧关键帧时正确场景切换帧的 ${\text{inter\_dif}}{{\text{f}}_{\text{W}}}$ 与 ${\text{avg\_diff}}$ 的大小关系，取参数 $\alpha = 1.1$ 。

(3)考虑到频繁插入I帧将导致码率激增的问题，本文引入窗间标志位Flag平滑I帧的密度，窗间标志位默认为复位状态(即Flag=0)。当检测窗内检测到I帧且Flag=0时，将窗间标志位置位(Flag=1)，否则清除当前检测窗内的I帧，并移动检测窗进行下一轮检测，当检测窗内不再检测到I帧时将Flag复位。

3.4 GPB帧和B帧决策

分析视频的运动特性可知，运动剧烈的视频连续两帧内容变化较大，GPB帧和B帧的压缩效率较低；而运动平缓的视频连续两帧内容基本一致，GPB帧和B帧的压缩效率较高。若对具有不同运动特性的视频采用相同大小的GOP进行编码，必然会导致两段视频的编码效率差异过大。因此，本文以MiniGOP为基本单元，考虑通过调整GPB帧的密度以改善视频编码效率差异。一段MiniGOP从上一I帧或GPB帧之后开始，至下一个GPB帧为止，如图5所示。

图 5 MiniGOP示意图

下载: 全尺寸图片幻灯片

遍历已确定I帧的序列，通过确定MiniGOP大小将视频划分为若干段完整的MiniGOP，具体步骤为：

(1)以当前帧的前8帧为参考帧，计算当前帧与参考帧的平均帧间局部亮度直方图差异和 ${\text{avg}}\_{D_{{\text{local\_hist}}}}$ ，其表达式如式(10)所示

$\begin{split} & {\text{avg}}\_{D_{{\text{local\_hist}}}} = \\ & \frac{{\displaystyle\sum\limits_{m = 1}^8 {\displaystyle\sum\limits_i {\sum\limits_j {\sum\limits_{k = 0}^{255} {\left| {{H_{n,i,j}}\left[ k \right] - {H_{n - m,i,j}}\left[ k \right]} \right|} } } } }}{8} \end{split}$

(10)

(2)以x265中基于Viterbi思想的决策算法得到的MiniGOP大小为MiniGOP真值，通过分析真值与 ${\text{avg}}\_{D_{{\text{local\_hist}}}}$ 的关系可知，视频中MiniGOP大小与 ${\text{avg}}\_{D_{{\text{local\_hist}}}}$ 存在较强相关性，故本算法由此判断每个MiniGOP大小，并将视频划分为一段段完整的MiniGOP，将MiniGOP中最后一帧设置为GPB帧，其余帧设置为B帧。

4. 实验结果和分析

为验证本文提出的基于局部亮度直方图的自适应视频帧类型决策算法的性能，将本算法嵌入x265 3.0中，在硬件配置为AMD Ryzen 7 4800H with Radeon Graphics，主频为2.90GHz，内存为16.0GB；软件配置为Microsoft Visual Studio 2019的实验平台进行测试实验。

首先，为评估本文提出的场景切换检测算法的性能，选取10段具有不同场景切换情况、不同运动特点和不同分辨率的视频：Traffic(2560×1600)、FourPeople(1280×720)和RaceHorses(416×240)运动平缓且不存在场景切换，BQMall(832×480)运动平缓且存在镜头平移，Kimono(1920×1080)运动平缓且仅存在一处场景切换，《送你一朵小红花》(1920×1056)运动平缓且存在场景切换，《战狼2》、《红海行动》^[18]和《变形金刚5》^[19] (1280×720)运动剧烈且存在场景切换，《F1赛车越野》(960×540)运动快速且存在场景切换。通过比较x265、参考文献[11]和本文算法检测场景切换帧的准确率 $P$ 和召回率 $R$ 衡量场景切换检测的准确性，实验结果如表2所示。准确率 $P$ 和召回率 $R$ 计算公式如式(11)和式(12)

表 2 本场景切换检测算法与x265和参考文献[11]的检测准确度对比

序列	分辨率	场景切换数	x265		参考文献[11]		本文算法
序列	分辨率	场景切换数	P(%)	R(%)	P(%)	R(%)	P(%)	R(%)
Traffic	2560×1600	0	100	100	100	100	100	100
Kimono	1920×1080	1	100	100	100	100	100	100
FourPeople	1280×720	0	100	100	100	100	100	100
BQMall	832×480	0	100	100	100	100	100	100
RaceHorses	416×240	0	100	100	100	100	100	100
送你一朵小红花	1920×1056	92	89.39	64.13	76.19	52.17	100	81.52
战狼2	1280×720	185	96.25	83.24	71.88	37.30	97.67	90.81
红海行动	1280×720	131	89.36	32.06	72.97	41.22	95.54	81.68
变形金刚5	1280×720	52	93.75	57.69	73.53	48.08	95.83	88.46
F1赛车越野	960×540	48	86.84	68.75	74.19	47.92	93.33	87.50

下载: 导出CSV

| 显示表格

$P = \frac{{{n_T}}}{{{n_T} + {n_F}}} \times 100\%$

(11)

$R = \frac{{{n_T}}}{{{n_T} + {n_M}}} \times 100\%$

(12)

其中， ${n_T}$ ， ${n_F}$ 和 ${n_M}$ 分别表示正确检测、错误检测和未检测到的场景切换数。

由表2可以看出，本文算法的检测召回率 $R$ 均在80%以上，准确率 $P$ 均在95%以上，最高可达100%。对于具有多种运动特性和复杂场景切换的视频(《送你一朵小红花》、《战狼2》、《红海行动》、《变形金刚5》和《F1赛车越野》)，本文算法的检测准确度大幅领先于另外两种算法。

通过比较本文算法与x265中场景切换检测算法的运行时间来衡量算法复杂度，实验结果如表3所示，可以看出本文算法的运行时间仅为x265中场景切换检测算法的千分之一。从整体上看，本文算法能在大大降低算法复杂度的前提下，大幅提升场景切换检测性能。

表 3 本场景切换检测与x265算法运行耗时对比(μs)

序列	分辨率	x265	本文算法
Traffic	2560×1600	46071.36	34.13
Kimono	1920×1080	17382.75	12.77
FourPeople	1280×720	6774.90	4.93
BQMall	832×480	2069.15	1.46
RaceHorses	416×240	662.11	0.92

下载: 导出CSV

| 显示表格

其次，选取HEVC标准测试序列中不同类别的12段测试序列，将本文算法与x265中的快速自适应GPB帧和B帧决策算法、基于Viterbi思想的自适应GPB帧和B帧决策算法及参考文献[13]的算法进行比较。以x265中固定GPB帧和B帧决策算法为基准，用峰值信噪比的减少量BDPSNR^[20]衡量算法的客观压缩性能，用时间节省百分比 $\Delta T$ 衡量算法的编码复杂度，实验结果见表4。 $\Delta T$ 的计算公式如式(13)

表 4 本文算法与x265中两种算法和参考文献[13]的算法性能比较

Class	序列	x265快速		x265 Viterbi		参考文献[13]		本文算法
Class	序列	BDPSNR	$\Delta T$ (%)	BDPSNR	$\Delta T$ (%)	BDPSNR	$\Delta T$ (%)	BDPSNR	$\Delta T$ (%)
Class A	Traffic	2.618	1.623	–1.236	2.513	0.605	1.59	0.524	–1.170
Class A	PeopleOnStreet	0.139	0.510	–2.195	3.240	0.020	1.07	–1.056	–0.532
Class B	Cactus	5.742	2.681	–0.615	6.368	0.361	0.23	3.892	0.216
Class B	Kimono	–1.242	1.592	–2.262	2.425	0.115	–3.38	–1.369	–1.579
Class C	BasketballDirll	4.167	2.412	0.106	7.592	0.632	1.25	–1.315	0.822
Class C	PartyScene	8.163	6.423	–1.193	4.715	0.553	0.84	2.125	0.583
Class D	BasketballPass	1.203	4.741	–2.007	4.23	0.487	5.27	1.773	–0.836
Class D	RaceHorses	–0.276	4.285	–1.053	9.542	0.196	1.75	–1.741	–1.474
Class E	FourPeople	3.658	2.130	1.507	2.776	0.951	2.89	–3.773	–0.256
Class E	vidyo4	1.646	3.359	2.119	2.034	0.622	2.45	–1.410	–0.572
Class F	SlideShow	–0.892	3.824	–6.364	5.186	1.494	1.59	–9.727	–0.119
Class F	SlideEditing	–0.672	2.535	–7.382	8.571	0.417	2.15	–10.631	–1.658
平均值		2.021	3.010	–1.715	4.933	0.537	1.475	–1.892	–0.548

下载: 导出CSV

| 显示表格

$\Delta T = \frac{{{T_A} - {T_{{\text{x265\_fixed}}}}}}{{{T_{{\text{x265\_fixed}}}}}} \times 100\%$

(13)

由表4可以看出，在客观压缩性能方面，本文算法整体上领先于另外3种算法，但对于具有不同运动特征的视频，本文算法存在一定差异：对具有不规则运动(如旋转、缩放等)的视频(Cactus, BasketballPass与PartyScene)，本文算法的客观压缩性能明显下降，对运动平缓或静止的视频(Kimono, FourPeople, SlideEditing等)，本文算法的客观压缩性能有很好的提升。另外，本文算法的编码复杂度最低，且与具有相近客观压缩性能的x265中基于Viterbi思想的决策算法相比，平均减少了5.463%的编码时间。

5. 结论

针对全局直方图不能很好地反映视频时序特性且现有帧类型决策算法计算复杂度较高的问题，本文以CTU为基本单位对视频各帧分块并统计局部亮度直方图，提出基于局部亮度直方图的自适应视频帧类型决策算法。主要贡献为利用视频帧的局部亮度直方图差异表征各帧内容，从而通过帧间局部亮度直方图差异度量帧间场景变换程度，实现I帧、GPB帧和B帧的自适应决策。同时，引入窗间标志位Flag，有效避免因频繁插入I帧而导致的码率激增问题。实验结果表明，本文提出的基于局部亮度直方图的视频帧类型决策算法与x265中的相关算法相比能够减少5.463%编码时间。通过与其他算法进行比较，验证了本文算法的检测准确度和客观压缩效率。本文算法能实现视频帧类型的高效决策，且适合于具有不同运动特性的视频序列，鲁棒性较强。

图 1 GOP示意图

下载: 全尺寸图片幻灯片

图 2 基于局部亮度直方图的自适应视频帧类型决策算法流程图

下载: 全尺寸图片幻灯片

图 3 某场景切换处前后两帧全局亮度直方图和CTU局部亮度直方图

下载: 全尺寸图片幻灯片

图 4 I帧检测过程

下载: 全尺寸图片幻灯片

图 5 MiniGOP示意图

下载: 全尺寸图片幻灯片

表 1 全局亮度直方图差异 ${D_{{\text{hist}}}}$ 与局部亮度直方图差异 ${D_{{\text{local\_hist}}}}$ 比较

序列	总帧数	场景切换数	${D_{{\text{hist}}}} > {D_{{\text{local\_hist}}}}$ 的场景切换数	${D_{ {\text{hist} } } } < {D_{ {\text{local\_hist} } } }$ 的场景切换数
Kimono	240	1	0	1
送你一朵小红花	4089	92	0	92
战狼2	4423	185	0	185
F1赛车越野	1880	48	0	0

下载: 导出CSV

表 2 本场景切换检测算法与x265和参考文献[11]的检测准确度对比

序列	分辨率	场景切换数	x265		参考文献[11]		本文算法
序列	分辨率	场景切换数	P(%)	R(%)	P(%)	R(%)	P(%)	R(%)
Traffic	2560×1600	0	100	100	100	100	100	100
Kimono	1920×1080	1	100	100	100	100	100	100
FourPeople	1280×720	0	100	100	100	100	100	100
BQMall	832×480	0	100	100	100	100	100	100
RaceHorses	416×240	0	100	100	100	100	100	100
送你一朵小红花	1920×1056	92	89.39	64.13	76.19	52.17	100	81.52
战狼2	1280×720	185	96.25	83.24	71.88	37.30	97.67	90.81
红海行动	1280×720	131	89.36	32.06	72.97	41.22	95.54	81.68
变形金刚5	1280×720	52	93.75	57.69	73.53	48.08	95.83	88.46
F1赛车越野	960×540	48	86.84	68.75	74.19	47.92	93.33	87.50

下载: 导出CSV

表 3 本场景切换检测与x265算法运行耗时对比(μs)

序列	分辨率	x265	本文算法
Traffic	2560×1600	46071.36	34.13
Kimono	1920×1080	17382.75	12.77
FourPeople	1280×720	6774.90	4.93
BQMall	832×480	2069.15	1.46
RaceHorses	416×240	662.11	0.92

下载: 导出CSV

表 4 本文算法与x265中两种算法和参考文献[13]的算法性能比较

Class	序列	x265快速		x265 Viterbi		参考文献[13]		本文算法
Class	序列	BDPSNR	$\Delta T$ (%)	BDPSNR	$\Delta T$ (%)	BDPSNR	$\Delta T$ (%)	BDPSNR	$\Delta T$ (%)
Class A	Traffic	2.618	1.623	–1.236	2.513	0.605	1.59	0.524	–1.170
Class A	PeopleOnStreet	0.139	0.510	–2.195	3.240	0.020	1.07	–1.056	–0.532
Class B	Cactus	5.742	2.681	–0.615	6.368	0.361	0.23	3.892	0.216
Class B	Kimono	–1.242	1.592	–2.262	2.425	0.115	–3.38	–1.369	–1.579
Class C	BasketballDirll	4.167	2.412	0.106	7.592	0.632	1.25	–1.315	0.822
Class C	PartyScene	8.163	6.423	–1.193	4.715	0.553	0.84	2.125	0.583
Class D	BasketballPass	1.203	4.741	–2.007	4.23	0.487	5.27	1.773	–0.836
Class D	RaceHorses	–0.276	4.285	–1.053	9.542	0.196	1.75	–1.741	–1.474
Class E	FourPeople	3.658	2.130	1.507	2.776	0.951	2.89	–3.773	–0.256
Class E	vidyo4	1.646	3.359	2.119	2.034	0.622	2.45	–1.410	–0.572
Class F	SlideShow	–0.892	3.824	–6.364	5.186	1.494	1.59	–9.727	–0.119
Class F	SlideEditing	–0.672	2.535	–7.382	8.571	0.417	2.15	–10.631	–1.658
平均值		2.021	3.010	–1.715	4.933	0.537	1.475	–1.892	–0.548

下载: 导出CSV

参考文献(20)

[1]	JCT-VC. ITU-T Recommendation H. 265 High efficiency video coding[S]. Geneva: ITU–T, 2013.
[2]	CORREA G, ASSUNCAO P, AGOSTINI L, et al. Performance and computational complexity assessment of high-efficiency video encoders[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1899–1909. doi: 10.1109/TCSVT.2012.2223411
[3]	BOSSEN F, BROSS B, SUHRING K, et al. HEVC complexity and implementation analysis[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1685–1696. doi: 10.1109/TCSVT.2012.2221255
[4]	GAO Yuan, LIU Pengyu, WU Yueying, et al. Quadtree degeneration for HEVC[J]. IEEE Transactions on Multimedia, 2016, 18(12): 2321–2330. doi: 10.1109/TMM.2016.2598481
[5]	ESAKKI G, PANAYIDES A, TEEPARTHI, et al. A comparative performance evaluation of VP9, x265, SVT-AV1, VVC codecs leveraging the VMAF perceptual quality metric[J]. SPIE, 2020: 1151010.
[6]	x265 ORG. x265 HEVC encoder[EB/OL]. http://www.x265.org/, 2017.
[7]	段堃. 基于H. 265/HEVC的高压缩率与低复杂度编码技术研究[D]. [硕士论文], 北京工业大学, 2020. DUAN Kun. Research on hight compression rate and low complexity coding based on H. 265/HEVC[D]. [Master dissertation], Beijing University of Technology, 2020.
[8]	FUAD M, ERNAWAN F, and HUI L J. Video scene change detection based on histogram analysis for hiding message[J]. Journal of Physics:Conference Series, 2021, 1918(4): 042141. doi: 10.1088/1742-6596/1918/4/042141
[9]	KANG S J. Positional analysis-based scene-change detection algorithm[C]. Proceedings of 2015 IEEE International Conference on Consumer Electronics, Las Vegas, USA, 2015: 11–12.
[10]	CHO S I and KANG S J. Histogram shape-based scene-change detection algorithm[J]. IEEE Access, 2019, 7: 27662–27667. doi: 10.1109/ACCESS.2019.2898889
[11]	刘辉, 刘立程, 郝禄国, 等. 一种场景切换下的HEVC码率控制算法[J]. 电视技术, 2017, 41(6): 1–5. doi: 10.16280/j.videoe.2017.06.001 LIU Hui, LIU Licheng, HAO Luguo, et al. A rate control algorithm for HEVC based on scene change[J]. Video Engineering, 2017, 41(6): 1–5. doi: 10.16280/j.videoe.2017.06.001
[12]	VideoLAN ORG. x264, the best H. 264/AVC encoder[EB/OL]. https://www.videolan.org/developers/x264.html, 2013.
[13]	LIU Zhenyu, WANG Libo, LI Xiaobo, et al. Optimize x265 rate control: An exploration of lookahead in frame bit allocation and slice type decision[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2558–2573. doi: 10.1109/TIP.2018.2887200
[14]	FORNEY G D. The viterbi algorithm[J]. Proceedings of the IEEE, 1973, 61(3): 268–278. doi: 10.1109/PROC.1973.9030
[15]	《送你一朵小红花》“珍惜版”预告导演韩延开启“生命三部曲”[EB/OL]. https://www.mgtv.com/b/348435/10455525.html?fpa=se&lastp=so_result, 2020. A Little Red Flower. Clip: “Trilogy of Life” directed by Han Yan[EB/OL]. https://www.mgtv.com/b/348435/10455525.html?fpa=se&lastp=so_result, 2020.
[16]	《战狼2》片段: 冷锋Rachel飙车智斗“雇佣兵”[EB/OL]. https://www.mgtv.com/l/100009562/4052086.html?lastp=so_result, 2017. Wolf Warriors 2. Clip: Leng Feng and Rachel compete with mercenaries[EB/OL]. https://www.mgtv.com/l/100009562/4052086.html?lastp=so_result, 2017.
[17]	见过F1赛车越野吗? 红牛是真敢作, 2亿的车就这么糟蹋?[EB/OL]. https://v.youku.com/v_show/id_XMzQzNjQ1MjU1Mg==.html?spm=a2h0c.8166622.PhoneSokuUgc_2.dtitle, 2018. Have you ever seen an F1 car off-road?[EB/OL]. https://v.youku.com/v_show/id_XMzQzNjQ1MjU1Mg==.html?spm=a2h0c.8166622.PhoneSokuUgc_2.dtitle, 2018.
[18]	《红海行动》“蛟龙逆袭”版预告蛟龙突击队展现超强作战力[EB/OL]. https://www.mgtv.com/b/315515/4293086.html?fpa=se&lastp=so_result, 2018. "Operation Red Sea" clip: Preview version of "Jiaolong Attack"[EB/OL]. https://www.mgtv.com/b/315515/4293086.html?fpa=se&lastp=so_result, 2018.
[19]	《变形金刚5》并肩作战预告人类联手变形金刚拯救地球[EB/OL]. https://www.mgtv.com/b/308889/3994088.html?fpa=se&lastp=so_result, 2017. Transformers 5 clip: Side by side trailer[EB/OL]. https://www.mgtv.com/b/308889/3994088.html?fpa=se&lastp=so_result, 2017.
[20]	BJØNTEGAARD G. Calculation of average PSNR differences between RD-curves[C]. Proceedings of the 13th Video Coding Experts Group Meeting, Austin, USA, 2001: 290–291.

施引文献

资源附件(0)

访问统计

图(5) / 表(4)

计量

文章访问数: 586
HTML全文浏览量: 425
PDF下载量: 79
被引次数: 0

1. 引言
2. 视频编码中的帧类型和GOP
2.1 视频编码中的帧类型
2.2 视频编码中的GOP
3. 自适应视频帧类型决策
3.1 提出局部亮度直方图的动机
3.2 帧间场景变换程度的度量
3.3 I帧决策
3.4 GPB帧和B帧决策
4. 实验结果和分析
5. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于局部亮度直方图的自适应视频帧类型决策算法

doi: 10.11999/JEIT211199

通讯作者:
刘鹏宇　liupengyu@bjut.edu.cn

计量

Adaptive Video Frame Type Decision Algorithm Based on Local Luminance Histogram

1. 引言

2. 视频编码中的帧类型和GOP

2.1 视频编码中的帧类型

2.2 视频编码中的GOP

3. 自适应视频帧类型决策

3.1 提出局部亮度直方图的动机

3.2 帧间场景变换程度的度量

3.3 I帧决策

3.4 GPB帧和B帧决策

4. 实验结果和分析

5. 结论

计量

目录

1. 引言

2. 视频编码中的帧类型和GOP

2.1 视频编码中的帧类型

2.2 视频编码中的GOP

3. 自适应视频帧类型决策

3.1 提出局部亮度直方图的动机

3.2 帧间场景变换程度的度量

3.3 I帧决策

3.4 GPB帧和B帧决策

4. 实验结果和分析

5. 结论

留言板

基于局部亮度直方图的自适应视频帧类型决策算法

doi: 10.11999/JEIT211199

通讯作者: 刘鹏宇 liupengyu@bjut.edu.cn

计量

出版历程

Adaptive Video Frame Type Decision Algorithm Based on Local Luminance Histogram

1. 引言

2. 视频编码中的帧类型和GOP

2.1 视频编码中的帧类型

2.2 视频编码中的GOP

3. 自适应视频帧类型决策

3.1 提出局部亮度直方图的动机

3.2 帧间场景变换程度的度量

3.3 I帧决策

3.4 GPB帧和B帧决策

4. 实验结果和分析

5. 结论

计量

出版历程

目录

1. 引言

2. 视频编码中的帧类型和GOP

2.1 视频编码中的帧类型

2.2 视频编码中的GOP

3. 自适应视频帧类型决策

3.1 提出局部亮度直方图的动机

3.2 帧间场景变换程度的度量

3.3 I帧决策

3.4 GPB帧和B帧决策

4. 实验结果和分析

5. 结论

通讯作者:
刘鹏宇　liupengyu@bjut.edu.cn