用于人体动作识别的多尺度时空图卷积算法

|

赵登阁,智敏

内蒙古师范大学 计算机科学技术学院,呼和浩特010000

基于骨骼数据的人体动作识别是计算机视觉领域的热点之一,它从人体骨骼序列中获取特征信息,能够避免视频数据的许多不利因素。视频数据会受到复杂的背景、变幻的色彩和明暗度、目标大小缩放以及动作轨迹速度变化的影响,基于视频数据的人体动作识别算法[1-3]在3D 空间获取准确特征表达的难度相对更大。骨骼数据规避了以上视频数据中的限制,因此,骨骼数据动作识别算法的抗干扰性和鲁棒性更强,也更适于解决动作识别任务中遇到的难题。

早期基于骨骼数据的算法[4-6]通常使用手工提取特征,但此类方法工作量较大且在特征表达上有很大的限制,也无法同时捕捉时空特征。随着深度学习的发展,卷积神经网络(convolution neural networks,CNN)[7]及循环神经网络(recurrent neural network,RNN)[8]提升了基于骨骼数据动作识别算法的性能,能够从骨骼序列中提取关节点特征,然而由于骨骼数据都是非欧几里德结构数据,此类算法忽略了至关重要的节点间关联信息,整体提升有限。图神经网络(graph neural networks,GNN)[9]的出现化解了以往算法难以处理非欧数据的困境,图神经网络能够提取节点间的关联特征,适用于任何拓扑结构,相较于其他方法,GNN 更能胜任以骨骼数据为基础的动作识别任务。将CNN 的概念推广到GNN 中,于是形成了图卷积神经网络[10],此类算法大幅提升了特征提取和表达能力。基于GCN(graph convolutional neural network),Yan 等提出了时空图卷积网络(spatialtemporal graph convolutional neural network,ST-GCN)[11],能够从空间和时间维度提取空间结构特征和时间轨迹特征,形成高级时空特征,大幅提升动作识别精度。在ST-GCN 基础上衍生出了许多时空图卷积算法:Thakkar等[12]将骨骼序列根据人体结构分为多个部分(如头、躯干、四肢)分别独立输入时空图卷积网络中,最终融合为整体结果;
Zhang等[13]分别将骨骼序列图中关节点和骨架作为独立输入,同时对关节顶点和肢体骨架进行卷积操作,构造了以不同输入为基础的双流时空图卷积网络;
Cheng等[14]利用轻量级位移图操作代替卷积操作,通过空间位移图和时间位移图获取时空特征;
Liu等[15]构造了统一时空图卷积模块,直接对跨时空关节依赖关系建模,同时消除冗余依赖关系,提高了模型性能;
Zhang等[16]通过点积、线性函数、可学习参数等计算方法,减少了卷积层的堆叠,降低了动作识别算法的计算量;
Ma等[17]设计了区域关联自适应图卷积网络,强化了模型的灵活性和对非物理连接相关性的捕捉。虽然基于ST-GCN 的算法改进都提升了人体动作识别精度,但仍然存在问题。此类时空图卷积算法的时间卷积往往是固定结构,单一且尺度固定的卷积核难以提取每个动作序列中的全部重要轨迹特征,限制了时空图卷积网络的能力。

为解决以上问题,本文在ST-GCN 的基础上,提出了多尺度时间卷积结构,利用不同尺度的图卷积从时间维度提取各尺度轨迹特征,并融合为全面的时空特征,提高了基于骨骼数据的动作识别精度。

基于骨骼数据的人体动作识别时空图卷积网络(ST-GCN),能够从时间和空间两个维度共同提取时空特征。主要流程是:给定一个动作视频的骨骼序列,首先构造表达该序列的图结构数据,并以此作为ST-GCN 的输入;
然后经过一系列的时空图卷积操作提取高层时空特征;
最后利用Softmax 分类器得到分类结果。ST-GCN 实现了端对端的训练,其整体结构及卷积单元结构如图1 所示。

图1 ST-GCN 网络及单元结构Fig.1 ST-GCN network and architecture of block

每个图卷积单元包含一个空间卷积层、一个时间卷积层和残差结构。在时空图卷积单元内,存在一个可学习的边权重参数,用于学习节点之间的边重要程度。该边权重的优势是可以作为ST-GCN 内部的注意力机制,起到强化关联信息的作用;
但不足之处在于,对关键节点和结构化特征并未有效加强。ST-GCN 的时间卷积层采用具有固定结构的卷积操作,卷积核大小为单一定值。骨骼序列图,首先通过空间卷积层获取空间结构特征,再经过时间卷积获取时间流方向上的时间特征,最后利用残差机制融合原始输入和高层时空特征,形成每个时空图卷积单元的输出。每个ST-GCN 时空卷积单元中,空间图卷积和时间图卷积可以有类似的表达:

时空图卷积获取时空关联信息的流程如图2 所示,输入的骨骼数据包含空间和时间两个序列,其中空间序列即单帧内的关节点序列,时间序列即时间流序列。首先,通过空间卷积层从空间序列中提取出每个单帧的结构特征,这些特征不仅包含节点特征和帧内节点间的关联信息,还保留原始时间序列;
之后,通过时间卷积层从时间流的方向上提取帧间特征,帧间特征包含了节点的轨迹特征,即时间关联信息;
经上述两步,时空卷积既获取了单帧内结构化的空间关联信息,又获取了连续帧之间节点轨迹的时间关联信息,由此构成了包含大量时空关联信息的特征图。

图2 时空卷积流程图Fig.2 Flow of spatial-temporal convolution

2.1 多尺度时间卷积

人体动作识别所需的特征是多变的,不同动作的判别关键也有所区别。如图3 所示(前4 幅图为“起立”,后4 幅图为“坐下”),“起立”和“坐下”两个动作相似,二者的空间特征差异不大,但在时间特征上,两者有明显的不同;
“坐下”在时序上是一个由“高”到“低”的过程,而“起立”则相反,在时序上是一个由“低”到“高”的过程;
因此,二者的时间特征在时序上存在很大差异。另外,不同动作的持续时间也不相同,例如,“击打”只需要2 s 左右的时间,而“穿夹克”则需要5 s 左右的时间,二者的时间特征存在长短期差异。由此,基于骨骼信息的人体动作识别需要从时间维度上全面地提取并融合不同距离或尺度的特征,才能准确表达对应不同动作序列的重要特征部分,更加精确地完成动作分类。

图3 “起立”和“坐下”轨迹特征Fig.3 Motion features of“stand up”and“sit down”

多尺度特征融合可以增强不同分辨率和距离特征的表达能力,而多尺度特征的提取可以通过设计多个不同尺寸的卷积核实现,如经典的Inception 系列网络[18]是 在VGG网络(visual geometry group network)[19]多个固定3×3 卷积的基础上,通过设置多尺度卷积核,获得了更好的特征提取效果,提升了实验效果;
Li[20]在尺寸为t的单一时间卷积核基础上,通过额外增加一个2t尺寸的卷积核,提高了动作识别精度。大尺寸的卷积核具有相对更大的感受野,获取特征分辨率更低,能够捕捉更丰富的长距离高层语义信息,同时计算量相对较大;
小尺寸的卷积核具有相对较小的感受野,局部性更强,获取特征分辨率更高,能够捕捉更丰富的短距离低层内含信息,计算量相对较小;
二者兼具优点,对不同任务需求的适应程度各有不同。对于基于骨骼信息的人体动作识别,全面的时间特征提取包含对长、短距离依赖的提取;
本文采用多尺度时间卷积核进行时间特征提取,利用小尺寸卷积进行短程时序特征建模,提取丰富的节点局部内含信息;
利用大尺寸卷积进行长距离时序依赖建模,提取丰富的长时语义信息;
利用中间尺度卷积提取同时包含语义和内含信息的特征,使模型对时间特征的提取更加全面。另外,有效的特征融合策略可以强化多尺度特征提取效果,合理的网络结构可以优化特征融合策略;
因此设计并选择性能更优的模型架构也是全面提取多尺度时间特征的关键。反观时空图卷积网络(ST-GCN),存在时间卷积层结构单一、卷积核尺寸固定、难以全面提取对应每个动作序列重要特征部分的问题;
为此,本文以多尺度特征提取和融合为基础,设计了多尺度时间图卷积层,包括不同数量和尺寸的卷积核以及构造的特征融合架构。

本文设计的多尺度时间卷积层(multiple-temporal graph convolution,MT-GC)结构如图4 所示。

图4(a)将多个不同尺度图卷积操作单元并行处理,构造了多尺度并行时间图卷积(multiple-temporal parallel graph convolution,MPT-GC),可以有如下表示:

图4 多尺度时间图卷积(MT-GC)结构Fig.4 Architecture of multiple-temporal graph convolution(MT-GC)

其中,x为输入,y代表输出,conv()表示2D 卷积,表示MPT-GC 子单元,卷积核大小从1至n,BN() 表示批归一化,gt() 表示时间图卷积,ReLU() 表示激活函数,Drop() 为随机丢弃机制。式(4)代表MPT-GC 子单元,每个子单元采用BN归一化-ReLU 激活-图卷积g-BN 归一化的结构,并且在单元末尾与原输入融合;
其中两个BN 归一化使模型可以在更大的学习率下进行训练和测试,防止梯度爆炸和过拟合现象的发生,保证模型的收敛性能;
ReLU 激活函数使模型参数在前后向的循环学习中得到优化;
图卷积是进行特征提取的核心操作,且每个子单元图卷积核大小不同;
随机丢弃操作Drop在每个子循环中随机丢弃部分算子,既能够降低计算量,又进一步防止过拟合的发生,提升模型收敛性;
每个子单元的输出在末位与原输入的融合是本文算法对残差结构的改进,作用是保持原始特征信息的作用,防止原始信息过度流失,并且保持模型在深层中的鲁棒性。从式(3)可以看到,MPT-GC 以不同尺度卷积并行提取多尺度时间特征,通过直接加权求和策略进行多尺度特征融合,将长、中、短距离时序特征组合为时间特征图,再通过一个2D 卷积进一步强化特征提取;
在特征融合过程中,此结构卷积不对提取到的时序特征作额外处理,而是直接统一到同一时间特征图中,简单地融合就使时序特征表达更加全面,并且在计算量上的增加要少于设计的其他卷积单元结构。

图4(b)将多个不同尺度图卷积单元串行处理,构造多尺度串行时间图卷积(multiple-temporal serial graph convolution,MST-GC),如式(5):

MST-GC 的卷积子单元与上文MPT-GC 和后面将介绍的MDT-GC 子单元具有同样的结构和式(4)表达,都采用BN-ReLU-g-BN 结构。在MST-GC 中,子单元的卷积核按照由前到后的结构顺序被设置为由小到大的尺寸,由小尺寸卷积获取相对短程的特征,再逐层利用相对较大尺寸的卷积获取长距离的语义依赖关系,使获取的语义信息既能够以节点内含信息为基础,又能够捕捉更高级的关联信息。MST-GC 采用顺序融合的策略,强化了内含和语义关联信息的提取,其计算量的增加高于MPT-GC,低于MDT-GC。

图4(c)借鉴了经典的稠密网络(densely connected convolutional network,Dense-Net)[21]结 构,并融合MPT-GC 和MST-GC 的特点,构造了多尺度稠密时间图卷积(multiple-temporal dense graph convolution,MDT-GC),如式(6):

2.2 变换残差机制Tran-Res

视觉变换网络(vision transformer network,ViT)[22]具有强大的长距离依赖关系建模能力,而长距离关联信息是基于骨骼信息动作识别的重点和难点之一。为了进一步强化骨骼序列中人体关联信息,本文结合Transformer 的优势,对残差机制进行改进,构造了变换残差机制(Transformer-Resnet,Tran-Res),强化了模型对长距离关联依赖的关注度,并提升了人体动作识别精度。如图5 所示,Tran-Res 由变换(Transformer branch,Tran)分支和恒等分支(skipconnection branch,Skip)组成,其中Tran 分支对原始输入进行多头自注意力计算,得到全部节点的关联信息;
恒等分支不对原始输入做额外处理,保持原始信息的完整性;
最后通过求和的方式对二者进行融合,作为完整的Tran-Res残差机制输出结果。

图5 变换残差机制结构Fig.5 Architecture of Transformer-Resnet

Tran 分支以Transformer 网络Q、K、V 机制为基础,其结构如图6 所示。形如Cin×T×V的原始输入首先经过BN 层归一化处理,并重塑为T×Cin×V的形式,再分别通过两组线性变换得到相应的Q、K、V矩阵,在Q和转置K相乘后,再与V相乘,最后通过重塑得到与原输入形式一致的输出Cout×T×V。图6 中,wq、wk、wv分别为取得Q、K、V矩阵的对应参数权重,Q、K矩阵分别具有T×N×dq×V和T×N×dk×V的形式,V矩阵具有T×N×dv×V的形式。本文中,空间维度和时间维度下Tran-Res 的Tran 分支基本相似,但有所不同。空间维度下,Tran 分支处理的是单帧下的所有关节点,然后整合为最终的输出;
时间维度下,Tran 分支处理的是连续帧下的相同关节点,并整合为时间维度Tran分支的最终输出。总体来说,Tran 分支可以有如下表示:其中,式(7)代表空间维度下的Tran 分支,式(8)代表时间维度下的Tran 分支,其中表示相同帧下每个节点间的关联强度,并作为节点值v的权重参数,上标t代表第t帧,i、j分别代表目标节点和邻居节点;
代表连续帧下每个相同节点的关联强度,并作为时间维度下节点值v的权重参数,上标n代表相同节点,t、u代表不同连续帧;
softmax()代表激活函数,dk代表通道维数。

图6 Tran 分支结构Fig.6 Architecture of Tran stream

如图7 所示,Tran-Res 作为空间和时间图卷积子单元的残差机制,分别融合于空间图卷积模块和时间图卷积模块中,强化了骨骼序列长距离关联信息,提升了模型性能。

图7 Tran-Res融合于时空图卷积模型Fig.7 Tran-Res fused in spatial-temporal graph convolution network

2.3 融合轻量级注意力模块

类别相差较大的人体动作识别,不仅需要在时间维度全面地提取时序上的差异特征,同时也需要从空间维度上提取具有明显差别的结构化特征。如图8所示,“喝水”和“起跳”两个动作(前4幅图为“喝水”,后4幅图为“起跳”),每帧内的动作特征都存在显著的差异,因此,强化帧内空间特征的提取和表达可以提升人体动作识别的精度;
另外,对空间特征的强化,也可以减少对类别相近动作的识别混淆度。ST-GCN 内部本身存在一定的注意力机制,但该注意力机制仅对关联信息进行了强化,缺少对关键节点及特征的强化。为提升基于骨骼的人体动作识别精度,本文引入通道空间注意力(convolutional block attention module,CBAM)[23]模块,强化了空间特征的表达。

图8 “喝水”和“起跳”轨迹特征Fig.8 Motion features of“drink water”and“jump up”

Woo等[23]构建的轻量级通道-空间注意力模块(CBAM),在强化通道信息的同时,也加强了对空间特征的表达。CBAM 结构如图9 所示,该模块可以融入各类基础网络模型中,均得到了一定的性能提升。

图9 CBAM 结构Fig.9 Architecture of CBAM

CBAM 模块由通道注意力子模块和空间注意力子模块组成。通道注意力模块包含并行的最大池化和平均池化操作以及对应的两组线性全连接层,输入通过最大池化和平均池化后,强化了通道信息,再与原始输出融合得到强化通道特征的输出;
空间注意力模块包含串行的最大池化和平均池化操作以及一组尺度为7×7 的2D 卷积操作,强化了通道特征的输入通过最大池化和平均池化后,再由2D 卷积操作得出强化的空间特征,最后与原始输入加权融合得出最后的输出。由于缺少激活函数,在融合原始特征和强化特征时,原始特征和强化特征在深层时会减少差异性;
因此本文对CBAM 特征融合阶段做了微小调整,为了加强非线性并强化注意力模块与模型的融合程度,加入了激活函数。将激活函数设置为Sigmoid,可以强化残差结构的性能,防止原始特征作用被过度弱化,增加强化特征和原始特征间的差异性。嵌入改进的CBAM 模块后,构造的强化时空图卷积层结构如图10 所示。改进的时空图卷积层能够强化关键节点和结构特征,提高基于骨骼的人体动作识别精度。

图10 强化的时空图卷积层结构Fig.10 Architecture of enhanced spatial-temporal graph convolution layer

2.4 本文结构

为解决ST-GCN 时间卷积层结构固定、单一的问题,并提升空间特征表达能力,本文改进了ST-GCN时间图卷积层,构造了多尺度时空图卷积网络(spatial multiple-temporal graph convolutional neural network,SMT-GCN);
在此基础上还通过融合通道空间注意力(CBAM)模块,构造了多尺度时空图注意卷积网络(spatial-attentive multiple-temporal graph convolutional neural network,SAMT-GCN)。多尺度时空图注意卷积单元具体结构如图11 所示。

图11 SAMT-GCN 网络单元结构Fig.11 Architecture of SAMT-GCN block

每个多尺度时空图卷积单元由空间图卷积层、特征强化层、下采样和上采样层及多尺度时间图卷积层组成,空间图卷积和多尺度时间图卷积层中都融合了构造的变换残差模块,并且整体网络单元内依然应用标准残差机制,不对原始输入做额外处理,用于融合原始输入和时空特征。这里不使用构造的变换残差模块的原因在于,防止原始信息过度流失的可能性,并减少对模型计算负担的增加。整个网络由骨架估计模块、多尺度时空图卷积模块以及全连接层和Softmax 分类器组成,多尺度时空图卷积模块由1 个归一化层和9 层多尺度时空图卷积层堆叠组成,每个图卷积层具有相同的结构。整个网络的算法流程如下:

(1)原始视频通过骨架估计算法得到对应的骨骼序列,并构造骨骼序列图x,作为多尺度时空图卷积模块的输入;

(2)输入x由归一化层进行规范化处理,再通过9 层多尺度时空图卷积层获取高级时空特征x′;

(3)x′经过全连接层融合全局信息,并由Softmax分类器获取最终的动作分类结果。

另外,对于基于骨骼信息的人体动作识别,肢体骨架所包含的关联信息与关节顶点包含的坐标信息同样重要;
单独以关节顶点或肢体骨架作为输入,都会使模型对关联信息或节点坐标的利用不足。因此本文融合两类输入的优势,采用双流网络架构,如图12,模型由处理关节点的分支和处理骨架的分支组成,两个分支具有相同的网络线构架,均由多个多尺度时空图卷积层堆叠而成。关节点分支的输入为人体关节点序列,由各帧的人体关节点坐标构成。骨架分支的输入为肢体序列,由每一个帧的肢体序列构成,肢体序列由该部位的大小和方向表示,根据肢体两端的关节点坐标计算;
例如给定一根肢体骨架,其靠近人体重心的关节点为v1=(x1,y1,z1),远离人体重心的关节点为v2=(x2,y2,z2),则该肢体骨架可以表示为ev1v2=(x2-x1,y2-y1,z2-z1)。在两个分支分别得到对应的Softmax 分数后,通过带权相加融合为最终的分数并预测动作标签;
与双流多关系图卷积网络(two-stream multi-relational graph convolutional network,2S-MRGCN)[24]相似,本文设置两个分支的识别分数具有相同的融合权重,此时取得的融合效果最佳。

图12 双流网络结构Fig.12 Architecture of two-stream network

3.1 数据集

本文分别在NTU RGB+D 和HDM05 两个常用人体动作识别数据集上对提出的模型进行了实验。与大型数据集NTU RGB+D 相比,HDM05 的数据规模相对较小,实验在大规模数据和小规模数据两种训练状态下进行,验证了算法的性能。

NTU RGB+D(60)数据集[25]是近期主流的大规模人体动作识别数据集,包含56 000 个视频和60 种动作类别。60 类动作中,50 类为单人动作,10 类为多人交互动作;
每位演员捕捉了25 个关节点;
每个动作片段由3 台Kinetics 摄像机分别从3 个不同角度-45°、0°、45° 捕捉完成。该数据集包含两种分割方式,Cross Subject 和Cross View:Cross Subject 分割方式根据动作类别排序,训练集包含40 320 个视频片段,测试集包含16 560 个视频片段,两个集合中的表演者不同;
Cross View 分割方式根据设备标号排序,训练集包含37 920 个视频片段,测试集包含18 960 个视频片段,训练集由2 号和3 号摄像机从0°和45°的角度捕捉完成,测试集由1 号摄像机从-45°的角度捕捉完成。

HDM05 数据集[26],包含2 337 个骨骼序列,130 种动作类别,共由5 位表演者完成动作捕捉。该数据集总共包含184 046 帧视频片段,每个人捕捉了31 个关节点。与NTU RGB+D 数据集相比,该数据集的规模相对较小,实验利用该数据集说明了本文网络在相对较小训练量下的性能提升。

3.2 训练参数设置

本实验使用的硬件为Nvidia Tesla T4 GPU,操作系统为Linux Centos。以Pytorch 为基础框架,保障实验的顺利进行。

在实验中,为防止过拟合现象的发生,采用随机丢弃的机制,并将随机丢弃率Dropout 参数设置为0.5。堆叠的9 层多尺度时空图卷积层中,第4 层和第7 层的卷积步长被设置为2,以此作为池化层;
其中,1到3 层的通道数设置为64,5 到6 层的通道数设置为128,8 到9 层的通道数设置为256。同时,经反复实验对比发现,将每层的学习率设置为0.1 时,可以确保实验的最优结果。批处理量被设置为64,每个样本的最大帧数设置为300 帧,不足300 帧的片段则会反复循环直到300 帧帧数上限;
训练回合数被设置为80 轮批次。训练采用随机梯度下降法更新参数,优化模型,保证模型的收敛性。模型使用交叉熵函数作为训练损失,如下所示:

其中,x为预测值,class为真实值,该损失是凸优化函数,适合随机梯度下降法寻找最优解,能够衡量类间的细微差异。

另外,本文分析了双流网络架构的合理性。表1列出了在相同实验参数设置下(k=1,5,9;
稠密结构时间图卷积),本文算法在不同融合权重双流架构下的精度提升。与单独以关节顶点(joint-stream,jstream)和肢体骨架(bone-stream,b-stream)为输入的模型架构相比,双流架构(two-stream,2s-stream)的模型精度有明显的提升。表1 还列出了在不同融合权重下双流模型的识别精度,结果显示,当融合权重值设置为0.5 时,模型精度最高。因此,采用以关节顶点和肢体骨架为基础的双流网络架构,能够有效提升模型性能。

表1 不同融合权重下双流模型在NTU-CS 上的精度Table 1 Accuracy of 2s-stream network on NTU-CS with different fusion weights

3.3 模型参数量及收敛性分析

本文分析了设计的多尺度时空图卷积网络(SMT-GCN)在有无注意力机制嵌入下的参数量规模,如表2 所示。可以看出随着设计的多尺度卷积核尺寸和数量的增加,模型的参数量和复杂程度也随之增加;
当存在4 个尺度的时间卷积核时,无注意力机制模型参数量达到9.70 MB,嵌入注意力模块的模型参数量达到9.92 MB,是ST-GCN 的3 倍。另外,图13 为ST-GCN 与本文设计的多尺度稠密时空图卷积模型SMDT-GCN,在相同参数设置和训练设置情况下的损失收敛对比图,显示了在50 轮训练下的损失变换。从图中可以看出在相同训练轮次下,多尺度时空图卷积模型的收敛速度要比ST-GCN 更快,效果更好。

表2 参数量对比Table 2 Comparison of parameters 单位:MB

图13 损失函数收敛曲线Fig.13 Convergence curve of loss function

3.4 实验结果

本文比较了提出的多尺度时空图卷积网络与ST-GCN 在两个主流动作识别数据集上的实验结果对比,如表3 和表4 所示。

表3 NTU RGB+D 识别精度及浮点运算数Table 3 Accuracies and FLOPs on NTU RGB+D

表4 各方法在HDM05 数据集的识别精度Table 4 Accuracies of algorithms on HDM05

表3 列出了各方法在NTU RGB+D 数据集上的精度和浮点计算量。其中SMT-GCN 并未在多尺度时空图卷积网络中嵌入通道空间注意力(CBAM)模块,SAMT-GCN 在构造的多尺度时空图卷积网络中融合了通道空间注意力(CBAM)模块;
另外,表中SMPT-、SMST-、SMDT-、SMDT-p-分别表示具有并行、串行、稠密、简化稠密结构多尺度时间图卷积的时空模型。在4 种多尺度时间图卷积单元中,图卷积操作单元卷积核大小分别设置为1、5、9,经消融实验对比发现,如此设置的多尺度时间图卷积层参数可以使模型的性能最优,消融实验的结果和细节将在下节中叙述。

表4 列出了各类方法在HDM05 数据集上的识别精度。在相对较小规模的数据集上,本文算法的精度提升相对少于在大规模数据集上的精度提升,这表明该算法仍需要大规模数据作为训练基础。

从表3 和表4 可以看出,具有稠密结构的SMDT-获得了最优的实验效果,这是因为SMDT-相较于SMPT-能够获取更加丰富的高层语义信息,相较于SMST-,SMDT-获取的语义和内含信息更加全面,SMDT-有效融合了并、串行结构的优点;
SMST-虽然能够更好地对长距离依赖建模,但相较于其他结构,其时间特征仍然不够全面,因此获取的精度提升最小;
简化版的SMDT-p-虽然看似融合了并行、串行的设计思想,但实际上其结构仍可以视为强化版的串行结构时间卷积模型;
虽然第n层的输入包含前n-1层所有输出和,但经过第n层相对大尺寸卷积计算后,所捕获的依然是长距离的语义依赖,对短程信息的利用依然没有并行结构和稠密结构全面,因此简化版SMDT-p-的实验精度要低于SMDT-和SMPT-。从表2 和表3 中可以看到,不同结构的多尺度时空模型对计算复杂度FLOPs 有不同程度的增加,其中并行结构SMPT-GCN 的浮点计算量较ST-GCN 增加了23.5 GFLOPs,增加得最少;
而稠密结构的SMDTGCN 增加得最多,较ST-GCN 增加了100.7 GFLOPs,较SMPT-GCN 增加了77.2 GFLOPs。虽然SMDTGCN 的精度比SMPT-GCN 高出1 个百分点,但计算复杂度却增加了近3 倍,因此如果综合复杂度的增加和精度的提升,本文认为SMPT-GCN 的整体效果最佳。从表2 还可以看到,改进CBAM 注意力的嵌入并未显著增加复杂度,但平均增加了1.34 个百分点的精确度。

另外,本文设计的多尺度时间图卷积可以作为结构策略模块,应用于各类具有相似构架的图卷积动作识别模型中,并提升效果。为了验证多尺度时间图卷积的有效性,本文以2S-AGCN(two-steam adaptive graph convolutional neural network)[27]、AS-GCN(actionalstructural graph convolutional network)[28]模型为基础基线,进行了融合实验,在NTU RGB+D-CS 上的实验结果如表5 所示。

表5 不同基线融合MPT-GC 实验效果Table 5 Performance of MPT-GC with other baselines

可以看出,本文设计的方法以不同的基线为基础,均获得了优秀的实验效果,其中以2S-AGCN 为基线的多尺度模型将识别准确率达到90.4%,证明了多尺度时间图卷积是提升动作识别精度的有效方法。

综上所述,本文设计的多尺度时间卷积模块可以有效地提升基于骨骼信息的人体动作识别精度,同时也可以作为策略模块,迁移到其他基线中并提高性能;
改进CBAM 注意力的嵌入也提升了模型性能。另外,本文提出的模型需要以大规模训练为基础,在大规模数据集上的表现优于在小规模数据集上的表现。

3.5 消融实验

为了探究设计的多尺度时间图卷积层中,卷积核尺寸以及图卷积层结构对性能的影响,本文设计了相应的消融实验。实验对不同的卷积核大小及卷积层结构进行了比较,其中时间卷积子单元层数分别从1 层延伸至4 层,卷积核尺寸分别设置有1、5、9、13、17、21,消融实验在NTU RGB+D 数据集上进行,采用Cross Subject 分割方式训练和测试。消融实验结果如表6 所示。

表6 中SMT-GCN 表示未嵌入注意力模块的多尺度时空图卷积模型,SAMT-GCN 代表嵌入注意力模块的多尺度时空图注意卷积模型,两类模型都融合了构造的变换残差机制Tran-Res,模型一栏中字母-P-、-S-、-D-p-、-D-分别代表具有并行、串行、简化稠密和稠密时间图卷积结构的模型。从消融实验结果中可以看出,当时间图卷积子单元卷积核尺寸设置为1、5、9时,多尺度图卷积模型性能最优;
具有稠密和并行时间图卷积结构模型的实验效果优于具有其他两种时间卷积结构的模型;
注意力机制的嵌入对模型性能也有一定提升。因此,本文在与其他动作识别算法的对比过程中,均使用卷积核为1、5、9 的参数设置。

表6 消融实验结果Table 6 Results of ablation study

为了提高基于骨骼数据的人体动作识别精度,本文设计提出了多尺度时空图卷积,增强了时间特征提取;
基于Transformer 构造了变换残差机制Tran-Res,并分别融合于空间和时间图卷积中,强化了人体长距离关联依赖信息;
另外,模型还融合了通道空间注意力(CBAM)模块。多尺度时空图卷积模型既全面地提取了时间特征,又强化了人体关联信息以及关键节点和空间结构化特征,提高了基于骨骼数据的人体动作识别模型性能。在实验过程中,对不同的卷积核尺寸以及不同的多尺度时间卷积层结构进行了消融对比实验。结果表明,具有稠密和并行结构且卷积核大小为1、5、9 的时间图卷积模型性能最优;
设计的多尺度时间卷积结构可以作为策略模块融合于其他基线中,并有效提升基线性能。另外,实验结果表明,本文网络在进行大规模数据训练后的结果要好于在小规模数据集上的训练结果。多尺度时空图卷积模型提升了人体动作识别精度,但在上下文关系的利用上,仍有欠缺,对关联特征相距较远的特殊动作(如“拍手”)的识别仍有待加强。今后的工作,将在本文的基础上,从全局上下文关系的角度对算法进行改进,以进一步提升基于骨骼数据的人体动作识别精度。

猜你喜欢尺度卷积动作基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02财产的五大尺度和五重应对内蒙古民族大学学报(社会科学版)(2020年2期)2020-11-06从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20动作描写要具体小学生作文(低年级适用)(2018年3期)2018-04-17宇宙的尺度太空探索(2016年5期)2016-07-12非同一般的吃饭动作少儿科学周刊·少年版(2015年4期)2015-07-079时代英语·高三(2014年5期)2014-08-26一种基于卷积神经网络的性别识别方法电视技术(2014年19期)2014-03-11室外雕塑的尺度雕塑(2000年2期)2000-06-22

推荐访问:卷积 尺度 算法