基于改进YOLOV5算法的学生课堂行为识别研究

|

杨明远,左 栋

(华北水利水电大学数学与统计学院 河南 郑州 450046)

在智慧教育相关的课题研究中,学生课堂行为识别问题一直是研究的重点内容。随着计算机存储和计算技术的发展,人工智能融入教育领域,为学生课堂行为量化分析提供了可能。疫情以来,线上课堂已成为教学中不可或缺的一部分,如何在线上课堂掌握学生的学习状况,为教师提供客观的课堂情况是亟待解决的问题。因此,将深度学习引入教学活动,了解学生的上课状态,对教学改革具有积极意义[1-2]。在针对学生行为识别的研究中,对于学生相似动作难以区分识别的情况,张鑫褆[3]基于人体2D骨架提出多维融合的LSTM网络,在克服梯度弥散的条件下,提高了对相似动作的识别率;
周叶[4]在经典的实例分割算法Faster R-CNN的基础上,利用特征金字塔解决不同尺度学生课堂行为检测的同时,将视频中上一帧的检测结果作为当前帧的目标候选框,实现了比较准确的学生身份关联;
柯斌等[5]用Inception V3网络对学生行为进行识别,但模型忽视了手机,笔和课本等重要信息的特征,使得看书,低头玩手机行为容易混淆;
Abdallah等[6]对数据集进行数据增强,通过深度迁移学习的方法,在学生课堂表情识别中取得79.4%的准确率;
Lin等[7]使用OpenPose框架收集骨骼数据,提出一种基于姿态估计和人物检测技术的误差校正方案,以减少骨架数据中的错误连接,构建表示人体姿势的特征向量。采用关节位置、关节距离和骨角度等特征对学生行为分类。上述方法虽然对学生行为进行识别,但模型识别准确率不高、鲁棒性较差、有效特征的提取不足。本文在YOLOV5模型的基础上改进,加入CA注意力模块从空间和通道两个维度提升网络的特征提取能力,提高特征提取的有效性,增加模型的鲁棒性,在保证模型实时检测的情况下,实现了对学生课堂抬头听课、玩手机、睡觉等七种行为识别率的提高。

1.1 YOLOV5目标检测模型

YOLOV5是Ultralytics公司2020年5月发布的目标检测网络模型。YOLOV5输入端有自适应缩放,Mosaic数据增强,目的是为了增加数据的多样性,使模型的泛化性能更好。Backbone有Focus、CSP、SPP等网络模块,主要目的是提取特征图。Neck部分是特征融合阶段,采用FPN+PAN(特征金字塔和路径聚合网络)网络。Prediction部分使用三个大小不同的候选框分别预测小、中、大物体。其网络结构如下图所示:

图1 YOLOV5网络结构图

1.2 注意力机制

注意力机制最早是自然语言处理中为了使模型更注重语言中的关键词提出的,后来被应用在计算机视觉中,简单来说,注意力机制就是模仿人类在观察这个世界,接受视觉信息时的处理方式。当阅读一篇论文时,一般会把注意力放在眼睛看到的这句话上,而周围的其他信息会被过滤掉,注意力机制就是源于这种思想。在特征提时,给有用的信息更高的权重,无用的信息对应更小的权重。

1.3 坐标注意力机制(coordinate attention,CA)

CA使用信息嵌入和注意力生成的方式[8],不仅提取到不同特征图的重要性,还获取到特征图上的位置信息。CA注意力模块如图所示:

信息嵌入阶段:

为了使注意力模块能够获得具有精确的位置信息和通道信息,CA对全局池化进行分解,转化为两个一维特征编码操作:给定输入X,先使用大小为(h,1)和(1,w)的池化单元沿水平方向和垂直方向对每个通道进行编码。高度为h的第c通道的输出可以表示为:

同样,沿垂直方向宽度为w的第c通道的输出可以表示为:

编码后得到沿两个方向聚合特征的一对方向感知的特征图,这种特征编码可以获得沿着一个空间方向的通道信息,并保存沿着另一个空间方向的位置信息,这有助于网络更准确地获取感兴趣的目标。

注意力生成阶段:

注意力生成主要利用捕获到的位置信息和通道信息,使感兴趣的区域被准确地捕获。根据图2所示,信息嵌入后的特征图先进行concatenate操作,然后进入卷积变换得:

图2 CA注意力机制模块

然后沿着空间维数将x分解为两个单独的张量xh和xw,再利用两个卷积变换将他们变为具有相同通道数的张量得:

最后,CA注意力机制模块的输出为:

2.1 网络结构选择

YOLOV5有四种网络结构,结构的框架是一样的,网络宽度和深度越来越大,模型的检测准确率不断增加,但检测速度在不断下降。本文研究的主要目的是在保证模型检测速度的情况下,提高模型的鲁棒性,因此选择了YOLOV5s,在此基础上加入注意力机制模块。改进后的网络结构如图所示:

图3 YOLOV5s+CA网络结构

2.2 数据集获取及标注

本文的数据来源于真实的课堂场景,在课堂上拍摄真实的学生课堂视频数据,将数据转换为图片格式后,把学生行为动态分为抬头听课,低头,玩手机,记笔记,举手,睡觉,交头接耳等七类,然后对图片进行标注,标注后的数据输出为YOLO格式。把数据按4:1的比例划分为训练集和测试集。

2.3 模型参数

2.3.1 学习率调整相关参数

表1 学习率调整相关参数

模型采用不同的策略来学习不同的权重,对网络的权重参数使用权重衰减来优化,偏置和BN层的权重用基于梯度的移动加权平均(SGD + Momentum)优化,这种方法可以解决SGD优化算法更新摆动幅度大的问题,同时可以使网络的收敛速度加快。学习率的更新使用预热和余弦退火算法,当损失函数值较大时,以较大的学习率来训练模型;
损失函数值接近全局最优损失值时,余弦退火算法会给一个较小的学习率来接近全局最优。

2.3.2 损失函数相关参数

如表2所示,设置预测框损失、分类和回归损失的比例,分类和回归的正样本权重都设置为1,同时聚焦损失函数,增加对难负样本的训练。

表2 损失函数相关参数

2.3.3 算法训练

在RTX3060的显卡下,配置完成YOLOV5s模型的环境,在模型的backbone中加入CA注意力机制,根据硬件配置及数据集特点,设置训练参数:迭代次数300次,输入图片大小为640×640,batch-size为8,聚焦损失函数,标签平滑正则化设置为0.1。

从表3看出,加入CA注意力机制后的模型识别效果最好,与YOLOV5s相比提升了2%的mAP。这是源于CA不仅关注浅层和深层的特征图之间信息重要性的不同,还关注了同一特征图上不同位置的信息重要性的不同。这种方式会使模型训练时更加注重特征信息的不同。加入CA注意力模块后模型训练结果如下:

表3 改进后模型与YOLOV5s对比

从图4可以看出,随着训练次数的增多,模型很快收敛,训练集和测试集上的损失函数基本减小到10-2以下,准确率达到了90%以上,mAP0.5最高达到0.91,与YOLOV5s相比,加入CA注意力机制后的模型mAP0.5提升了2%左右。

图4 YOLOV5+CA注意力机制模型的训练结果

本文的模型在YOLOV5s的基础上加入CA注意力模块,通过实验对比CA注意力机制对本文的学生课堂行为识别的效果最好,与原模型相比提升了2%左右的mAP。CA注意力机制效果最好的主要原因是因为,CA不仅考虑通道的信息同时也考虑空间的信息,并认为两者是同样重要的。模型在满足识别准确率的前提下,同时满足对学生课堂行为识别实时性的要求,该算法的识别速度达到142/s,这完全满足实时性的要求,可在学生课堂行为识别系统中应用,实现对学生课堂听课水平,专注度的智能化处理,对获取疫情下线上课堂学生学习状态,为老师提供客观的课堂数据提供有力支持。对大力发展人工智能尤其是深度学习与教育评价领域的融合发展具有重要意义。

猜你喜欢 注意力机制特征 根据方程特征选解法中学生数理化·中考版(2022年9期)2022-10-25让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09不忠诚的四个特征当代陕西(2019年10期)2019-06-03自制力是一种很好的筛选机制文苑(2018年21期)2018-11-09抓住特征巧观察数学小灵通·3-4年级(2017年9期)2017-10-13“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21破除旧机制要分步推进中国卫生(2015年9期)2015-11-10注重机制的相互配合中国卫生(2014年3期)2014-11-12打基础 抓机制 显成效中国火炬(2014年4期)2014-07-24

推荐访问:算法 识别 课堂