基于非线性降维IC特征的实车电池SOH估计

|

陈吉清,李子涵,兰凤崇,蒋心平,潘威,陈继开

(1.华南理工大学机械与汽车工程学院,广州 510640;
2.华南理工大学,广东省汽车工程重点实验室,广州 510640)

汽车动力电池的健康状态(SOH)估计作为电池管理系统(BMS)最重要的功能之一[1],直接影响车辆行驶与安全。电池状态估计方法大致分为两类:基于模型的方法和数据驱动方法。基于模型的方法分为电化学模型[2]和等效电路模型[3]。等效电路模型应用简便但其鲁棒性和精确度随老化下降较快[4-5];
电化学模型的估计精度显著提升,但模型较为复杂[6]。

数据驱动方法将电池视作一个“黑箱”,不考虑电池内部变化,在没有先验模型的前提下,根据电池充放电过程中的电流、电压、温度等外部数据,对电池健康状态进行估计[7]。数据驱动方法分为两步:构建特征和选取模型。Shen 等[8]选用多个充电片段中固定时间间隔的电压、电流、容量矩阵做输入,验证了不同尺寸的输入特征对估计精确度的影响;
选择合适的模型对特征进行训练及估计,Hu 等[9]基于k 最近邻回归建立非线性核回归模型,应用粒子群优化寻找模型最优权重组合,实现准确预测电池状态,Tian 等[10]用卷积神经网络(CNN)通过部分充电曲线预测整段充电曲线,并借迁移学习提高神经网络方法在数据量较少时的适应性,实现模型在小样本数据集上的准确估计。

值得关注的是,与基于实验室数据的SOH 估计不同,基于实车行驶数据的SOH 估计研究并不成熟[11]。一方面,实车运行数据难以构建和实验室数据相同且有效的健康特征。实车的放电过程受驾驶员驾驶风格影响,很难捕捉电压和电流变化规律;
充电工况多为多段恒流充电,具有一定的稳定性和变化规律,但实际充电过程很少有满充满放的充电片段,导致部分特征无法应用。Ding 等[12]使用无监督学习方法实现相关输入参数的多层特征融合,自动学习数据的高层相关性,提高实车运行工况数据的利用程度。胡杰等[13]利用非支配排序遗传算法对实车充电曲线进行精度与效率的多目标优化,将估计电池容量的最佳电压区间作为健康因子,降低了实车充电数据区间不完整的影响。

另外,实车复杂运行工况引起的较大噪声,以及电池健康衰退趋势的强非线性,要求估计模型既能够解决非线性问题,又可以提高泛化性能,避免过拟合。李梦飞等[14]选用有较强非线性处理能力的BP神经网络模型对SOH 估计,可以较好地适应实车数据的非线性和复杂性;
肖迁等[15]建立LightGBM 模型,利用弱分类器迭代训练得到最优模型,解决噪声引起的过拟合问题,实现有效估计。

针对实车数据难以提取有效特征的问题,使用增量容量分析,从部分充电片段中提取出有效表征电池健康状态衰减的IC 曲线峰作为特征,再基于t-SNE 算法对多维特征进行非线性降维,降低特征信息冗余,提升特征估计质量;
针对实车运行工况数据的噪声大以及电池健康衰退趋势的非线性,采用支持向量回归(SVR)方法对高维非线性特征数据实现较为精确的电池健康状态估计。

对实车SOH 估计构造总体框架如图1 所示,主要分为数据预处理、特征提取和估计模型训练3 个部分。在本节对使用的各算法进行理论推导,包括对实车数据使用增量容量分析提取特征;
使用t-SNE 算法对增量容量分析特征进行非线性降维,优化特征;
训练和优化支持向量回归(SVR)模型,对实车SOH进行准确估计。

图1 方法整体框架

1.1 增量容量分析(ICA)

基于充电曲线提取特征大多需要电池的完整充放电片段,但在对数据分析时,发现使用的实车数据很少有满充满放片段,多数充电片段只能够覆盖充电曲线的中部,SOC 值变化多集中在30%-70%区间。充电过程中,电压上升趋势在曲线中部减缓,电池内部达到相对平衡状态,此区间称为电平台,电池在电平台区间充入大量电量,如何基于此阶段提取特征是实现实车SOH 估计的重点。此区间曲线变化趋势较小,而充电电流不稳定,不易直接使用充电曲线特征。使用增量容量分析不完整不稳定的充电曲线中提取IC 峰特征,有效表征电池健康状态。充电曲线电平台与增量容量曲线波峰的对应关系如图2所示。

图2 充电曲线与IC对照

增量容量分析(ICA)是对充电曲线数据微分,充电容量对充电电压求导:

式中:Qi为时刻i对应电量;
Ui为对应电压。将平缓曲线区间转换为dQ/dU-U曲线上明显的峰值点,可以更直观地反映充电片段数据和电池健康状态衰退的关系,对SOH进行估计。

增量容量分析是一种基于数学手段的特征提取方法,将外部直接可测的电压、电流数据转化为IC曲线的峰位置和峰高度等加工特征,而峰特征的变化则对应电池内部的活性材料损失和电池内阻增加的化学反应[16]。该方法灵活性很高,不局限于特定的电池或实验室测试环境;
另外较窄SOC 范围内数据即可提取有效特征信息,在复杂的实车运行工况下,也能表征电池健康状态。

1.2 t-SNE非线性降维

一般而言,输入模型的特征维数越多,越能够涵盖更多电池健康状态的信息,状态估计越精确。但部分特征包含信息较少,另外特征参数之间可能存在的高度相关性会造成信息冗余。不仅会导致估计时长增加,甚至会出现模型过拟合的情况。需要对特征信息降维,即在保留原有特征重要信息的前提下,降低特征空间的维数。实车运行数据的复杂性和不确定性会造成特征的高度非线性,使得常用的线性降维方法无法充分获取高维特征蕴含的信息。

传统的线性降维方法(如PCA、LDA等),默认先进行投影变换,寻找一个使其目标最大化的低维空间,即目标空间必定是高维空间线性变换的子空间;
基于t-分布的随机近邻嵌入算法(t-SNE)是一种非线性降维方法,非线性降维相比线性降维能够有效地将特征数据投影到低维空间并保证严格的分割界面。算法思想是将高维数据直接映射到低维空间,用低维数据反映原数据的本质结构特征,而尽量保持数据间的空间距离不变,即保持特征在高位空间分布与低维空间分布特性一致[17-18]。

t-SNE 算法使用条件概率的形式来表示高维特征数据之间的相似性,并假设高维空间样本数据点服从高斯分布,低维空间样本点则服从t样本。对给定高维空间的数据x1,x2,…,xn,有pj|i表示数据点xi为中心时,xj是其近邻点的概率,σi为高斯分布的标准差,采用的高斯分布公式如下:

对映射在低维空间的点y1,y2,…,yn,计算在低维空间中的概率qj|i:

采用相对熵(KLD)来衡量两个分布之间的相似性,为保证两个分布相似,令KL代价函数最小化,对代价函数进行梯度下降,公式如下:

对低维数据y1,y2,…,yn进行梯度更新:

随机近邻嵌入(SNE)倾向于保留局部特征,即在高维距离较近的点在低维时会聚在一起,因此降维后会出现“拥挤问题”。t-SNE 算法使用对称SNE简化了梯度公式,并在低维空间使用t分布代替高斯分布,使得数据在低维空间,同类数据的距离减少,不同类间的距离增大,解决了降维的“拥挤问题”,实现了高维数据的有效降维。t 分布的概率密度函数形式如下:

式中:Γ为伽马函数;
ν为自由度,其值越小越平坦。

1.3 支持向量回归(SVR)

实车数据的IC 峰特征有小样本、长时间窗口的特点,支持向量回归(SVR)算法非常适用于解决有限样本的非线性问题。

支持向量机(SVM)是基于统计学习理论,依据VC维框架和结构风险最小化原理,通过寻找平衡模型复杂度和学习能力的最优条件,进而建立模型并得到最优结果的分类算法[19]。SVM依靠核函数将非线性样本数据转换到高维空间,在高维空间实现线性可分,求取最优平面确保样本点距离平面距离达到最远,实现对非线性数据的最优分类。

支持向量回归(SVR)是SVM在回归拟合上的推广算法,在SVM 分类算法的基础上引入了ε不敏感损失函数,SVR 是寻找一个最优平面使得所有训练样本距离平面的误差距离最小,实现非线性样本的回归拟合。

S={(x)1,y1,…,(x)n,yn∣xi∈Rn,yi∈R} 为样本数据集(xi是输入的特征向量,yi是输出目标值),回归函数为

式中:w为权重;
b为偏差;
Φ(x)为非线性映射函数;
K(xj,x1)为核函数,使得低维空间的非线性函数映射到高维空间后具有线性性质。针对数据数量大小适中,特征维数较小的数据集一般选用如下高斯核函数:

式中σ为高斯径向基函数核函数宽度参数。σ值越小学习能力越差,σ越大回归预测效果就越好,但容易过拟合,反而降低对新样本的预测能力,由于参数σ可以调节,使得高斯核函数具有很高的灵活性。

定义ε为线性不敏感损失函数,SVR 将样本点距离小于ε的损失定为0,公式如下:

式中:y是对应的真实值;
f(x)是通过样本集训练构造出的回归估计函数,使得预测值和目标值之间距离小于ε。引入松弛变量ξi、,求解w和b公式为

式中:C为惩罚因子,值越大表示对于误差距离大于ε的样本惩罚越大,会影响拟合效果;
ε代表了核的方差,值越小表示函数的预测值误差越小。

支持向量回归算法的精度主要取决于模型参数,可以使用遗传算法实现自适应寻找最优模型参数组合,用均方误差(MSE)作为适应度函数来描述个体优劣,用均方根误差表示回归方程的性能,在全局范围内对SVR 模型参数不敏感损失函数ε、惩罚常数C和核函数宽度σ进行优化。保证模型获得最优的回归性能,最大化模型的预测精度。

使用10 辆纯电动运营车辆一年的电池数据,车辆动力电池为额定容量180 A·h(1/3C 放电,25 ℃)的三元锂离子电池组。通过车载数据记录仪采集电池组日常数据,包括车辆速度、行驶里程、温度等26项数据。采样周期为10 s,获取数据总计约千万条,样本数量可以确保数据具有一定的代表性和广泛性[13]。

2.1 数据预处理

由于外界工况条件多变和传感器存在误差,实车采集数据存在缺失、噪声大的问题。另外,与实验室数据不同,实车无法获取电池SOH 的准确标签值。因此,如何对数据预处理是实车SOH 估计的难点。本节对实车原始数据进行预处理工作,预处理流程如图3 所示,保证数据的准确性、完整性和连续性;
提取合适的健康状态的标签,得到可靠的高质量数据集。

图3 数据处理流程

首先对原始数据初步筛选指标,只保留与本研究相关字段信息,如表1所示。

表1 数据分类与说明

数据清洗是提升数据质量的重要步骤,包括对数据进行缺失值填充和异常值处理。实车数据中,数值型信息缺失表现为 “NAN”空值,数值信息和SOH 联系紧密且缺失值占比较小,可以用缺失值前后数据的平均值进行填充,完善数据。文字型数据存在“无法获取”的空值,可直接使用上下数据进行填补;
基于3δ原则检测存在少量异常值,可以使用平均值进行修正,保证数据完整且连续。

得到完整连续的实车数据后,基于时间维度和车辆状态对数据进行划分,得到所需的有效充电片段,流程如图4所示。

图4 片段划分流程

实车运行放电过程受外界工况影响变化很大,电流电压等数据不稳定,不适用于实车数据的特征提取。对充电循环统计分析,得知实车的充电片段起点多集中于20%-40%区间,结束多在70%-90%区间,充电片段的区间范围与区间长度满足进行增量容量分析的需求。对车辆数据进行充电片段提取,车辆的完整连续数据量和提取的有效充电片段数量如表2所示。

表2 车辆数据量

提取出有效充电片段后,可以基于片段容量重新进行车辆SOH 的标定,以解决实车数据集存在电池SOH 指标不精确的问题,为后续模型训练提供精确标签。SOH即当前电池的额定容量与初始额定容量的比值:

式中:Ccur为电池当前额定容量;
Crated为初始额定容量。电池初始额定容量Crated已知,需要计算电池当前额定容量Ccur。一段时间内,SOC 的变化量可以表示为

式中ΔC是使用安时积分法计算的电池变化容量。综合式(11)和式(12)推导电池当前额定容量:

联合式(11)和式(13)计算充电片段SOH值,对所有充电片段绘制SOH-时间散点图,观察电池健康状态随时间的变化,图5 所示以车辆1 为例,图中的红色圆形散点代表依据单个片段充入容量计算所得的SOH 值。图中数据散点整体呈线性分布,电池健康状态随时间变化线性下降,从100%下降到93%,符合电池容量的一般衰减趋势。另外从图中可以看出原始数据分散性较强:车辆充电过程中外部温度影响和传感器故障等,使电池的健康状态值在同一时间段内并不稳定。因此,还需要对电池的数据标签进一步修正,对标定SOH 值进行回归降噪,去除不符合电池下降趋势的数据点,保证数据接近真实衰退状态,保证后续数据训练结果的准确性[14],图中黑色正方形散点为修正后的SOH标定值。

图5 电池健康状态衰退趋势

图6 红色曲线为上述方法提取出的一段较完整的充电片段曲线,横轴为充电容量,纵轴是充电电压。片段整体趋势明显,在充电初期,电压上升较快;
在曲线中部减缓,电池在这部分上升缓慢的电平台区间充入大部分电量。但显然原始充电曲线局部呈阶梯状,无法对其有效求导,做增量容量分析。这是因为实车数据的采样周期为10 s,间隔较大,造成了数据不连贯,需要对充电片段数据进行平滑拟合处理。曲线平滑的效果受平滑方法的选择和平滑窗口大小的影响,图中黑色曲线是使用高斯滤波对原始充电曲线做出修正后的数据[20],数据平滑效果良好,并且基本保留了原始充电数据蕴含的变化趋势信息[21]。

图6 充电曲线片段

2.2 提取IC曲线峰特征

获得平滑连续的充电曲线后,就可以对其做增量容量分析(IC),提取IC 曲线峰特征。以车辆1 为例,其增量容量曲线与峰特征随循环次数的变化趋势如图7 所示。IC 曲线上有两个明显的峰,对应充电过程中电池内部相平衡的两个电压平台。在不同循环次数下的增量容量曲线,IC峰呈明显变化趋势。

图7 IC曲线峰特征

随着循环次数的增加,曲线两个波峰的峰值降低,表明电池内部锂离子随循环次数的增加而不断减少,活性材料减少,参与电池化学反应的化学物质不足,反应速率变慢;
另外,随着循环次数的增加,增量容量曲线的I峰稍微向右偏移,即电池的第1个电压平台在升高,而II 峰明显左移,电池的第2 个电压平台降低,两个电压平台之间的距离减少,锂离子电池内部的极化现象严重,极化内阻增大,导致电池内阻变大;
而且电池曲线的峰面积不断变小,说明电池的可充入容量在不断降低,电池容量减少,电池健康状态衰退明显。

选用IC 曲线上可以有效提取的I峰高度、位置、面积、右斜率以及II峰高度、位置、面积、左斜率作为8 个初步特征,多个特征变化明显,充分包含电池健康状态衰退信息。曲线峰高度以及峰位置变化表征电池内部的相变过程,峰下所包含的面积代表电池在这一充电平台过程中充入的容量,峰斜率能够表示锂离子电池内部液相和固相化学反应的相变速率。

2.3 特征非线性降维效果

对多维IC 特征数据进行降维处理,首先使用传统的线性降维算法PCA、基于核函数的降维算法KPCA 对IC 特征降维分析,计算线性降维算法的解释方差累计贡献率如图8 所示,一般而言,保留累计贡献率在95%以上的前k个主成分基本可以保证不丢失信息。

图8 累计贡献率

总体而言,对原始数据可以降维到二至三维数据,仍可以保证90%以上的贡献率。分别使用线性降维算法PCA、KPCA 和非线性降维算法多维标度法(MDS)、基于t 分布随机近邻嵌入法(t-SNE)对原始IC特征数据降维到二维和三维。图9所示为降维的可视化效果,图中散点表示降维后的特征数据分布。

在图9中,每个坐标轴都表示特征数据降维后的一个成分,需要注意的是降维后的数据无量纲,某一维不再表征具体的含义,对比可得出:线性降维算法PCA 无论降维到二维还是三维,数据都比较拥挤,不能保持原始特征数据的结构;
高斯核KPCA降维算法使得数据间距改变了两到三个数量级,使相对紧凑的原始数据变得发散,数据结构也有较大改变;
非线性降维MDS 算法将数据降维至二维或三维,效果都优于线性降维算法,但数据依旧较密集,结构的变化较大;
t-SNE 算法能够在低维依然保持数据间距大小合适,紧凑而不密集,在低维保持原始特征的数据结构,改善降维算法的拥挤问题。

图9 降维可视化效果对比

线性降维算法PCA、KPCA 只能保证数据降维后的累计贡献率,而数据的原始结构被严重破坏;
非线性降维算法在不损失数据信息的基础上,保证降维后的低维数据保持原始数据结构,其中t-SNE 在低维空间(二维或三维)能更好地表示高维数据的内部结构,优化IC 特征数据,更好地保留原始数据的信息,提升后续电池健康状态预测模型的输入特征质量。

为定量验证不同降维变换后的特征数据的效果,使用支持向量回归模型对SOH 估计验证,均方误差(MSE)、平均绝对误差(MAE)衡量估计精度,数值越小估计越准确;
同时使用决定系数R2评估模型估计的拟合程度,取值范围为[0,1],越接近数值1说明模型拟合效果越好,输入特征数据质量越高。计算公式如下:

式中:为模型预测值;
yi表示真实值;
表示样本均值。

为对比不同降维方法对估计精度的影响,使用支持向量回归(SVR)算法分别对未降维、PCA 降维、MDS 降维和t-SNE 降维后的IC 特征数据估计电池SOH 状态。抽取车辆使用过程中充电循环次数前70%的数据作为SVR 模型的训练集,剩余30%作为测试集评价估计效果,结果如图10所示。

图10 降维特征估计值对比

不降维的原始IC 特征信息完整,在训练集估计效果较好,但在测试集中由于信息冗余,导致估计结果严重偏离真实值;
而PCA 线性降维数据由于降维破坏了原有数据结构,损失了数据部分信息,模型估计效果甚至差于原始特征数据;
非线性降维算法MDS 和t-SNE 估计效果较好,其中t-SNE 降维特征估计结果最接近真实值的分布。

表3 为几种降维特征数据对应的模型估计的具体结果。由表可见,相比于原始特征数据的平均绝对误差(MAE)值1.377%,PCA 降维未能提升估计误差,而非线性降维算法MDS 和t-SNE 都较好地提升了估计精度,其中t-SNE 估计精度最高。图11 为测试集的估计误差。由图11 可以清晰地看出,t-SNE非线性降维特征对应的SVR 模型估计精度最高,其最大误差不超过2.5%,平均绝对误差1.109%,均方误差1.932%,决定系数0.796。结果表明使用t-SNE 非线性降维后的IC 特征数据可以有效提升电池SOH 估计的准确性,另外降维方法的使用能够缩短一定的估计用时,在保证估计精度的同时,提升了估计效率。

表3 数据分类与说明

图11 测试集估计误差对比

针对实车行驶工况数据的问题,提出一种基于非线性降维处理IC 特征的状态估计方法,可以实现对车辆动力电池健康状态的有效估计。采用实车数据充电片段,通过对原始充电曲线的平滑降噪处理,提取出IC峰值和峰值对应位置等8个特征。为解决多维特征的冗余性,将非线性降维方法应用于IC 特征的降维,得到三维特征子空间用于表征电池健康状态的变化。验证了IC 方法可以作为实车运行数据的特征,有效表征电池的健康状态。

结合SVR 算法构建电池SOH 估计模型,验证方法的估计性能。结果表明SVR 模型能够实现较为精确的SOH 估计,验证了SVR 可以解决实车数据存在的小样本和强非线性问题;
其中使用t-SNE 降维后特征数据的方法估计精度最高,平均绝对误差为1.109%,相对于未降维特征降低了0.268%,比PCA和MDS 降维特征分别降低了0.273%和0.043%,同时,降维特征方法的计算效率有一定提高。t-SNE降维特征在改善数据冗余的基础上,更好地保留了原始数据信息,降低计算用时。提出的方法能有效地处理复杂的实车数据,实现计算效率和估计精度的平衡。

猜你喜欢维空间实车降维实车碰撞试验牵引系统钢丝绳疲劳损伤问题分析汽车实用技术(2022年19期)2022-10-19混动成为降维打击的实力 东风风神皓极车主之友(2022年4期)2022-08-27基于手机蓝牙的奥迪A4L发动机故障设置系统设计内燃机与配件(2021年11期)2021-09-10基于WiFi的奥迪A4L发动机故障设置系统内燃机与配件(2020年20期)2020-09-10Update on Fengyun Meteorological Satellite Program and Development*空间科学学报(2020年5期)2020-04-16降维打击海峡姐妹(2019年12期)2020-01-14从零维到十维的空间之旅大众科学(2016年11期)2016-11-30一种改进的稀疏保持投影算法在高光谱数据降维中的应用火控雷达技术(2016年1期)2016-02-06十维空间的来访者科学启蒙(2015年9期)2015-09-25轻型车油耗和排放的建模及参量分析汽车文摘(2014年7期)2014-12-13

推荐访问:特征 估计 电池