平衡域自适应宽度学习模型
摘要
关键词
域自适应学习;宽度学习;最大均值差异;平衡因子;条件概率分布;边缘概率分布
正文
1引言
分类[1]是机器学习领域常见的问题之一,例如图像分类,故障诊断,脑电分类等。解决分类问题的关键是建立一个性能良好的分类模型来获得待分类数据的类别标签。传统机器学习分类模型要求训练样本和测试样本符合同样的概率分布,且需要大量的有标记训练样本。但在一些典型应用中,获得质量良好的标记样本是费时且昂贵的,而获得大量的无标记样本是较为容易的,因此期望通过利用存在大量标记样本的相似域知识来训练分类模型,从而解决无标记样本的分类问题。但这使得训练样本和测试样本的概率分布不同,而域自适应学习是解决训练样本和测试样本概率分布不一致问题的有效手段。
分布自适应方法是解决域自适应问题的热点方法[2]。该方法主要通过最小化的域间条件分布差异或边缘分布差异来实现。最大均值差异(MMD)是衡量域间分布差异的常用工具。其本质是通过变换函数来最小化域间的分布距离,从而获得域间的相似特征。与其他度量工具,如散度法和Bregman散度相比,MMD无需复杂的密度估计过程,具有度量准确、高效的优点。文献利用MMD计算了两域数据在希尔伯特空间中的最短边缘分布距离。研究者在希尔伯特空间中利用MMD缩小了两域数据的条件分布距离。一些学者通过将域间分布距离最小化度量与分类模型相结合来提升模型的跨域分类能力。研究者将MMD作为惩罚项与极限学习机(ELM)的目标函数相结合,提升ELM解决无监督域适应问题的能力。文献同时最小化支持向量机正则化项和MMD惩罚项,拓宽了其的应用范围。文献将MMD融入深度网络AlexNet中,并用于解决无监督域适应问题。但深度网络算法在解决域适应问题时常需要极其耗时的训练过程。
宽度学习系统(BLS)[3]是一种新兴的扁平型神经网络,能够为解决分类问题提供新思路。该网络的设计思路源于随机向量函数链接网络(RVFLNN)。BLS不仅继承了RVFLNN计算速度快,泛化能力强的优点,而且增加了映射层,使其非常适合处理复杂数据,并具有通用的逼近能力。BLS结构精巧,仅由特征节点层、增强节点层和输出系数组成。特征节点层和增强节点层通过一系列映射函数挖掘数据中的有效特征,这能够保证系统的泛化能力。输出系数能够直接将特征节点层和增强节点层与输出矩阵相连接。输出系数采用仅需迭代一次的伪逆算法快速求解,保证了BLS的学习效率。研究者从理论上详细论证了BLS的通用逼近性能。同时,宽度网络也被广泛应用于故障诊断,模糊分类,图像处理和信号识别等众多领域来解决分类问题。实践表明,与卷积神经网络,极限学习机等神经网络相比,BLS具有较好的应用性能。但在上述应用中,BLS要求训练数据和测试数据服从相同的分布,以及要求标记样本参与训练过程,因此缺乏解决域自适应问题的能力。
在大部分情况下,两域数据间的两种分布差异既不会单独存在,也不会均衡存在。为更好地解决域自适应问题,本文基于具有通用逼近性、灵活重构性及较强鲁棒性的宽度学习网络,利用MMD度量域间数据的条件概率分布和边缘概率整体分布差异,建立一种新的平衡域自适应宽度学习模型。此外,利用流形正则化框架构建目标域拉普拉斯矩阵来进一步挖掘目标域的潜在信息,使源域知识更易被迁移至目标域。为了评估BDABLS的有效性,在典型图像数据集上进行了验证与对比实验。
本文的主要贡献如下:1)利用特征节点和增强节点将源域数据和目标域数据变换到BLS的特征空间,以提取两域数据的有效信息;2)在特征空间中通过最大均值差异来度量域间的两种分布差异,接着引入平衡因子来适配域间的两种分布差异的重要程度,从而最小化域间的整体分布差异;再使用流形正则化框架进一步探索目标域数据的流形特征;3)通过岭回归算法快速求解BDABLS的目标函数,获得目标输出系数。4)在不同的图像数据集上进行了验证和比较实验。
2.平衡域自适应BLS模型的理论推导
2.1符号描述
在领域适应问题中,数据来自于源域
和目标域
。有标签的源域
含有数据集
,无标签的目标域
含有数据集
,其中
和
分别是源域数据和目标域数据的数目。
,
,
,
表示特征空间,
表示类别空间。
和
分别表示源域数据和目标域数据的边缘概率分布,
和
分别表示源域数据和目标域数据的条件概率分布。由于源域数据集和目标域数据不同,它们可能具有不同的边缘或条件分布,即
或
。
2.2理论推导
本文在利用特征节点和增强节点将源域数据和目标域数据共同变换到BLS的特征空间,提取两域数据的有效信息的基础上,引入平衡因子来自适应适配域间的条件概率分布和边缘概率分布差异,从而最小化域间的整体分布差异,再使用流形正则化框架进一步探索目标域数据的流形特征,提升模型对目标域的适应能力,提出了一种称为平衡域自适应宽度学习系统(BDABLS)的方法。BDABLS的既定目标函数为:
| (1) |
利用约束函数对BDABLS的目标函数进行转换:
| (2) |
式(2)中,
是
的对角矩阵,其前
个对角元素为
,其余对角元素为0,
是训练的目标,它的前
行等于
,其余为0,
,
表示由目标域数据构成的拉普拉斯矩阵,
表示元素全为0且为
的矩阵。
将式(2)中关于
的梯度设置为0:
| (3) |
由式(3)求解可得BDABLS的输出系数:
(4) |
式(4)中,
为增强节点和特征节点数的总和,
是维度为
的单位矩阵。
3.实验
3.1数据集
本文采用了5种广泛使用的基准数据集来验证BDABLS模型的性能。5种数据集分别是USPS[4],MNIST。数据集的情况如下所示。
USPS和MNIST是两个不同的灰度手写数字数据集,拥有公用10个数字类别,0-9。本文从USPS和MNIST数据集中分别抽取1800和2000张图像数据,并通过编码灰度像素值的方式将所有图像均匀的大小缩放到
。USPS数据集有1800个样本数目,特征维数为256,类别为10,其包含1个子集。MINIST数据集有2000个样本数目,特征维数为256,类别为10,其包含1个子集。
3.2比较方法
本文将BLS,DDC和BDABLS进行比较,以验证其有效性。实验采用网格搜索法在相同的参数空间中实现了各自方法的较优参数设置,并记录相应的结果。
(1)BLS:实验仅采用源域数据训练BLS模型,目标域样本测试训练完成的BLS模型。BLS的正则化参数
选取经验值。
(2)DDC:是深度迁移学习方法。通过在AlexNet网络输出层前加入MMD层来缩小分布差异,从而构建DDC网络。实验采用源域数据和无标签目标域数据共同训练DDC网络。DDC网络的权重衰减参数,正则化参数都是从[
…
,
]中采用网格搜索法选取,
(3)BDABLS:实验采用源域数据和目标域数据共同训练BDABLS,再利用目标域测试样本测试BDABLS模型。BDABLS的四个参数都是从[
…
,
]中选取的。
3.3 MNIST和USPS数据集
针对经典的MNIST和USPS数据集,根据经验:BLS的正则化参数设为
,节点数为100-2000。DDC网络的权重衰减参数为
,正则化参数为
。BDABLS的正则化参数设为
,惩罚因子为
和
。所有的实验都是在相同的电脑上采用MATLAB2020上运行代码获得的结果,还将训练精度进行10次后去取平均值,以确保结果的稳定性和合理性。并且,对于训练时间,实验进行10次后去取平均值,以确保结果的稳定性和合理性。
在相同的数据集下比较了不同
值对BDABLS精度的影响。
的取值范围为[0,1]。为了更合理且清晰的发现不同参数对实际结果的影响,我们还将取值范围细化,取[0,1]区间的1/10的值,以此来更细致的探讨不同概率分布对实验结果的影响,当取值趋近于0时,说明数据受条件概率分布的影响较大,当取值趋近于1时,说明数据受边缘概率分布的影响较大,当取值为0.5时,说明其结果受条件概率分布和边缘概率分布的影响一样大。
在M→U任务上,γ为0时,BDABLS的精度为68.87%,γ为0.1时,BDABLS的精度为79.80%,γ为0.2时,BDABLS的精度为80.01%,γ为0.3时,BDABLS的精度为80.03%,γ为0.4时,BDABLS的精度为80.05%,γ为0.5时,BDABLS的精度为80.07%,γ为0.6时,BDABLS的精度为80.12%,γ为0.7时,BDABLS的精度为80.23%,γ为0.8时,BDABLS的精度为80.77%,γ为0.9时,BDABLS的精度为81.12%,γ为1时,BDABLS的精度为81.11%。在U→M任务上,γ为0时,BDABLS的精度为50.01%,γ为0.1时,BDABLS的精度为58.23%,γ为0.2时,BDABLS的精度为59.44%,γ为0.3时,BDABLS的精度为60.02%,γ为0.4时,BDABLS的精度为60.11%,γ为0.5时,BDABLS的精度为60.24%,γ为0.6时,BDABLS的精度为60.30%,γ为0.7时,BDABLS的精度为60.42%,γ为0.8时,BDABLS的精度为60.33%,γ为0.9时,BDABLS的精度为60.30%,γ为1时,BDABLS的精度为59.28%。
在M→U中,当
值为1时,BDABLS的分类精度最高。当
值为0时,BDABLS的分类精度最低。在U→M中,随着
值的增加,BDABLS的分类精度呈现先增加后平缓的趋势。综合分类结果,在M和U组成的迁移环境中,条件概率分布的重要性高于边缘概率分布。当两域之间边缘分布相似度较高,而条件分布差异性大时,BDABLS的跨域分类性能主要受条件分布差异影响。因此,BDABLS的最优
趋近于1(M→U)。因此,在该迁移环境下,实验将BDABLS的
值选取为0.8。
在相同的数据下比较了BLS,DDC和BDABLS的性能。实验选取了平均测试精度和平均训练时间两方面进行比较。此外,还将训练精度进行10次后去取平均值,以确保结果的稳定性和合理性。并且,对于训练时间,实验进行10次后去取平均值,以确保结果的稳定性和合理性。
在M→U任务上,BLS的精度为25.34%,DCC的精度为77.53%,BDABLS的精度为80.77%。在U→M上,BLS的精度为20.25%,DCC的精度为61.45%,BDABLS的精度为60.33%。在平均值上,BLS的精度为22.79%,DCC的精度为69.49%,BDABLS的精度为70.55%。在M→U任务上,BLS的时间为0.69秒,DCC的时间为655.23秒,BDABLS的时间为25.01秒。在U→M上,BLS的时间为0.58秒,DCC的时间为647.95秒,BDABLS时间为24.89秒。在平均值上,BLS的时间为0.64秒,DCC的时间为651.59秒,BDABLS的时间为24.95秒。
根据结果可知,在M→U中,BDABLS的跨域分类精度最高,达到了80.77%。BLS的跨域分类精度最低,仅为25.34%。在U→M中,DDC的分类精度为61.45%,这要优于BDABLS的60.33%。但BDABLS的分类时间为647.95s,这要比BDABLS多623.06s。从整体分析,BDABLS的平均分类精度为70.55%,这要优于其他几种跨域分类模型。BDABLS的平均分类时间为24.95s,高于BLS。结果说明合理调节两域间的边缘分布差异和条件分布差异是非常重要的。由于DDC继承了深度学习结构复杂,调参过程繁琐,训练时间长的特点,所以,DDC和CD-CDBN在分类过程中表现出效率低的现象。结果表明,BDABLS对MNIST和USPS组成的迁移任务具有较好的分类精度和效率。
4.结论
本文提出了平衡域适应宽度学习系统(BDABLS)来解决域自适应问题,提升了模型跨领域应用性能。首先,利用特征节点和增强节点将源域数据和目标域数据变换到BLS的特征空间,以提取两域数据的有效信息;然后,在特征空间中通过最大均值差异来度量域间的两种分布差异,接着引入平衡因子来适配域间的两种分布差异的重要程度,从而最小化域间的整体分布差异;再使用流形正则化框架进一步探索目标域数据的流形特征;最后通过岭回归算法快速求解BDABLS的目标函数,获得目标输出系数。实验结果表明,BDABLS能够更好地平衡域间的分布差异,实现跨域分类,具有更好的分类精度和效率。与BLS、DDC和DABLS模型的实验结果相比,BDABLS具有较优的分类效率和较优的分类能力。
基金项目:天津市教育科学研究院院级青年课题:借助多模态特征评估青少年心理健康研究;编号:TJJKY2025-QN-48
作者简介:郑建杰(1997-01)男,汉族,浙江衢州人,研究实习员,博士研究生学历,研究方向:图像分类
...
