本文将改进后的决策树作为Adaboost算法的基分类器,并结合文中提出的混合采样方法,提出了基于边界信息采样的改进Adaboost算法。最终在各不平衡数据集上实验,分析实验结果,探究所提算法的效果及不足。
第一章绪论
第二节国内外研究现状
一、不平衡数据分类的研究现状
近年来,对于不平衡数据分类的研究主要分为数据预处理、特征选择以及分类算法三个层面的研究[10]。在数据预处理方面主要是针对正类样本数据量过少的原因,通过改变训练集数据样本的分布,降低或消除正负类样本间的不平衡性;在特征选择方面,挑选能够较好区分正负类样本的特征,以提高正类样本的识别率;在分类算法方面,通过对传统分类算法进行改进和优化,使正类样本得到更加充分地训练,从而提高分类算法的精准度。
(一)数据预处理层面
对不平衡数据集进行数据预处理主要是通过数据采样技术来实现,包括过采样、欠采样以及混合采样。
随机过采样是过采样方法中最简单的一种,即从少数类样本中随机抽取一部分加以复制,由于是直接进行复制,所以增多的样本所包含的信息和原有的样本是完全一样的,这就会造成数据的冗余,从而导致过拟合现象出现。Chawla等[11]提出了SMOTE算法,它可以有效地改善模型过拟合,新样本的产生是由少数类样本及其近邻的样本来完成的,它可以提高样本的多样性,进而减轻模型过拟合的问题。Han等[12]提出了Borderline-SMOTE算法,他们认为位于边界附近的少数类样本被错误分类的几率更大,所以可以通过找到类别边界附近的少数类样本点,并使用SMOTE算法合成新样本,从而达到增强少数类样本边界信息的目的,与SMOTE算法相比,这种算法可以有效地提高对少数类样本的分类精度。He等[13]提出了ADASYN算法,能够按照数据集的分布情况,给每个少数类样本分配一个不同的权值,这样就可以根据权值自动地决定每个少数类样本需要合成多少个新的样本,以上过采样方法都是基于K近邻的过采样方法。对于过采样方法的研究,还有学者提出了基于半监督学习[14]、深度神经网络[15]、进化算法[16-17]等方法的过采样方法。
第三章基于边界信息融合聚类的混合采样方法
第一节提出动机与基本思想
采样技术是不平衡数据集进行数据预处理的常用技术,包括欠采样技术和过采样技术。只使用单一的采样技术虽然可以通过现有的采样算法在不平衡数据集中生成新的少数类样本或对部分多数类样本进行剔除,但当数据集的不平衡率较高时,只使用过采样方法会造成少数类样本生成冗余,从而引起模型过拟合;同时,只使用欠采样方法会造成多数类样本信息丢失严重,原始数据样本分布发生变化的问题。因此,本文选择在混合采样的基础上对不平衡数据集进行预处理。
根据上述提到的在不平衡数据集的预处理上只使用单一的采样方法会出现的问题,本文提出了基于边界信息融合聚类的混合采样方法,重点关注处于边界上的不同类别样本,在保证数据集的原始边界分布未发生较大变化的情况下,剔除余下负类样本中的冗余部分。针对负类样本,首先保留满足边界点概念的负类样本,然后使用聚类方法对余下的负类样本欠采样;针对正类样本,只关注容易被错误分类的边界点,将其所携带的重要类别区分信息使用过采样技术予以放大,实现减小数据集不平衡比的目的。
第五章基于边界信息采样的改进Adaboost算法
第一节Adaboost算法
AdaBoost集成学习算法基于Boosting集合思想,将分类器有机串联结合在一起,经过调整样本权值和基分类器权值,可以有效地识别出分类错误的样本,并加强对这些样本的学习,进而提升模型的类别准确度。算法的详细步骤包括:
通过改善基分类器之间的相关性,以及提高基分类器的分类预测精度,可以显著提升Adaboost算法的整体分类预测准确率,从而达到更优异的分类结果。为了提升Adaboost算法的分类准确性,本文提出了一种新的融合强化学习累计奖励机制的属性选择法,它可以有效地替代传统CART决策树中的属性选择方法,从而大大提升了CART决策树在非平衡数据集上的分类能力,进而使Adaboost算法的整体分类精度得到显著改善。
第二节基于边界信息采样的改进Adaboost算法
根据不平衡数据集的特点,在对其进行预测分类时本文提出了一种基于边界信息的改进Adaboost算法。首先使用本文第三章提出的基于边界信息融合聚类的混合采样算法对不平衡数据集进行预处理得到一个较为平衡的数据集。然后将第四章提出的融合强化学习机制的改进决策树作为Adaboost算法的基分类器,从而构建基于边界信息采样的改进Adaboost算法,其在训练集上的训练流程如图5.1所示:
第六章总结与展望
本文旨在深入探讨当前不平衡数据集分类研究的背景和意义,并对其有关技术做出了详细介绍,着重放在了数据集预处理、特征选取以及分类器算法的优化上。随着当前数据集不平衡率的不断提升,本文提出了一种基于边界信息融合聚类的混合采样方法来处理不平衡数据集,以期降低不平衡率,并且选用Adaboost算法作为分类器,对预处理后的数据集进行实验验证。然后以CART决策树算法为基础,提出了一种融合强化学习机制的属性选择法,用于改善单决策树在不平衡数据集中的分类性能。为了进一步提升分类效果,本文将改进后的决策树作为Adaboost算法的基分类器,并结合文中提出的混合采样方法,提出了基于边界信息采样的改进Adaboost算法。最终在各不平衡数据集上实验,分析实验结果,探究所提算法的效果及不足。
虽然本文在数据集预处理和分类器模型两方面开展了研究,获得了初步的成果,但仍有许多地方需要进一步完善和补充。对于本文提出的基于边界信息融合聚类的混合采样方法,并不是针对所有不平衡数据集都能有明显的分类效果提升,在不平衡性较高的数据集上仍存在使用欠采样后导致多数类样本信息丢失的问题,因此后续可以针对不同的数据集设置不同的欠采样比例来进行实验,使数据集通过预处理后的分类效果更好;对于改进的融合强化学习奖励机制的决策树分裂属性选择标准,本文只是将用于度量不平衡数据的分类指标进行平方平均,每个指标的权重是均等的,并没有对指标间的权重问题进行深入探究,后续可以研究不同指标的加权问题,给出量化描述。
参考文献(略)
(本文摘自网络)