摘 要: 针对传统的SMOTE方法在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE方法,使合成的人工样例只出现在少数类样例的最近三角区域内部,并且删除掉距离多数类更近的合成样例,从而使生成的样例更接近少数类,且不突破原始的类别边界。实验分别在人工数据集和改进的UCI数据集上进行,并和原始的SMOTE方法分别在G-mean和F-value的评价指标上进行了对比,实验结果验证了改进的SMOTE方法在类别区域有重合的数据集上要优于原始SMOTE方法。
关键词: 不平衡数据;过采样方法;分类;最近邻规则
0引言
由于在现实生活中存在着大量不平衡数据现象,例如信用卡欺诈检测[1]、医疗疾病诊断[2]、网络的入侵检测[3]等等,即我们关注和研究的数据在整体数据中占少数,于是针对不平衡数据的分类研究成为研究热点。传统的研究方法主要集中在3个方面:重采样技术、代价敏感学习和集成学习。针对传统的分类方法偏向多数类,导致少数类分类效果差的问题,重采样技术主要解决提高类别平衡比,进而提高少数类分类性能的目的。重采样技术又分为欠采样和过采样两种,其中欠采样技术即挑选出和少数类样例个数相同的多数类样例组成新的数据集对分类方法进行训练;而过采样技术即删除部分多数类样例使样例个数与少数类达到平衡。经典的欠采样方法包括:随机欠采样、Tomek links方法[4]、NCL方法[5];过采样方法包括随机过采样、SMOTE方法[6]、Borderline-SMOTE方法[7];还有将欠采样和过采样结合的SMOTE+Tomek方法[8]。
作者:刘丹