粒度支持向量机(granular support vector machine,GSVM)引入粒计算的方式对原始数据集进行粒度划分以提高支持向量机(support vector machine,SVM)的学习效率。传统GSVM采用静态粒划分机制,即通过提取划分后数据簇中的代表信息进行模型训练,有效地提升了SVM的学习效率,但由于GSVM对信息无差别的粒度划分导致对距离超平面较近的强信息粒提取不足,距离超平面较远的弱信息粒被过多保留,影响了SVM的学习性能。针对这一问题,本文提出了采用划分融合双向控制的粒度支持向量机方法(division-fusion support vec-tor machine,DFSVM)。该方法通过动态数据划分融合的方式,选取超平面附近的强信息粒进行深层次的划分,同时将距离超平面较远的弱信息粒进行选择性融合,以动态地保持训练样本规模的稳定性。通过实验表明,采用划分融合的方法能够在保证模型训练精度的条件下显著提升SVM的学习效率。
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.
流数据作为大数据的重要形式广泛存在于实际问题中,由于流数据中数据分布变化产生概念漂移,容易导致模型的泛化性能下降,且在实际应用问题中,数据标记成本较高,难以获得强监督的信息.针对以上问题,本文提出一种基于在线深度神经网络的弱监督概念漂移检测(Weakly supervised conceptual drift detection method based on online deep neural network,WSCDD)方法.该方法设计了一种在线深度神经网络模型,采用Hedge反向传播方法在线学习网络深度,并通过设计Dropout层在模型预测时引入随机性,利用蒙特卡罗方法量化深度神经网络模型的预测不确定性,通过自适应滑动窗口技术检测弱监督环境下概念漂移的发生,并使模型适应新的概念.实验结果表明,该方法可以准确检测数据流中概念漂移的发生,在漂移发生后能够快速收敛到新的数据分布,提高了学习模型的泛化性能.
针对目前符号数据的分类性能较低,通过挖掘属性值与标签之间可能存在的空间结构关系,提出了一种基于空间相关性分析的符号数据分类方法。该方法首先采用独热编码的方式对符号数据进行特征扩容,然后基于互信息和条件熵信息度量方法,定义了一种符号数据空间关系表示方法。在此基础上,分别结合支持向量机(support vector machine,SVM)和K-最近邻(K-nearest neighbor,KNN)模型分类器,提出了基于空间相关性分析的SVM分类算法(SVM classification algorithm based on space correlation analysis,SCA_SVM)和基于空间相关性分析的KNN分类算法(KNN classification algorithm based on space correlation analysis,SCA_KNN)两种分类算法。该方法既能够体现出属性值与标签之间的关联关系,也可以有效地度量不同属性值之间的距离或差异性。在标准UCI数据集上的实验结果表明,该方法在分类性能上更加有效。
在实际应用问题中,由于客观世界物质的多样性、模糊性和复杂性,经常会遇到大量未知样本类别信息的数据挖掘问题,而传统方法往往都依赖于已知样本类别信息才能对数据进行有效挖掘,对于未知模式类别信息的多类数据目前还没有有效的处理方法.针对未知类别信息的多类样本挖掘问题,提出了一种基于主动学习的模式类别挖掘模型(pattern class mining model based on active learning,PM_AL)来解决未知类别信息的模式类别挖掘问题.该模型通过衡量已得到的模式类别与未标记样本间的关系,引入样本差异度的方法来抽取最有价值样本,通过主动学习方式以较小的标记代价快速挖掘无标记样本所蕴含的可能模式类别,从而有助于将无类别标记的多分类问题转化成有类别标记的多分类问题.实验结果表明,PM_AL算法能够以较小的标记代价处理无类别信息的模式类别挖掘问题.