基于神经网络的半监督学习方法的研究.pdf
王明月 张德慧 魏铭
摘 要:神经网络是由大量简单的神经元按照一定连接方式形成的智能仿生网.它以非线性神经元作为处理单元,通过广泛连接构成大规模分布式并行处理系统.神经网络不需预知其训练数据中输入输出之间的函数关系,而以数据驱动的方式解决问题.由于神经网络具有强大的模式识别能力和灵活的非线性建模能力,它引起了越来越多的学者及工程技术人员的关注。
关键词:神经网络 监督学习 半监督学习
大多数情况下神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。
神经网络以其自组织性、自学习性、并行性、容错性、高度非线性、高度鲁棒性、对任意函数的任意精度逼近能力,一直是监督学习领域研究、开发和应用最为活跃的分支之一。此外,神经网络模型可以根据样本信息自适应调整自身结构,也可用于提升半监督学习方法的自适应调节能力,以降低其对先验知识的依赖程度。
1.监督学习方法
1.1监督学习概述
监督学习有两种模型。一般常用的模型是监督学习产生的全局模型,即将输入映射到期望输出。而另一种模型则是将这种映射作为一个局部模型(如案例推理及最近邻算法)。为解决一个给定的监督学习问题,可分为以下5个步骤进行:
(1)确定训练样本数据。
(2)收集训练样本数据。
(3)确定学习函数输入特征的表示方法。
(4)确定要学习的函数及其对应的学习算法所使用的学习器类型。
(5)完成设计。
1.2监督学习方法简介
1.K-最近邻算法
K-最近邻算法(K- Nearest Neighbors,KNN)是将在特征空间中最接近的训练样本进行分类的监督学习方法。K-最近邻算法最初由 Cover和Hart于1967年提出,其思路非常简单直观,易于快速实现,错误率较低。
K-最近邻算法的基本思想为:根据距离函数计算待分类样本x和每个训练样本的距离,選择与待分类样本x距离最小的K个样本作为x的K个最近邻最后根据x的K个最近邻判断x的类别。该算法没有单独的学习阶段,是一种在分类过程中实现学习的监督学习方法。
2.遗传算法
遗传算法( Genetic Algorithm,GA)10]起源于20世纪60年代美国密歇根大学 Holland教授对自然和人工自适应系统的研究, Bagley发明“遗传算法”一词并发表了第一篇有关遗传算法应用的论文。遗传算法的基本思想为:模拟达尔文生物进化论的自然选择和 Mendel遗传学机理的生物进化过程,将解空间中每一个点都编码为二进制位串,称为染色体,并对应一个适应度值,适应度值按概率决定个体性质遗传到下一代中的机会,在每一代中使用选择交叉和变异等作用机制获得新的种群,若干代后,种群中包含的个体具有更高的适应度,直到满足某种收敛指标为止。
3.贝叶斯算法
自20世纪90年代以来,贝叶斯算法一直是机器学习研究的重要方向之一。贝叶斯算法提供了一种概率手段,可用于确定给定数据下最可能的假设。贝叶斯算法的基本思想为:假设待考察的样本遵循某种概率分布,基于这些先验和数据观测假定进行推理,获得观测数据的后验概率,以此作出最优决策。贝叶斯算法能够方便地处理不完全数据,能够学习变量间的因果关系,同时贝十斯网络与贝叶斯统计相结合,能够充分利用领域知识和样本数据的信息。
2.半监督学习方法
2.1半监督学习概述
半监督学习的思想起源于自训练(Self- training)方法,自训练算法又被称为自学习(Self- teaching)算法或 Bootstrapping方法,是目前在半监督学习中普遍使用的一种方法。在自训练方法中,首先用少量的有标记数据训练出个初始的分类器,然后用该分类器对无标记数据进行预测。之后将置信度较高的无标记样本连同预测出的类别标记一同加入到原来的训练集中。再用新的训练集重新训练这个分类器,如此循环下去,直到达到终止条件。
2.2半监督学习方法简介
1.生成式模型半监督学习方法
生成式模型是最早的半监督学习方法之一。该方法完全基于数据的概率分布进行建模,其基本思想是对于给定样本特征的完全数据概率建模,通常以生成式模型为分类器,将未标记样本属于各类别的概率看作缺失参数,然后利用最大似然算法对标记和模型参数进行估计。常用于半监督学习的生成式模型有高斯混合模型、多项式混合模型、 Markoⅴ隐式模型等。此类方法也可以看成是以少量已知标记的样本为中心进行聚类,因而属于基于聚类假设的方法。
2.协同训练半监督学习方法
协同训练(Co-tra1nng)是另外一种流行的半监督学习方法。协同训练隐含地利用聚类假设或流形假设。通常使用两个或多个分类器,在学习过程中,这些分类器挑选若干个置信度高的未标记样本进行相互标记,从而使得模型得以更新。协同训练已运用到文本分类、英语基本名词及短语识别、情感分类、共指消解等研究上,而且取得了不错的效果,甚至超过了传统的有监督学习方法。协同训练方法最大的优点是不用人工干涉,即可从未标注的数据中自动学习到知识。
3.基于图的半监督学习方法
基于图的半监督学习方法直接或间接地利用流形假设,在学习过程中首先基于训练样本的特定相似度度量建立图,图中各节点对应(有标记或是未标记)样本,节点间的连接表示样本间的相似度,之后定义模型的优化目标函数,并根据图的平滑性,添加相应的正则化项得到决策函数,通过最小化决策函数计算模型参数的最优值。
3.基于神经网络的监督和半监督学习
人工神经网络( Artificial Neural Networks,ANN),简称为神经网络NN),是由大量的信息处理单元(也称神经元)相互连接的复杂网络,用来模拟人脑神经系统的功能和结构,它是一种简化的人脑数学模型。人工神经网络研究开始于20世纪40年代对与神经网络有关的神经科学的研究。人工神经网络具有的非线性适应性信息处理能力,克服了传统人工智能方法对于直觉,如模式识别、语音识别、非结构化信息处理方面的缺陷,使其在专家系统、模式识别、智能控制、组合优化、预测等许多领域得到了广泛的应用。
几种常见的神经网络模型:
(1)径向基函数神经网络
1985年, Powell提出了径向基函数( Radial basis funct1On,RBF),简单来说,径向基函数是一个取值仅仅和到原点间距离有关的实值函数,它的提出用于解决多变量差值问题,同时RBF理论为多层前向网络的学习提供了一种新的方法。1988年, Broomhaed和Lowe首先将径向基函数应用于神经网络設计,构成了径向基函数神经网络。径向基函数神经网络不仅具有良好的推广能力,而且避免了像BP算法那样繁琐的计算,使学习能得以快速地实现,近几年被广泛地应用研究以解决各种问题。
(2)支持向量机
支持向量机( Support vector Machines,SVM)是一种通用的广义前馈神经网络。支持向量机是有限样本条件下解决机器学习问题的通用方法,既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题,其核心思想就是学习机器要与有限的训练样本相适应。支持向量机是机器学习领域若干标准技术的集大成者,涉及最大间隔超平面、凸二次规划、稀疏解、 Mercer核以及松弛变量等多项技术,在若干具有挑战性的应用中获得了良好的性能,是一个令人瞩目的发展方向。
(3)自适应神经网络
自适应神经网络是一种基于自适应谐振理论( Adaptive ResonanceTheory,ART)的特殊神经网络。多数神经网络采用分布式的知识表达形式,即单个神经元或单个连接权的具体意义都无法给出清晰的解释,这使得多数神经网络都成为“黑箱”模型,模型通过训练获得的知识隐含在大量的神经元阈值和连接权值中。而自适应神经网络则在网络结构解释性方面有突出的优势。
总结:随着智能时代的到来,经过近半个世纪的发展, 神经网络理论在模式识别、自动控制、信号处理、辅助决策、人工智能等众多研究领域取得了广泛的成功, 相信随着神经网络的进一步发展, 其将在工程应用中发挥越来越大的作用。
参考文献:
[1]韩敏. 基于神经网络的监督与半监督学习方法与遥感图像智能翻译. 中国水利水电出版社. 2015
[2]刑红杰. 前馈神经网络及其应用. 科学出版社. 2013