光谱处理与分类方法综述
摘 要 當物质与辐射能相互作用时,其内部的电子、质子等粒子发生能级跃迁,对所产生的辐射能强度随波长变化作图,所得到的谱图称为光谱。而光谱分析法主要通过物质光谱作出定性、定量及结构分析。光谱技术和光谱检测技术是操作简单、快速、无污染、高效、低成本的无损检测技术。光谱也常用于物质识别领域,对物质识别的前提是对不同光谱进行分类。由于不同光谱产生的机理不同,所产生的物理现象也不同。因此,光谱分析方法的分析方法也多种多样。本文主要对比一些光谱分析中涉及的数据处理,特征提取方法及其优缺点。
关键词 光谱分析;分类方法;比较
中图分类号 O4 文献标识码 A 文章编号 2095-6363(2017)15-0122-03
当前光谱分析法在各个领域得到了广泛应用,优势比较明显,包括样品无损、前处理快速、分析效率较高、有良好的重复性及能够实现在线分析等,在工业、农业、烟草、医药和食品等方面发挥着重要作用。支持向量机具有相对较高的精度;小波变换可以实现多尺度局域分析信号,基本上不会受到续谱带来的营销,在光谱处理领域应用很多。以建立分类面形式对光谱进行分类,广义判别分析中结合了核技巧和Fisher判别分析,以非线性映射的方式把样本集映射至高位特征空间F,同时作出线性判别分析。现阶段BP神经网络被使用很多,非线性映射能力很强,可以在训练后让输入和输出两种变量具备非线性关系。在Bayes决策中, 需要估计类条件概率密度函数。
1 光谱数据的预处理
通过仪器将原始光谱采集起来,其中不仅有和样品构成相关信息,并具备其他方面因素形成的噪音信号。数据预处理过程中,一般会用到光谱数据平滑、基线校正、求导及归一化处理等方法。
为将噪声完全消除,一般会首选信号平滑方法,假设为光谱中存在噪声等于零均随机白噪声,要多测量几次求出平均值,这样能够让噪声降低,并实现信噪比提升。光谱数据的平滑处理也叫数字滤波器,其一般可用式子表示为:
通过选取不同的脉冲函数进行卷积可得到不同的光谱分辨率,因而高频率随机噪声可通过选用较窄的脉冲函数卷积而滤掉。对傅里叶变换而言,即时间域函数和频率域函数存在如下关系:
通过傅里叶变换可以加快提取信息的过程,同时可以去掉干扰信号和噪声。由于傅里叶变换具有极强的数据压缩能力,因此,在近红外光谱的分析中其也被用于特征提取[1]。
近红外分析会受到仪器背景和样品粒度等方面的影响,容易发生基线漂移、倾斜等情况,利用基线校正,能够避免出现以上情况。对此要采取谷峰点扯平、偏移扣减、微分处理及基线倾斜等方式,这里面一阶与二阶微分使用较多,不过对微分处理而言,应合理选用微分级数及数据点[2]。
2 特征提取
在一条曲线表征中,不用将该曲线上全部点均进行表示,很多时候只需要将其中部分特殊点确定下来即可。对此,在两条光谱曲线相似性判断过程中,通常比较其拐点的位置及大小的相似性就可以了[3]。对于光谱的特征提取常用的方法有:小波变换(wavelet)、覆盖算法和广义判别分析等方法等[4]。
2.1 小波变换
小波变换能够对信号进行处理,主要在传统Fourier分析基础上发展而成。傅里叶变换属于整体上进行的变换,对非平稳信号最关键的时频局域性质而言,是不能表征的。使用小波分析方法,可以将信号各尺度信息提取出来。光谱不一样,谱线类型、位置及强度也存在很大差异,对此光谱信息也可以看作是局部信息。连续谱与光谱内缓变的低频成份相对应,谱线与噪声与光谱内高频成份相对应,光谱小波系数能够将谱线与噪声信息反映出来。利用小波分解的高频分量的局部极值点将各种矿物光谱的吸收特征比较精确地提取出来[5]。
数学上离散小波变换表示一个有限长序列与一个离散小波基的内积,所有内积因子均为一个离散的小波变化值,可用以下公式进行表达:
其中是一个离散小波变换值,是一个长度为的序列。
是离散小波基,与为对应的离散小波尺度与平移参数,*为复数共轭。
它在特征提取阶段并没有使用训练数据的类别信息, 能够对信号进行多尺度局域分析,受连续谱的影响较小。分类器对噪声的敏感性就会大大降低。对存在突变非平稳函数进行处理的过程中,具备极高分辨率,可以让时域与频域分析一起进行。但是小波基的选取在实际应用中比较困难。
2.2 覆盖算法
把分类问题转化成集覆盖问题,以最少数目的覆盖集为优化目标,不用考虑特征空间是否具备线性可分性特征。利用覆盖算法,可以把分类面计算问题变成基于样本点距离的覆盖问题。因为覆盖算法具备构造性特征,不会出现收敛性与收敛速度问题,从而便于计算。
其原理如下:假设在N维特征空间中有两类训练样本:,。若存在,和一组正数,使得并且,则称,为训练样本的覆盖集,集合和为相应的支持向量集。为解决非线性和减少计算,杨金福等提出了一种结合核技巧的核覆盖算法,并用于星体的光谱识别中[6]。
2.3 广义判别分析
这种方法主要结合了核技巧和Fisher判别分析,主要利用一个非线性映射,把输入空间样本映射至高维特征空间中,同时作出线性Fisher判决分析,这样能够进行相对于输入空间的非线性判决分析。实现了非线性的判别分析特征提取,是一种面向分类的特征提取方法[7]。令Φ为输入空间到特征空间F的非线性映射,即在F空间中进行线性Fisher判决,其扩展准则函数为
这里面,;F空间内假设数据变得中心化,与是对应F 空间的类间散度矩阵与总散度矩阵。
上式里面,
求最优的WΥ等价于求解下述广义特征值和特征向量问题:F空间维数极高,同时Υ为隐式映射, 即存在如下关系:
于无法将数值准确计算出来,对此以上公式表达F空间内积形式,要将核函数引进来。不用将显示的非线性映射Φ给出来,利用输入空间内定义的内积核算数进行全面运算,即核技巧。核函数不一样,表示的非线性映射Φ也存较大差异,现阶段主要采用高斯核、多项式核及Sigmoid核。
3 分类算法
3.1 支持向量机
图1为主要思想,借助某种非线性映射,把输入向量x映射值一个高维的特征空间Z内,建立起最优分离超平面[8]。学习的目标是构造一个决策函数,将测试数据尽可能正确地分类。这里面圆形与星形点表示2类样本,H表示分类面,H1和H2与分类面平行,同时全部样本点在H1和H2外面,分类间隔为H1和H2的距离。对最优分类面而言,除了可以正确分开样本以外,同时还可以增加分类间隔。
设样本符合那么样本间分类间隙是
,让分类间隙最大等价于让最小,所以符合这个条件同时让
最小的分类面为最优分类面。支持向量机通过最大化分类间隔来控制泛化。其对线性和非线性映射都具有较好的分类能力,对于非线性映射,通过一个函数将训练集数据集,映射到一个高维线性特征空间,再构建最优分类超平面。决策函数为
。
这种方法可通过最大化分类间隔来控制泛化能力,实现了结构风险最小化。对于非线性可分样本,通过核函数实现训练样本的内积运算,解决算法可能导致的“维数灾难”[9]。高维样本和低维样本处理方式差不多,通过对核函数的引入可以完成非线性映射,并进行非线性处理。对于高光谱遥感图像进行分类时,采用径向基核函数的SVM具有较高的识别率[10]。其模型结构预先不确定,训练时按照学习对象进行确定。但是该方法计算复杂,涉及收敛性及收敛速度问题,需要求解二次规划问题。
3.2 BP神经网络
主要原理是信号特征参数运用BP网络在学习大量样本以后自动形成若干种类别。BP网络的网络学习过程包括输入信息正向传播与误差反向传播,对前者而言,输入信息会先后经历输入层、隐含层及输入层,在逐层求解以后,可以获得一个实际输出,若是该结果和期望输出存在很大差异,表明计算输出误差,并进行误差反向传播,这样可以让每个层神经元间的权值得到修正,从而最大限度减小误差。自学习为神经网络的一个重要特点,对样本模式进行自学习以后,能够将信息内在机制模拟出来,获得输入和输出的高度非线性映射。借助人工神经网络构建模型时,需要用大量数据来训练网络,网络将可以获得输入与输出的关系,适用于复杂过程,通过人工神经网络构建的数学模型,可以保证其具备较高的精确性。而在实际光谱分析中,神经网络的节点不宜过多。因此,需要对高维的光谱数据进行降维后再对神经网络输入[11]。
多元线性回归、逐步多元线性回归、主成分回归及偏最小二乘法等方法均为假设被研究体系为线性加合体系,因而都有其局限性[12]。而神经网络具有很强的非线性映射,自适应学习能力,因此其对于处理这类非线性分类有着突出的优点。对光谱数据先进行离散余玹变换压缩后,再进行神经网络建模,可以极大提高神经网络的训练速度和预测准确度。但是构造神经元网络非常复杂。神经元网络在学习速度、结构选择、特征表示、模块性、缩放性等方面出现了很多问题,容易陷入局部极小。对模型过于依赖,需要大量的训练样本。
3.3 基于最小错误率的贝叶斯决策
假设要识别的物理对象有d种特征量,称为d维特征向量。若是出现模式分类问题,为最大限度避免发生分类错误,需要采取贝叶斯公式,则获得的分类规则错误率最低,即基于最小错误率的贝叶斯决策。若是需研究分类问题存在c个类别,各类别状态通过进行表示,对应于各个类别发生验概率是,类条件概率密度函数是。给出一个观察样本x,按照贝叶斯公式有
条件概率为类别状态的后验概率。对贝叶斯公式而言,主要是通过对样本x的观察,将类别状态的先验概率转化成状态的后验概率。
該方法比较成熟,能考虑干扰、噪声等影响,识别模式基元能力强。但是对于不同的核宽,其识别率有较大变化[13]。对结构复杂的模式抽取特征困难。需要计算数据的一些统计量如偏差和方差,这往往是比较难以进行的,无法将模式结构特点表现出来,也不能对模式性质作出正确描述,从而不能在整体上对问题进行识别与考虑。
参考文献
[1]李民赞.光谱分析技术及其应用[J].北京:科学出版社,2006.
[2]张银,周孟然.近红外光谱分析技术的数据处理方法[J].红外技术,2007,29(6):345-348.
[3]王增柱,刘同怀,黄鲁.基于光谱分类的超光谱数据压缩方法[J].遥感技术与应用,2001,16(3):148-152.
[4]李乡儒,冯春明,王永俊,等.一种新的光谱特征提取方法[J].光谱学与光谱分析,2011,31(10):2856-2860.
[5]孙桂玲,张翠兰,方勇华,等.小波变换在光谱特征提取方面的应用[J].量子电子学报,2006,23(1):22-26.
[6]杨金福,许馨,吴福朝.核覆盖算法在光谱分类问题中的研究[J].光谱学与光谱分析,2007,27(3):602-605.
[7]杨国鹏,余旭初.高光谱遥感影像的广义判别分析特征提取[J].测绘科学技术学报,2007,24(2):130-132.
[8]邓巍,张录达,何雄奎.基于支持向量机的玉米苗期田间杂草光谱识别[J].光谱学与光谱分析,2009,29(7):1906-1910.
[9]谭琨,杜培军.基于支持向量机的高光谱遥感图像分类[J].红外与毫米波学报,2008,27(2):123-128.
[10]覃冬梅,胡占义,赵永恒.基于支撑矢量机的天体光谱自动分类方法[J].光谱学与光谱分析,2004,24(4):507-511.
[11]林敏,吕进.基于神经网络与近红外光谱的玉米成分检测方法[J].红外技术,2004,26(3):78-81.
[12]苏红军,盛业华.高光谱影像的改进K—均值监督式聚类分析方法[J].武汉大学学报(信息科学版),2012,37(6):640-643.
[13]刘蓉.基于Bayes决策的光谱分析[J].光谱学与光谱析,2010,30(3).
推荐访问: 光谱 综述 方法 分类