基于中红外光声光谱的纸质文献破损定级的研究

2022-05-01 11:20:02 | 浏览次数:

zoޛ)j馞N#]5t7'-znu};]r'^^byuh~z工作,把文献保护作为图书馆的重要工作内容之一。为了加强文献保护工作,国家图书馆曾成立专门的图书保护组,发文颁布《国家图书馆文献保护条例》,并成立“国家古籍保护中心”规范和指导文献的保护工作。当时,针对古籍特藏文献的老化破损程度,《古籍特藏破损定级标准》[1]将文献的破损级别分为五级,但对于普通文献尤其是保存本文献的老化破损程度没有明确的界定标准。而目前国家图书馆馆藏民国文献的破损率已经达到90%以上,而1949年以后的文献也陆续开始出现发黄等破损现象,依据现有的文献破损定级方法已经很难满足馆内大量的文献保存情况调查工作。本文采用傅里叶变换中红外光声光谱法,希望通过红外光声光谱技术检测破损文献的光谱特征,结合纸张本身的物理化学性质,能够定性甚至定量文献的破损程度,以期建立基于红外光谱技术的文献破损定级方法,达到快速检测文献破损程度的目的。

1 纸张样本与定级标准

供试纸张为新闻纸,采集自国家图书馆期刊保存本库房及私人藏书,共39个样本。样本的统计特征见表1,分为五个破损级别。其中一级破损纸张均来自民国文献。目前,国家图书馆馆藏的民国文献,尤其是期刊报纸类文献依然在流通之列。然而,民国文献的纸张已经老化破损,脆弱不堪,在多次甚至一次借阅后就会出现散裂的情况。这也是本研究开展的初衷。在实践中,对于所采集的样本进行实时监控,或者说对文献的物质组成进行实时监控,以观察其破损过程中各物质反应。

《古籍特藏破损定级标准》 根据文献纸张的破损程度判断其破损级别,分为五个破损级别,其中一级破损为最高级别破损,二级、三级、四级、五级破损程度依次递减。定级方法依据文献的损害特性,包括酸化、老化和虫蛀鼠啮等,酸化老化属于渐进型损害,较为隐蔽不易发现,虫蛀鼠啮属于静止型损害,损害特征明显且多为局部损坏。具体定级标准参见《古籍特藏破损定级标准》。其中各级标准的并列条件较多,分别含有两到八条不等,包含有定级人员一定的主观判断,不够客观直接。在真正对库房文献进行定级的过程中会花费较多的时间,且其定级标准是在文献已经呈现了破损现象以后进行的,是后知后觉的定级方法,无法检测到文献的破损进程。

本文利用傅里叶变换中红外光声光谱扫描得到所有样本的光谱数据。光声光谱是基于光声效应的光谱研究方法[2],具有操作方便、分析快速、样品用量少、样品不受破坏等特点。中红外光谱位于4000~400cm-1(2500~25 000nm),是基频振动吸收区(为研究方便中红外区一般用波数作单位,即1cm所包含的整波的数量)。由于基频振动是红外活性振动中吸收最强的振动,更有利于红外光谱的定性和定量分析[3]。

所用仪器为傅里叶变换红外光声光谱仪Nicolet 380(Thermo Fisher Scientific,美国),DTG检测器,光声池采用PA300(MTEC,美国),动镜速率为0.3165 cm/s,扫描分辨率为4cm-1,扫描次数32。纸张样品放入圆柱形不锈钢样品池(直径10mm,高5mm),每半个小时以碳黑做一次背景,扫描范围为中红外区4000~400cm-1。光谱预处理采用Matlab R2009a进行平滑去噪及标准化处理。

2 数据分析方法

本文主要利用主成分分析(Principal Components Analysis,PCA)和概率神经网络(Probabilistic Neural Network,PNN)做研究。

首先,利用PCA简化光谱数据,并提取光谱主要信息。PCA是一种多元统计分析技术[4]。它通过变换原始数据的特征空间,从而生成维数更低且新生成的各变量之间相互独立的特征空间。原始变量与新生成的变量之间为线性相关关系。新变量因其所携带信息量的不同,从大到小称为第一主成分、第二主成分、第三主成分……,样本的信息主要集中在前几个主成分中,越往后其所携带的信息就越少,可以忽略不计。利用主成分分析既可以保证所选用信息的可靠性,同时也可以起到降维的作用。其次,利用前几个主成分做聚类分析,观察其分类效果,运用PNN建立模型,分别预测每一个样本的破损级别,并统计结果。PNN是一种常用于模式分类的神经网络[5],拥有强大的非线性分类能力。PNN需要调节的参数少,训练过程简单,收敛速度快,不易产生局部最优;且稳定性较高,可以容忍个别错误样本,分类正确率较高。无论分类问题多么复杂,只要有足够多的训练数据,PNN可以保证获得贝叶斯准则下的最优解。

3 结果与分析

3.1 纸张的红外光声光谱特征

纸张的老化破损本质上是其物质组成的理化性质发生改变所导致的。纸张的主要成分为纤维素、半纤维素、木质素,其中纤维素含量最高。在外界和内部环境的共同作用下[6],纤维素、半纤维素发生水解、氧化,内部分子键断裂,聚合度下降,导致纸张的各项理化性能下降,发生老化。纸张的主要组成物质纤维素、半纤维素、木质素,是不以原料的变化而改变的,只是三者的相对含量会有所不同。而纸张的老化破损,与这三者的含量有一定的关系。纤维素含量越高,纸张性能越好。纤维素的性质较稳定,而半纤维素的性质较不稳定,易导致纸张的老化。木质素则是纸张中的有害物质,会加速纸张的老化损。

图1是不同破损级别纸张的红外光声光谱图,纸张破损程度不同其吸收峰的大小位置有所偏差。其中,3400cm-1处的吸收主要是由纤维素分子中O-H的伸缩振动产生,2900cm-1处的吸收主要由C-H的伸缩振动产生,1650~1700cm-1处的吸收由木质素分子中C=O的伸缩振动产生[7],1090cm-1处的吸收由C-O伸缩振动产生[8]。从图中可以看出,一级破损纸张在3400cm-1范围的吸收明显高过其他破损级别的纸张,纸张老化是纤维素分子解体的过程,而水解是纤维素老化的主要过程[9], 纤维素通过水解反应生成的多糖或葡萄糖含有更多的O-H键,由此 3400cm-1处吸收峰可作为纸张老化的标志之一。一级破损纸张在1678cm-1的吸收明显高于其他破损级别纸张,说明民国文献的木质素含量较高,纸张易发生老化破损。其他各处的吸收多有变化,这是由于纸张在制造过程中的原料不同所致。

3.2 主成分分析

利用主成分分析对所测光谱进行数据简化,按携带信息量从大到小分为第一主成分,第二主成分,依次类推。表2为主成分分析后各主成分所携带信息及累计携带信息情况。从表2中可以看出,前十个主成分携带信息累计达到94%,几乎携带了光谱的全部信息,其中,前三个主成分携带信息量分别为44.8%, 16.4%,10.3%,占所有光谱信息的70%以上。

对前三个主成分与中红外光谱区做相关性分析,相关性越高表明该主成分携带的光谱信息越多。图2是前三个主成分和中红外区的相关性图。从图中可以看出,第一主成分与3400cm-1、2900cm-1、1700cm-1、1000cm-1的吸收呈明显的相关关系,而纸张的主要组成物质(纤维素)也在这几处有吸收[8]。

利用前三个主成分作散点图(图3),图中每个样本点旁边对应标记该样本的破损级别。从图中可以看出,不同破损级别的纸张样本呈现出一定的聚类特点,以一级破损的聚类最为明显,三级、四级、五级样本均呈现出一定的聚类性。大部分样本都集中在相同破损级别的范围之内,少量样本游离在相同破损级别外,这是由于纸张在制造过程(包括其原料、工艺等)中产生的差异及其储存环境的不同所致。

3.3 概率神经网络分析

采用MATLAB自带的概率神经网络工具箱,所用函数为newpnn(P,T, SPREAD)。以前十个主成分为输入层,以五级破损级别为输出层,建立神经网络。其中,分别选择0.1、50、70、100、200的扩展系数作比较,其中0.1为默认扩展系数。合理选择扩展系数是非常重要的,其值应该足够大,使径向基神经元能够对输入向量所覆盖的区间都产生响应,但也不要求大到所有的径向基神经元都产生响应,只要部分径向基神经元能够对输入向量所覆盖的区间产生响应就足够了。随机抽取一个样本作为测试样本,利用剩余样本建立神经网络模型,用测试样本验证模型准确性,直到每个样本都被测试过一次,统计模型预测的准确率。预测结果如表3。

从模型预测结果可以看出,随着扩展系数的变大,模型的预测准确率逐渐增加,从41%增加到62%。继续增大扩展系数,模型的预测准确率不再变化,表明该模型的预测准确率最高为62%。该结果表明大多数样本的破损级别可以被很好地预测出来。

4 结语

通过本次试验发现,纸张本身有比较明显的红外光声光谱吸收特征,其中在3400cm-1、2900cm-1、1700cm-1、1000cm-1的吸收最强。纸张破损程度与红外光谱3400cm-1、3700cm-1、1500cm-1、1200cm-1、1000cm-1波段的吸收最为相关。利用主成分分析的前三个主成分作散点图,不同破损级别的纸张有明显的聚类特点。

利用概率神经网络建立模型,预测准确率的最优结果达到62%,表明模型的建立较好,能够准确分类大多数纸张样本的破损级别。没有达到更高的预测准确率的原因可能在于纸张破损定级方法在定级过程中由于人的主观意识导致分类误差;供试样本的数量较小,涵盖的各种纸张的破损情况不够全面;传统的纸张破损定级方法中的五个破损级别与纸张红外光谱之间的相关性不够好。

后续实验将增加样本的多样性和样本量,以优化模型的建立。利用傅里叶变换红外光声光谱对纸张的几个主要成分(如纤维素、半纤维素、木质素)做定量分析,关联纸张破损程度与纸张物质组成之间的相关关系,通过监测纸张的物质组成变化,达到对纸张老化破损的实时监测。

参考文献:

中华人民共和国文化部.古籍特藏破损定级标准:WH/T 22-2006[S].北京:北京出版社,2007.

MCCARTY G W, REEVES J B, REEVES V B, et al. Mid-infrared and Near-infrared diffuse reflectance spectroscopy for soil carbon measurement[J]. Soil Science Society of America Journal, 2002,66(2):640-646.

MCCARTY G W, REEVES J B. Comparison of near infrared and mid infrared diffuse reflectance spectroscopy for field-scale measurement of soil fertility parameters[J]. Soil Science,2006,171(2):94-102.

許禄,邵学广.化学计量学方法[M].2版.北京:科学出版社, 2004:130.

苏亮,宋绪丁.基于Matlab的概率神经网络的实现及应用[J].计算机与现代化, 2011(11):47-50.

侯刚健,赵军.浅析纸张的老化因素与高校图书馆应采取的措施[J].科技情报开发与经济2010,20(12):50-51.

郭京波,陶宗娅,罗学刚.竹木质素的红外光谱与X射线光电子能谱分析[J].化学学报,2005,63(16):1536-1540.

熊磊,于东伟.酸处理后纤维素分子结构的显微红外光谱分析[J].纤维素科学与技术,2013,21(2): 59-62.

张志清.文献纸张的自然老化及其研究[J].档案学研究,1998(2):60-61.

推荐访问: 红外光 定级 声光 纸质 破损