最大熵在中医智能辨证的研究及其应用

2022-03-09 08:37:24 | 浏览次数:

摘 要: 分析了中医临床记录中症状与症候类别之间的关系,将机器学习中的最大熵原理应用于中医辨症中,建立相应的分类模型,从而观察类别预测的正确性,为中医智能诊断提供初筛和决策支持。同时,将基于最大熵的分类器和基于朴素贝叶斯的分类器进行比较,结果显示,基于最大熵的分类效果胜过朴素贝叶斯分类。这表明将最大熵原理以及算法应用在中医诊断是可行的。

关键词: 中医临床记录; 最大熵; TCM; 中医辨证

中图分类号:TP311.1 文献标志码:A 文章编号:1006-8228(2015)03-50-04

Abstract: The relationship between clinical medicine symptoms and symptoms categories of records are analyzed. The principle of maximum entropy in machine learning is applied to the TCM syndrome. The corresponding classification model is established to observe the category and forecast category correctness. Intelligent diagnosis for TCM is provided to support the screening and decision support. Compared with the simple Bayesian classifier, the experimental results show that the maximum entropy classification is more effective than Naive Bayes. This suggests that the maximum entropy principle and the algorithm are feasible in the classification of traditional Chinese medicine.

Key words: the doctor of traditional Chinese medicine clinical record; maximum entropy; TCM; syndrome differentiation

0 引言

随着信息化和科技化的发展,实现中医现代化这一进程刻不容缓,中医诊断智能化是实现中医现代化的重要部分,而在中医诊断智能化中,必须解决的核心问题和关键技术就在于中医智能辨证[1-2]。中医辨证是需要经历由症状等信息,诊断出病,再考虑用药这一过程,该过程有非线性、模糊性和复杂性等特点,由此产生的数据有不规范化性和模糊性等特征,如果单纯的由人工对这庞大数据进行分类分析,就难以保证对全部中医相关信息的综合考量。

数据挖掘本身就是通过分析数据,从海量数据中挖掘出潜在的客观规律或隐藏的有用信息,这一特点使其能够成为能从中医海量数据中挖掘相关信息的主要技术之一,基于此,我们将研究如何使用数据挖掘技术来实现中医的智能辨证。

中医辨证的诊断过程,实质上是由中医临床记录收集到的各种症状,通过分析,预估证型的过程,其过程相当于分类,因此我们可以采用数据挖掘中的分类方法来解决。关于分类方法有两类模型,一类是生成模型(假设给定证型,由哪些相关症状得出证型),另一类是判别模型(通过给定相关症状来得出证型),它们是分别从不同视角来解决分类问题的。最大熵是属于判别模型中的一种,现已被广泛用于文本分类中,但实际应用于中医智能辨证的研究还很少。因此我们选用最大熵对其进行中医症候的分类,对其进行相关实验研究及其分析,从而为中医智能诊断决策提供一次初筛。

1 最大熵原理应用

最大熵原理是由E.T. Jaynes在1957年提出来的。其主要思想是,在只掌握关于未知分布的部分知识,应该选取符合这些知识但熵值最大的概率分布[3],因为在这种情况下,符合已知知识的概率分布可能不止一个,而熵定义的实际最大熵原理指出,我们需要对一个随机事件的概率分布进行预测时,预测应当满足已知的条件,而对未知的情况不要作任何主观假设,在这种情况下,条件概率分布最均匀,预测的风险最小,此时预测模型在满足约束条件下的信息熵最大[4]。

1.1 最大熵算法应用于中医辨证的可行性

最大熵在不同的领域有不同的表现形式,其灵活性很强。在中医智能辨证中,我们希望通过给定的症状、特征,来得出它属于哪类证型,但这一结果并没有一个明确的标准,所以通过引入最大熵原理,使用最大熵算法优化,可以使其结果最符合实际情况。

其次,症状与症状之间的相关性,以及约束性,对判别症候有一定的作用,这与最大熵在约束条件下求解有一些相似。

1.2 最大熵简介

针对中医辨证,如果想知道在给出症状x的前提下,判别属于某证型y的概率,最基本的方法就是通过语料集对其进行概率统计。给定一个训练集,X为症状集,Y为证型集,count(xi,yj)为训练集中出现的次数,其概率估计为:

但是这个概率统计存在一个问题,即便存在很大的病例集,但很多(xi,yj)像某症状对应某证型这种情况却没有出现,武断地认为它不存在,这是不可取的。针对这个问题,最大熵采取的办法是使其满足已知的约束条件,对其未知情况不作任何主观假设,使其分布平均。例如,寒邪客胃证,饮食伤胃证,脾胃虚寒证这三类证型,如果已知,出现“胃痛”这个症状时,60%的概率属于饮食伤胃证,对于“胃痛”这个症状在其他两类证型中的概率未知。由最大熵原理推测,如果我们给出一训练集,其中包含“胃痛”这个症状,认为这个训练集属于饮食伤胃证的概率为0.6,属于其他两类证型的概率分别是0.2;在给出的训练集中如果不包含“胃痛”这个症状,那么认为训练集分别以相同的概率属于每个证型,这就是最大熵在满足已知条件的情况下,使未知事件尽可能平均分布。

1.3 数据预处理

实验数据由成都中医药大学提供,有效病例2597例,其预处理过程如下。

⑴ 规范症状表

由于临床医生的不同,收集到的病情资料,其表述也会极不相同,对于用不同的命名规则及术语表达的数据,是不容易进行量化分析的,因此需要在实验开始阶段就对疾病症状等命名进行规范[5] 。本文进行实验的病例数据中,一共有2000多种症状。

⑵ 规范病例表

在临床医生录入病例过程中,由于个人经验不同造成病情症状描述不一,因此对其病例也需要进行规范化处理[5]。其中证型大约有269种。

⑶ 建立符合实验的规范证型症状表

由于训练模型时,采用的是“证型/症状集”的文本格式,所以需要根据规范化的症状表与病例表,建立新的证型症状表。

⑷ 特征选取

经过规范化后的处理,其中一些特征对症候分类是很有用的,而另一些可能是噪声数据,会对症候分类产生干扰,因此,我们需要对其症状进行特征选取操作,将其含有信息量少的症状和噪声数据过滤掉,从而提高症候分类的正确性或有用性。

数据经过预处理后,再进行症候分类初筛。

2 实验结果与分析

数据挖掘中的朴素贝叶斯被广泛应用在中医辨证的研究中,并取得了比较好的成果,基于此原因,我们使用朴素贝叶斯和最大熵进行实验对比。

朴素贝叶斯分类从中医临床记录中的特征与中医症候类别之间的生产关系的角度出发,通过发现包含于中医临床记录中的诊断原则,达到辅助诊断的目的,也就是说,发现中医症候类别与临床记录诊断特征向量之间的定量关系。

2.1 实验数据集

为避免特征训练和预测的随机性,采用交叉验证方法预测平均值,将数据集分成十份,随机采用九份样本用于训练,剩余的一份样本用于预测并计算正确率和召回率。交叉验证过程中经历10次训练,准确率和召回率分别取其平均值。

2.3 实验结果

朴素贝叶斯在进行症候分类时,从症候类别与症状的定量关系出发,假设以症状之间是相互独立的为前提,这在实际中医辨证中是不切实际的,同时它通过计算先验概率和类条件概率来进行,但是当训练集中“胃痛”这个症状出现的次数很低时,则容易出现稀疏性问题,计算出的概率非常小,在实际症候分类预测过程中,会很大程度影响预测结果。而最大熵会避免出现这种问题,根据最大熵模型训练,求出每个症状对应证型的最优参数值,然后再根据给出的“胃痛”,“畏寒”,“苔薄白”等症状,计算出概率及预测症候类别。最大熵预测有60%的可能性属于寒邪客胃证,20%的可能性属于饮食伤胃证,20%的可能性属于脾胃虚寒证。虽然这样的预测会有一些偏差,但毫无疑问,可以为中医临床诊断提供重要的决策支持。此外,由于给出的训练集,可能同时属于不同类的证型,相对于朴素贝叶斯,最大熵模型更适于多类别识别,所以在中医症候分类上采用最大熵模型。

3 结束语

通过上述实验的朴素贝叶斯和最大熵进行中医证型类别的初筛,取得了比较好的实验效果。但是由于上述实验中进行中医症候分类采用的是人工的结构化的临床记录数据,而采用人工来记录这些数据耗时又费力,同时也会使得大量的中医临床记录数据不能被有效地利用。所以下一步工作是,通过对原始自由文本的临床记录进行处理而得到的症状来进行分类,使其适合于中医临床记录的数据挖掘和知识发现,提高证型初筛的正确性。

参考文献:

[1] 刘意.21世纪中医中药面临的机遇与挑战再思考[D].华中师范大学,

2013.

[2] 施明辉.面向中医辨证计算的粗糙集知识获取方法及其应用研究[D].

厦门大学,2008.

[3] 赵伟,赵法心等.一种基于改进的最大熵模型的汉语词性自动标注的

新方法[C].中国计算机学会.2006.

[4] 张奇.基于信息熵的Web信息抽取技术研究[D].广东工业大学,

2013.

[5] 宋燕等.基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研

究[J].成都信息工程学院学报,2014.

[6] 郦永平,温淑云.中医证候量化研究的理论探讨[J].中医杂志,2008.8:

677-679

[7] 朱海峰,陈雪功.中医诊断客观化研究的现状和展望[J].甘肃中医,

2007.6:10-13

[8] 王庆华,唐甜,王清青,刘雅琼,林辉,黄国荣,熊鸿燕.小儿常见发热出

疹性疾病智能诊断模型研究[J].第三军医大学学报,2011.23:2471-2475

[9] Zhang NL, Yuan S,Wang Y.Latent. Tree models and diagnosis in

traditional Chinese medicine.Artif Intell Med,2008.42:229-245

[10] 王毅杰,王海笑,杨涛.基于贝叶斯算法的手机在线中医疾病诊断研

究[J].软件导刊,2010,12:97-99

[11] 余江维,马利庄,杨华元.中医智能化诊断的研究现状与展望[J].辽宁

中医杂志,2010.1:50-53

[12] 许朝霞,王忆勤,颜建军等.基于支持向量机和人工神经网络的心血

管疾病中医证候分类识别研究[J].北京中医药大学学报,2011.34(8):539-543

[13] 李江平,潘保昌,韦玉科.两层级神经网络及在中医智能诊断中的应

用[J].计算机应用研究,2008.10:3169-3170,3173

[14] 钟昌乐,钟勇,李宁.基于BP神经网络的畜禽疾病诊断专家系统的

设计与实现[J].现代计算机(专业版),2010.4:23-26

[15] 王毅杰,王海笑,杨涛.基于贝叶斯算法的手机在线中医疾病诊断研

究[J].软件导刊,2010.12:97-99

[16] Yaqiang Wang, Zhonghua Yu, Li Chen, Yunhui Chen, Yiguang

Liu, Xiaoguang Hu,Yongguang Jiang. Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine: An empirical study. Journal of biomedical informatics,2013.

推荐访问: 辨证 及其应用 中医 智能 研究