过程_OCR的实现过程
OCR的实现过程 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;
即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR的实现过程分为以下几个步骤:图像获取,预处理,特征提取,识别分类,后处理,识别结果等。
一、图像获取:
二、预处理:
图像的预处理主要包括二值化、图像增强、噪声处理、图像滤波等。
图像二值化采用阈值分割技术,它最擅长处理物体与背景具有较强对比度的图像分割,计算简单,能够用封闭、连通的边界区分出不交叠的区域。图像像素点灰度值大于或等于阈值,则被判定为属于某一特定区域,用 255 表示其灰度值,否则,像素点将被排除在特定区域之外而被判定为背景或其他无用区域,用0表示其灰度值。打印或手写的文档一般背景与字符的差别较大,适合于进行二值化处理,可以直接设定阈值进行二值化。
图像增强处理方法可以分为基于空间域的增强和基于频率域的增强两大类。空间去噪步骤通过减少图像采集系统产生的伪迹来改善图像的完整性。这个步骤一般能够减少获取图像的小的空间改变。虽然图像可能是原始图像的扭曲变形,感兴趣区域通常因为它的高对比度特点而保持完好。通过灰度图像展现的噪声可以被视为像素值相对于原始值的小的随机变化。
噪声处理,使用高斯平滑滤波器进行滤波,去除噪声; 三、特征提取及字符识别:
汉字处理方法:主要研究的对象是4个特定方向上的矢量。它们分别是(1)水平方向上的矢量;(2)竖直方向上的矢量;(3)45度角方向上的矢量;(4)反45度角方向上的矢量。在汉字的基本笔画里,他们能很好地对应于标准的横线和竖线。也能比较好的反映出撇和捺的特征。由于除了点以外的其他基本笔画也可以看成是由这四个基本笔画所组合而成的,所以这四个方向上的矢量就可以相当准确地描述出一个汉字的基本字形特征。
英文字符处理方法:基于字符结构的方法更适于对字母的识别。字母结构在水平方向上有三种类型:左右对称,左大右小,左小右大;竖直方向上也有三种类型:上下对称,上大下小,上小下大。再看笔画也有两大类:直笔画和弧笔画。直笔画又可分为横笔画、竖笔画、左斜笔画;弧笔画是一条曲线段,可分为两类:开弧笔画和闭弧笔画。所谓开弧笔画,指该弧笔画没有形成封闭环,如字母“C”。根据字符的这些特点,可以对字母进行逐级的分类,形成一颗判定树,每个字符就是一个叶子。这种方法不需要对分割得到的字符进行大小归一化,也不需要建立样本库,完全依据字符自身的结构特征进行逼近识别。
阿拉伯数字处理方法:先计算欧拉数,再提取凹陷区的特征,最后根据特征组合识别字符。欧拉数是一种应用广泛的对物体进行识别的特征,定义为连同成分数减去洞数,E=C-H,其中E、C和H分别为欧拉数、连同成分数和洞数。凹陷区的定义为:如果连接一个图像上任意两点的直线都属于该图像,那么该图像为凸图像;如果连接图像上两点的直线有部分不属于图像,那么称该图像为凹图像。在凹图像中,任意两点间的直线中不属于图像部分所在的区域称为图像的凹陷区。分类结果如下:
四、后处理:
识别结束后,由于不同文档的清晰度不同,其识别后的结果可能会有较大差别。利用上下文信息、语法及逻辑,对识别的结果进行修正,往往能改善和提高系统的整体性能。后处理结束后,最终的文档即可生成。
五、字符翻译及发声:
对于已经识别的字符,通过调用翻译程序,在词典中查询相应词组即可获得其翻译后的含义。将词典存储在系统的硬盘上,可以存储不同版本的词典,以获得更好的翻译效果。为了提高翻译的效率,词典的单词按照一定的顺序存放,这样就可以在较短的时间内完成单词的查询工作。
字符的发声原理与字符的查询原理相同。查询到相关单词后 ,选择发声选项即可进行发声。
推荐访问: 过程 OCR