基于异构计算与深度学习的导盲系统设计

2022-03-22 09:14:28 | 浏览次数:

zoޛ)j首方案。导盲系统以大部分视障患者具有残留光感为出发点,在设计上分为客户端和服务端。客户端为以DE10-Nano主板为核心,配备有三维深度传感器、RGB摄像头、头戴式显示器、耳机、遥控器、4G通信模块等外部设备,通过异构计算技术能够加速深度图像的处理和显示,结合服务端和深度学习算法还能实现对目标物体的详细分类。测试结果表明,导盲系统不仅能帮助患者分辨周围物体的空间位置和轮廓,还具有识别目标物体详细分类的能力。换句话说,它能够帮助患者更好的了解周围环境。

【关键词】异构计算 深度图像 深度学习 目标识别

根据世界卫生组织公布的一组数据:世界范围内的完全失明的视障患者约有4000万到4500万,保留部分视力的患者约有1.4亿人,是完全失明患者数量的三倍,即大部分视障患者拥有残留光感。如国外的“eSight3”、“OxSight”的AR导盲眼睛就以此为出发点,通过增强图像的亮度和对比度使视障患者重获光明。由此,本文设计了一种基于异构计算与深度学习的导盲系统,旨在使用更低的成本,得到相比较于“eSight3“、“OxSight”更好的导盲效果,填补国内市场的空白。

1 导盲系统的硬件结构

1.1 硬件结构综述

在硬件结构上,导盲系统由客户端和服务端组成。客户端为以DE1O-Nano主板为核心,装配有三维深度传感器、RGB摄像头、头戴式显示器、耳机、遥控器、4G通信模块等外部设备。在运行过程中,DE1O-Nano主板首先会处理三维深度传感器采集的深度数据,并在头戴式显示器上显示,同时能配合RGB摄像头、遥控器完成目标图像的抓取,并将抓取的图像数据通过4G通信模块上传至服务端进行识别,最后将识别结果通过4G通信模块下载至客户端,用户能够使用耳机得到识别结果。服务端为曙光高性能计算机。主要作用是使用TensorFlow开源软件库搭建卷积神经网络,进行目标物体识别。

导盲系统的系统结构图,如图1所示。

1.2 异构计算系统

本系统客户端采用高性能的FPGA异构计算系统,但FPGA的开发要求开发人员对时序、状态机有较为深入的了解,且在工程实践中仿真和调试较为繁琐,开发周期长。针对此问题本文采用开放运算语言OpenCL加快FPGA的开发速度。

OpenCL是一个面向异构系统编写可执行程序的、开放式的免费标准。它通过一介低级别、高性能、可移植的抽象,实现使用高级语言(如C,C++)开发FPGA的目的。在实际操作中采用DE1O-Nano主板搭建异构计算系统,其示意图如图2所示。

2 导盲系统的工作原理

研究表明,大部分视障患者并非完全丧失视力,而是视力退化到无法分辨周围物体的位移和形状变化。本文设计的导盲系统就是通过技术手段,利用视障患者的残存视觉帮助他们重获光明。

导盲系统的工作原理可概括为两点,其一使患者能够分辨周围物体的轮廓和空间位置,即深度图像的处理;其二使患者能够知道目标物体的具体分类信息,即卷积神经网络的搭建。

2.1 深度图像的处理

为了做到患者能够分辨周围物体的空间位置,本文将采集到的深度图像数据进行处理。首先使用灰度幂次变换的方法增强原图像的亮度和对比度,然后使用sobel算子对图像进行边缘检测并与增强后的图像进行叠加,最后将己处理的图像在头戴式显示器上显示。使患者可以清晰的区分物体的轮廓并根据颜色的深浅分辨周围物体的空间位置,处理效果如图3所示。

2.2 卷积神经网络的搭建与使用

通过深度图像的处理,患者能够分辨出周围物体的轮廓和空间位置,但由于深度图像无法表现出更多的细节,患者无法了解周围物体的具体分类信息,对于病情严重的患者更甚。對此,本文选择将患者选择的目标物体裁剪下来,然后上传至服务端,运用卷积神经网络进行目标识别,最后将识别结果下载至客户端,并转换为语音供患者使用。

2.2.1 目标的选择和截取

为实现患者可以自由选择目标物体,本文在头戴式显示器中央设置了截取框,随着患者头部的转动,可用截取框截取不同的图像,并且患者可以根据深度图像中的物体轮廓来调整截取框的大小,从而选择目标物体并通过RGB摄像头将图像截取下来,工作过程如图4所示。

2.2.2 Inception-ResNet-v2网络

对于目标物体的识别问题,本文采用Google的开源软件库TensorFlow对卷积神经网络模型Inception-ResNet-v2进行微调,达到具体识别目标物体的目的。

Inception-ResNet-v2是Google在20 1 6年发布的网络模型,继承了Inception-v3和ResNet网络的优点,在识别效果和网络训练速度上都有所的提升。

但Inception-ResNer-v2的网络复杂度非常惊人,可以说是使用更大的网络规模得到更好的识别效果。原本的Inception-ResNet-v2网络拥有近2000种预测类别,包含生活中的各种事物,但由于种类太多,识别结果可能会与正确分类大相径庭,因此我们需要调整网络模型全连接层的参数,即微调。

3 导盲系统使用方法

在实际使用过程中,患者可以通过如图3(a)这种经处理过的深度图像来分辨周围物体的空间位置和大致轮廓,若患者想要了解周围某一物体的详细类别信息而且可以大致分辨处目标物体的类别,就可以通过图4的方式截取目标物体图像,并将目标物体的类别信息上传至服务端,由服务端识别出详细类别信息后,下载至客户端并转换为语音信号供患者使用。且由TensorBoard的评估可得训练得到的Inception-ResNet-v2模型错误率仅为2.6%。

4 結论

在硬件结构上,导盲系统的客户端为以DElO-Nano主板为核心,装配三维深度传感器、RGB摄像头、头戴式显示器、耳机、遥控器、4G通信模块等外部设备组成的硬件平台;服务端为曙光高性能计算机。

在软件设计上,导盲系统客户端的主要功能为深度图像的处理和显示、目标物体图像的截取;服务端的主要功能为结合卷积神经网络识别目标物体的具体分类信息。

通过系统测试,导盲系统不仅能帮助患者分辨周围物体的空间位置和轮廓,还能借助于目标识别技术了解周围物体的具体分类信息,同时还拥有低功耗、高实时性、成本低的特点,基本实现了填补国内市场空白和帮助患者更好生活的目的。

参考文献

[1]Organization W H.Global data onvisual impairment[J]. 2012.

[2]Zolyomi A,Shukla A,Snyder J.Social Dimensions of Technology-Mediated Sight [C].Proceedings of the18th International ACM SIGACCESSConference on Computers andAccessibility. ACM, 2016: 299-300.

[3] Williams F.OxSight uses augmentedreality to aid the visuallyimpaired[J].2017.

[4] Szegedy C,Ioffe S,Vanhoucke V,etal. Inception-v4, Inception-ResNet andthe Impact of Residual Connectionson Learning [J].201 6.

[5] Szegedy C,Vanhoucke V,Ioffe S,et al. Rethinking the InceptionArchitecture for Computer Vision[C].Computer Vision and PatternRecognition. IEEE,2 016: 2818-2826.

[6] He K,Zhang X,Ren S,et al. Deep

Residual Learning for ImageRecognition[J]. 2015: 770-778.

推荐访问: 深度 异构 计算 学习 设计