基于TRIZ的麦克风—摄像机实时定位追踪发言人系统创新设计

2022-04-12 08:10:58 | 浏览次数:

摘 要:TRIZ即发明问题解决理论,是一门可用来解决传统工程领域技术创新问题的方法学,但在新兴信息技术领域问题给出的解决方案较少。目前的麦克风—摄像机发言人实时定位追踪系统存在应用场所有限、实时性和精确度较低的问题。运用TRIZ理论中的三轴分析方法找到系统存在的技术矛盾和物理矛盾,提出了一种采纳了嵌入声纹识别技术和多传感器信息融合技术的优化创新设计方案,有效规避了现有的专利产品,也表明了TRIZ理论应用于新兴信息技术领域进行优化创新的可行性和高效性。

关键词:TRIZ;麦克风;摄像机;发言人;实时定位追踪;系统

中国分类号:TP37 文献标识码 :A

文章编号:10053824(2013)01002707

0 引 言

在大型报告会场、视频会议现场、舞台会场、新闻现场以及多媒体课堂等空间场景中,亟需一种麦克风—摄像机实时定位追踪发言人的技术手段,以免去传统的传递话筒或佩带无线麦克风的繁琐过程。当与会者因突发事件未能及时关注现场情况时,仍能全自动地对整个现场进行智能化控制,提高这种“可视交流”的亲密性和互动性,使人能够摆脱机器设备的束缚,轻装上阵,真正实现机器服务于人的理念。

目前,众多国内外学者对麦克风—摄像机定位发言人系统展开了研究并申请了相关专利。如,彭翔[1]在用于视频会议智能摄像头控制系统中提供了一种能确定声音来源位置并控制摄像头对准发言人的用于视频会议的智能摄像头控制系统;冯江平[2]等提供了一种会议中获取当前活动发言人的方法及媒体服务器;冯建伟[3]等提供了具有多个语音跟踪摄像机的视频会议端点;向桂山[4]等提供了一种应用于会议录制的会议型锁定跟踪摄像系统;董汉华[5]等发明了一种适用于会议系统的摄像跟踪方法及系统,可对音量自动调节;施伟年[6]等设计了一种适用于会议电视系统中摄像机定位跟踪的麦克风;P. Alexander[7]等发明了一种可控的具有指向性特征的视频摄像头能够对物体进行实时跟踪。已有研究表明麦克风—摄像机定位发言人技术所应用的场景均为室内场合,并且其定位方法仍然采用了传统的麦克风阵列技术,实时性和精确性不能满足实际需要。

TRIZ即发明问题解决理论,是由苏联科学家G. S. Altshuller于1946年创建的一门新兴学科[8]。作为科技创新工作的重要组成部分,科技部于2007年5月组织开展了一系列推广TRIZ等创新方法的工作,致力于从源头推进自主创新国家战略,贯彻落实《国家中长期科学和技术发展规划纲要》。TRIZ理论在原理上可以用来解决多领域问题,提供了突破思维惯性的方法、技术预测的工具和解决问题的系统化方法。过去几十年的实践中,它主要解决了工程技术类问题,目前正向其它领域发展和延伸[9]。利用TRIZ理论,周科平[10]等解决了传统采矿方法中出现的不足;赵昊昱[11]等将滚筒洗衣机柔顺剂供给装置改进为单个三角棱柱供给装置;赵锋[12]等提出了城市公共空间应急避难设施的创新性设计思路;魏奇锋[13]等设计了生物医学工程仪器中呼吸气体采样富集装置;赵文燕[14]等优化了管理流程;刘志峰[15]等得到了产品零部件可拆卸设计的两种方法;李萌[16]进行了产品概念设计;吕桂芝[17]对钢丝绳电动葫芦导绳器进行了改进设计。可见,TRIZ理论已逐渐被应用于包括医学、机械、管理以及产品等的各行各业中。

但是,TRIZ理论在多媒体定位追踪领域中的应用仍鲜有涉及。因此,本文将其应用于麦克风—摄像机实时定位追踪发言人技术系统中的优化创新研究,以提供一种解决难点问题的全新创造性思维方式,促成高精度声源定位追踪系统的形成。下文将从问题描述、分析问题、解决问题、最终方案以及方案验证这几个方面来详细分析,并借助三轴分析法、技术矛盾、创新原理、物理矛盾以及分离方法等相关TRIZ理论知识解决该领域中存在的关键问题。

1 TRIZ理论简介

TRIZ理论是找寻人类在进行发明创造以及解决技术难题过程中所遵循的科学原理和法则后总结得出。它一方面强调解决实际问题,特别是发明问题;另一方面突出由解决发明问题而最终实现技术和管理上的创新,引导我们从中发掘如何在已有研究条件的基础上提出更加新颖且能实际应用于该领域的方法和思路。TRIZ理论旨在建立基于知识消除矛盾的逻辑化方法,用系统化的解题流程来解决特殊问题或矛盾。它可通过三轴分析法(因果轴、操作轴、系统轴)、九屏幕法、IFR(ideal final result,最终理想解)法、小人法、鱼骨图法及STC(size time cost,即尺度—时间—成本)算子等系统分析方法对工况问题进行详细分析,用标准参数描述该问题的矛盾对,然后通过矛盾矩阵找寻创新原理中若干适用原理,消除系统中存在的技术矛盾;利用空间分离、时间分离、条件分离以及整体与部分分离等方法得到物理矛盾的解决方案[8]。

运用TRIZ理论解决工程问题时,应严格按照TRIZ理论解决问题流程来进行。该方法的关键在于能够借助多种创新方法充分发散自己的思维,获得多种可能可行的解决方案,并根据自己对这些方案的分析、归纳和筛选得到较为完善的最终解决方案,使得该技术领域的优化创新设计能够更趋于系统化、理性化和科学化。

2 麦克风—摄像机实时定位追踪发言

人系统的问题工况及最终目标 麦克风—摄像机实时定位追踪发言人系统目前主要针对室内应用场合,如图1所示,它通常使用麦克风阵列来确定发言人方位,然后控制麦克风波束和摄像机自动对准发言人。该系统的一般运行流程是:用音频信号采集板从麦克风阵列捕获语音信息,采用音频信号处理技术进行预处理,进而通过定位模块的计算,实时定位发言人方位,通过步进电机驱动控制摄像机自动对准发言人,并使用2D平面人脸追踪技术对发言人进行实时追踪。

假定声音传播满足线性波动方程且房间内环境在一段时间内不变,从声源到麦克风之间可看成线性时不变系统[1819]。从图1中可知,麦克风阵列系统定位声源的精度受噪声、反射噪声、声源多重反射及发言人与麦克风之间相对位置的影响。麦克风阵列是由多个按特定方式排列起来的麦克风组成,它利用波束成形技术[20],通过计算声音到达各路麦克风的延迟,判断声源方向,实现定向采音,并对该特定方向的音频信号进行增强。由于会议、课堂等现实场景存在背景音,如桌椅挪动、敲键盘等,这都会使麦克风阵列的判断产生偏差。因此,实际场景中麦克风阵列给出的是发言人所在的角度范围。当该范围内存在多个参与者时,普通的麦克风阵列定位系统会产生判断歧义,无法准确判断出实际发言人。

1)由于定位系统受到各种噪声的影响,麦克风间噪声的互相关函数不为零,这增大了定位难度。

2)房间的反射作用使麦克风不仅收到声源直接到达部分,还收到反射部分。这些声音反射导致互相关函数或者波束的尖峰扩展,难以确定最大值,增大了定位误差。

3)对于单面摆放的线性麦克风,声源在方向角较小位置时会影响几何近似的精度,给麦克风与声源间距离的确定引入较大误差。

4)在实际系统中,麦克风摆放位置比较固定,数量也较少,而麦克风数量越多引入的噪声也越多,如何在尽量少的麦克风和固定摆放位置条件下提供高的定位精度成为亟待解决的问题。

针对现有的语音定位跟踪方法在定位精度、实时性、可行性等方面的不足,从实际应用背景出发,本文利用TRIZ方法来解决该系统存在的问题,最终实现以较低成本精确实时定位并追踪大型空间场合中的发言人方位。

3 利用TRIZ理论分析并解决问题

3.1 问题分析

采用TRIZ理论中的三轴分析法分析问题。首先,利用原因轴分析来探究造成发言人实时定位追踪系统中定位精确性和实时性不高问题的根本原因,进而确定解决问题的最佳时间点。

然后,通过分析结果轴,对该系统中发言人定位精确性和实时性不高的问题往下推测,进一步推导出任由该问题继续发展将导致的各种直接后果。

最后,按照原因轴分析的图形化过程,结合分析出的因果轴,进行标准规范化图形的绘制,如图2所示。其中,图2中的“缺乏”、“存在”、“有害”、“有用”、“过度”、“不足”、“不可控”、“不稳定”等术语解释见文献8。

图3 操作轴和系统轴分析示意图由因果轴分析发现,“麦克风阵列收集到的大量噪声”成为了导致该系统中定位精度和实时性不高问题的根本原因。由于噪声干扰过大,系统不能迅速提取发言人的音频信息,从而影响了定位的精度和实时性。为降低解决问题的成本,进一步进行操作轴和系统轴分析,结合本系统的实际问题,首先对麦克风阵列进行资源分析,然后对其绘制操作轴和系统轴的分析图解如图3所示。

3.2 解决问题

1)技术矛盾。

本系统的薄弱点在于:麦克风会收集所有的环境噪声导致干扰噪声过大,延长了定位时间且降低了定位精度。传统的麦克风阵列定位技术普遍采用相关估计法和广义互相关—相位法(GCCPHAT),而对于噪声的解决方法,大多数学者着眼于去噪算法的改进,如采用粒子滤波方法等。目前已有的改进方法使得噪声在一定程度上有所降低,但算法却越来越复杂,且并不能应用于大型会议场所,只能适用于较小的空间。表1给出了本系统存在的技术矛盾。进一步,可提取出本问题的4对技术矛盾,如表2所示。

常用定位方法 麦克风阵列定位 算法简单,操作简便,定位速度快 噪音过大 能够快速定位发言人方位,却降低了定位精度

已有的改进定位方法 针对音频信号处理中去噪算法的改进 加强了去噪效果 算法越来越复杂,通用性降低 降低了系统存在的噪音,但算法复杂且适用性降低

通过查找矛盾矩阵表,可得到解决技术矛盾的创新原理,如表3所示。结合实际需要解决的问题,有选择的利用技术矛盾对中得到的创新原理作为该系统优化创新的指导思想。

对于技术矛盾对1,可得到22号变害为利、19号周期性作用、29号气压和液压结构以及40号复合材料原理。

根据22号原理:可利用音频信号处理模块,编写算法扩大噪音信号,从中提取与噪音信号不同形状的信息即为发言人声音信息,但这只适用于外界噪音极大的情况,如新闻现场等较杂乱的场景,扩展性不强。

对于技术矛盾对2,可得到35号参数改变、11号事先防范、22号变害为利以及31号多孔材料原理。

根据11号原理:控制与会者秩序,保持会场安静,在麦克风收集声音信号之前使周围环境噪音降至最低,但这是非结构化的因素,当会场人员过多时不便控制。或者考虑将会场墙壁改为吸音墙壁,可以使麦克风阵列不接收到反射声音而降低噪音,但此方法成本过高,实践性不强。

根据31号原理:采用粒子滤波技术降低噪声,通过分解声音信息,过滤掉干扰噪音信息提取发言人声音信息。

根据35号原理:增加麦克风数量,改变原来聚集的特性,使其分布在大型会场的各个角落,这提高了适用性和通用性,而增加的成本处于可接受的范围内。

对于技术矛盾对3,可得到02号抽取、25号自服务、28号机械系统替代以及39号惰性环境原理。

根据02号原理:考虑使用特定麦克风只吸收现场的噪音源,编写相应算法仅仅消除现场环境中的噪音,从而保证麦克风阵列能快速分析出发言人方位以精确定位。

根据25号原理:将麦克风设置为可活动状态,当发言人起身时摄像机首先对准发言人,通过算法计算发言人在会场环境所处的大致方位,控制多个麦克风自动移动至发言人处。

根据28号原理:利用人类通过融合听觉和视觉信息融合,能在复杂环境中准确定位发言人空间位置的感知系统原理,利用发言人语音信息与图像信息之间的相关性与互补性,使用多传感器信息融合技术来准确快速定位发言人。

根据39号原理:在麦克风阵列外部设置一个涂有噪音过滤微粒的吸音罩,用来吸收现场环境中的大量噪音。

对于技术矛盾对4,可得到24号借助中介物、28号机械替代、32号颜色改变以及34号抛弃或再生原理。

根据24号原理:考虑到仅用麦克风阵列定位会使定位精度和实时性变差,可在麦克风阵列和音频信号处理板间添加一个声纹识别装置,将该系统集成到原来的系统中进行判断。即借助声纹识别技术来快速提取发言人声音信息用以实时定位。

根据32号原理:取消麦克风阵列设备,在每个座位上安装麦克风装置,这能解决目前所有系统中遇到的问题,但造价过高。也可使用多个摄像机分布在会场四周,利用驱动装置控制摄像机对准发言人。

根据34号原理:分析出麦克风阵列收集的声音信号中所有噪声后,立刻在音频信号处理板中删除这些噪声信息,针对麦克风收集到的发言人的反射声音效果较佳。

最后结合实际需要解决的问题,对上述解决方案进行筛选分析,优选出下述方案

方案1:预先获取与会者声音信息,在麦克风阵列与音频信号处理板之间嵌入声纹识别装置,摄像机追随声音信息快速定位发言人方位。音频信号处理板实时消除现场环境的噪音。

方案2:去除麦克风阵列装置,设置麦克风为可活动状态,摄像机扫描处于活动状态的发言人图像信息,麦克风追随摄像机获取到的视频图像信息快速定位发言人方位。

2)物理矛盾。

根据前面的问题分析,对一个定位系统而言,在理论上麦克风的数量越多,麦克风的相对位置越多样化,提供的空间信息量越大,从而具有较高的定位精度。而在实际系统中,麦克风的摆放位置比较固定,数量也比较少,而且麦克风数量越多,引入的噪声也越大。因此,难点就是在尽量少的麦克风和固定摆放位置条件下,提供高的定位精度。由此得到该问题物理矛盾的定义如下所述:

参数:麦克风数量及其摆放位置;

要求1:要系统成本低,可行性高,要麦克风摆放位置固定,数量少;

要求2:要空间信息量大,定位精度高,要麦克风摆放位置多样化,数量多。

分析该物理矛盾,要使得麦克风的摆放位置固定且数量尽可能少,需要在麦克风阵列和发言人空间中来实现;而要使得空间信息量大且定位精度高,需要在摄像机所在现场环境的空间位置中来实现。针对这两个空间区域,由于它们并未产生交叉,因此采用解决该物理矛盾的方法包括整体与部分分离和条件分离。

整体与部分分离是将矛盾双方在不同的层次分离,以解决问题或降低解决问题的难度。根据这个思路,结合40条创新原理,首先可考虑采用分割原理,将一个物体分成相互独立的或容易组装拆分的部分,设计中可以将麦克风阵列、发言人、摄像机当成三个独立部分。然后,进一步采用组合原理,在空间或时间上将相同物体或相关操作加以组合,具体设计中可以考虑将摄像机和麦克风阵列组合在一起,发言人单独组成。预先作用原理认为应预先安置物体在最方便的位置,设计中可在现场的各个固定位置(使得定位速度最快且效果最精确的位置)安置麦克风;或者在每个与会者身上佩戴特制的小型定位装备,但这样也提高了造价。同性质原理认为存在相互作用的物体用相同材料或特性相近的材料制成,设计中可以考虑将摄像机和麦克风阵列得到的音频视频信息融合,综合判断发言人位置。另外,反向作用原理认为用相反的动作可代替问题定义中所规定的动作,设计中可以考虑使发言人固定站在某一位置,使麦克风和摄像机均可移动,以便能够寻找到拾取发言人声音信息的最佳点。

条件分离是将矛盾双方在不同的条件下分离,以解决问题或降低解决问题的难度。根据此思路,可以在现场布置多个麦克风,使其摆放位置不固定,在发言人发言时开启其附近麦克风的收音功能,其他麦克风处于就绪状态并关闭拾音功能,这样就可以解决噪声过大的问题。

通过物理矛盾分析,得到方案如下:

方案1:在现场布置多个且位置不固定的麦克风和摄像头,当发言人发言时,其附近的麦克风和摄像头启动拾音和人脸追踪功能,其他位置的麦克风和摄像机处于就绪状态。该方法能够减少噪声,定位精度提高,但是延迟会增加,因为有一个事先判断过程,同时成本可能也会增加。

方案2:发言人保持在一个固定点不移动,控制麦克风和摄像机在空间中移动至发言人所处方位。该方法成本降低,定位精度提高,但延迟会增加。

方案3:参考人的感知器官作用原理,将麦克风和摄像机获取的音频视频信息相融合,通过多传感器融合技术判断发言人方位。

方案4:将声纹识别技术集成至麦克风阵列设备中,可大大提高定位精度并降低定位延迟。

4 最终解决方案及其验证

对该系统存在的问题,运用TRIZ理论解决问题的流程,综合技术矛盾和物理矛盾的解决方案,最终的优化创新系统设计如图4、图5所示。

设计中,首先将现场环境的墙壁设计成吸音墙壁,用以预先吸收噪音,然后将声纹识别系统集成进麦克风阵列中。由于语音的短时能量与现场环境背景噪音的短时能量值不同,当麦克风阵列给出的发言人所在大致估计区域内存在多个参与者时,综合实时声纹识别的结果,按照一定的判定法则,便能够快速滤除噪音以准确实时的定位发言人。最后,利用多个传感器,将麦克风和摄像机收集到的现场环境中各种不同的特征信息进行估计融合,利用发言人的语音与图像之间的互补性与相关性,即:摄像机获得的视频信息虽然受到摄像机视角的限制,却可以提供精确的定位信息;同时,视频信息不受背景噪声以及房间混响声学环境的影响;而麦克风获取到的音频信息也与视觉场景的复杂性无关。于是,发言人的语音与图像之间的相关性就体现在发言人语音与唇动可视语音之间具有的相关性,通过音视频互信息判断发音嘴唇的位置,可以消除由于混响产生的虚假声源。该方法适用于视角中同时存在多个人脸时的情形,定位精确度和实时性均会有所提高。

对麦克风—摄像机实时定位追踪发言人方位技术系统中存在的定位实时性差和定位精度不高的问题,一直未能有较好的解决方法。大量学者仅考虑对其中的算法进行改善,但定位精度和实时性并未得到较好的提升。

本文将TRIZ理论应用于麦克风—摄像机定位发言人的创新设计中,从系统存在的问题本身出发,一层一层地推导,直至寻找到噪音过大的问题根源,并从此着手进入到解决问题的层面。在解决问题阶段,首先使用技术矛盾分析方法解决模式对该问题进行详细分析,剖析其更深层面的原因,得到了4对技术矛盾,通过查找矛盾矩阵得到了可能会使用到的12个创新原理。然后,进一步定义物理矛盾,采用分离原理逐一分析、考虑,发散思维,最终得到了多个可能和可行的方案。最后,对所有方案进行筛选整理,获得了最终解决方案。在方案验证阶段,给出了最终解决方案的系统模块图及其示意图,具体的验证工作细节部分可以在搭建好了的实验环境中继续完善。

此外,除本文采用的三轴分析法外,还可考虑IFR法及小人法来分析工况问题。例如,本系统的理想解是没有任何噪声,即能够实现音频信号快速提取发言人声音信息并加以定位的有用功能,并消除反射噪声这一有害影响。使用小人法时,可以把麦克风,摄像机,多种噪音种类以及空间环境想象成小人进行处理。

基于TRIZ理论来解决矛盾的技术能够帮助设计者克服心理惯性和已有的传统概念,最大限度地利用系统资源,消除根本矛盾,为广大科研学者提供了一种开启创新设计之门的独特性方法。虽然TRIZ理论在本领域的应用仍处于方案创新设计阶段,但我们有理由认为TRIZ与定位追踪技术的结合必将有利于双方共同发展,能够为优化创新定位追踪技术提供解决问题的系统性方法。参考文献:

[1] 彭翔.用于视频会议智能摄像头控制系统: 中国专利, 200920057283.8[P]. 20100317.

[2] 华为技术有限公司. 会议中获取当前活动发言人的方法、媒体服务器: 中国专利, 200710146076.5[P]. 20090311.

[3] 宝利通公司. 具有多个语音跟踪摄像机的视频会议端点: 中国专利, 102256098 A[P]. 20111123.

[4] 杭州晨安机电技术有限公司. 一种会议型锁定跟踪摄像系统: 中国专利, 200920117498. 4[P]. 20100210.

[5] 深圳市东微智能科技有限公司. 一种会议系统的摄像跟踪方法及系统: 中国专利, 102244762 A [P]. 20110603.

[6] 深圳市宏电技术开发有限公司. 一种适用于摄像机定位跟踪的麦克风: 中国专利, 02248344.6 [P]. 20050504.

[7] PHONEORLTD. Video camera with microphone: American patent, 2002080241A1 [P]. 20020627.

[8] 赵敏, 史晓凌, 段海波. TRIZ入门及实践[M]. 北京: 科学出版社, 2011.

[9] 顾久春, 王亮申, 王品, 等. 基于TRIZ的城市快速路交通管理创新研究[J]. 物流技术, 2010, 29(13): 5557.

[10] 周科平, 李杰林, 雷涛, 等. 基于TRIZ理论的采矿方法创新设计[J]. 工程设计学报, 2010, 17(6): 401405.

[11] 赵昊昱, 江涛, 李英利, 等. 基于TRIZ进化树的滚筒洗衣机柔顺剂供给装置创新设计[J]. 工程设计学报, 2012, 19(1): 7580.

[12] 赵锋, 杨豪中, 刘晓霞. 基于TRIZ理论的城市应急避难设施设计研究[J]. 西安建筑科技大学学报:自然科学版, 2011, 43(5): 700704.

[13] 魏奇锋, 赵聪, 顾新. 基于TRIZ的生物医学工程仪器创新设计[J]. 工程设计学报, 2011, 18(5): 321326.

[14] 赵文燕, 张换高, 檀润华, 等. TRIZ在管理流程优化中的应用[J]. 工程设计学报, 2008, 15(2): 7985.

[15] 刘志峰, 杨明, 张雷. 基于TRIZ的可拆卸连接结构设计研究[J]. 中国机械工程, 2010(4):852859.

[16] 李萌. 基于TRIZ和DEA理论的产品概念设计方法[J]. 系统工程, 2007, 25(3): 117116.

[17] 吕桂芝.应用TRIZ理论对钢丝绳电动葫芦导绳器的改进设计[J]. 工程设计学报, 2012, 19(1): 7174.

[18] ARGENTIERI S, DANES P, SOUERES P. Prototyping filtersum beam formers for sound source localization in mobile robotics[C]//IEEE International Conference on Robotics and Automation, Barcelona, Spain:[s.n.],2005: 35513556.

[19] ALFREDO C, RIPAMONTI F, MARCELLO V. The delay & sum algorithm applied to microphone array measurements: numerical analysis and experimental validation [J]. Mechanical Systems and Signal Processing, 2007, 21: 26452664.

[20] SANTANA R, COELHO R, ALCAIM A. Textindependent speaker recognition based on the Hurst parameter and the multidimensional fractional Brownian motion model[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 931940.

[21] 肖光华. 麦克风阵列的语音定位和跟踪方法研究[D]. 上海, 上海大学通信与信息系统, 2008: 39.

推荐访问: 麦克风 发言人 实时 追踪 摄像机