人脸空间姿态跟踪简介
来源:第三维度 作者:梁国远 单位:信息科学技术学院
人脸姿态跟踪(Face Pose Tracking)是智能人机交互和计算机视觉研究中的项基本课题,也是近年来人们越来越感兴趣的一个研究方向。人脸姿态跟踪的主要目的是在一组包含人脸的图像序列中计算得到人脸在三维空间中的姿态参数。
人脸姿态跟踪在表情识别、人脸识别、姿态理解、视频会议、智能监控、疲劳检测、虚拟现实、游戏和娱乐等方面都具有广阔的应用前景。
现有的人脸姿态跟踪方法大体上可以分为基于特征的方法和基于模型的法。基于特征的方法假设在人脸姿态和人脸图像的某些特征之间存在唯一的对应关系,其目标是通过大量不同姿态的图像样本确定这种对应关系。这类方法需要大量的训练样本或进行插值操作,因此结果往往不够准确;此外还存在如何定义特征的问题,在定义的特征描述不充分的情况下难以获得满意的结果。基于模型的方法一般用某种三维结构或模型来近似人脸,基于二维/三维特征对应求解姿态参数。这类方法相对易于实现,精度较高,可是常常需要求解维数较高的非线性方程,因此难于获得闭合形式的解,在初始估计值不够准确的情况下,可能会出现陷入局部最小或出现不收敛的现象;此外,该类方法依赖于人脸特征检测的准确程度,往往容易受到光照变化和遮蔽的影响。
1. 人体运动的视频分析简介
人体运动的视频分析是智能人机交互和生物测定学的一个重要的研究领域,其主要的研究内容是通过一个或多个摄像机获取人体运动的图像序列,并在复杂的环境中对不同的人或者人体各部分,如脸、手、手指、脚等等,进行检测、跟踪并对其运动进行分析。
人们对复杂环境下人类运动和行为的分析和理解的兴趣由来已久,有许多具体应用与此相关,如人体各部分的运动分析、人脸检测[1,2,3]、人脸识别[4,5,6]、人脸跟踪[7]、手势分析[8,9,10]、步态识别[11,12]和表情识别[13,14,15]等,这些应用大都和智能人机交互、安全系统或者生物测定学研究有关,通常侧重于层次较低的人体检测、人体跟踪和人体局部的运动分析等等。另一类应用则将人看成一个整体,试图从较高的层次上对整个人或人群的行为进行分析和理解[16],这类应用包括对环境中人的行为进行监控,从人的各种反应中发现并理解潜在的问题或者可能的因素,识别特定人或者一般人的某种行为模式,一般来说,这类应用往往建立在对低层次的人体运动检测和跟踪得到的信息进行综合分析的基础之上。除此之外,还有一类应用就是所谓的人类运动或行为建模,即建立某种模型对人体的各种运动和行为进行模拟。这类应用包括生成具有真实感的人脸图形和动画,医用数据(如 CT 或者 MR 数据)的可视化和虚拟运动分析与合成等等。
综上所述,人体运动视频分析有三个主要的研究领域:
(1) 人体各部分的检测、跟踪和运动分析;
(2) 作为一个整体的人的运动分析以及在更高层次上对人的行为进行分析和理解;
(3) 对人体的运动和行为进行计算机建模,通过虚拟的模型来模拟现实。
这三个研究领域是相辅相成的,只有对人体的运动和行为进行深刻的分析和理解,才能使计算机模型更加接近现实世界;反过来,通过逼真的模型才能模拟出现实世界中很难出现或是无法出现的情况。其中,人体的运动分析是实现虚拟世界和现实世界自由转换的中心环节。
对视频序列中的人体部位进行跟踪是对人体运动分析最基本的步骤,其主要目的是在图像序列各帧中定位人体部位的位置和姿态,跟踪的结果可以用来对人体的运动和行为进行定量的数学分析。人体的运动,既可以看成是摄像机运动人静止,或是人运动摄像机静止,或是人和摄像机都在运动的结果。跟踪技术总体上分为二维跟踪和三维跟踪两大类。二维跟踪计算人体在每一帧图像上的二维位置;三维跟踪则求解出描述人体在三维空间中位置和姿态的三维运动参数。更深一层次的跟踪还包括对物体的变形进行跟踪。在跟踪的过程中,我们常常用到各种标记、相关性的度量、颜色或形状约束等。目前主要有两种跟踪运动人体的方法,一是基于运动的方法;一是基于模型的方法。基于运动的方法认为物体的运动随着时间变化存在某种一致性,通过鲁棒方法来求解。这种方法一般速度较快,不过无法保证跟踪的区域具有语义上的意义。基于模型的方法则将高层的语义知识赋予运动模型,往往计算量较大,往往还需要考虑比例变化、平移、旋转和变形等因素的影响。前一种方法需要提取某些区域的特征,而后一种方法则需要提供某些几何信息。
人脸是人体上最引人注目的部位,也是人与人之间交流思想,表达意愿的重要部位,因此人们对人脸的跟踪兴趣远远超过对其他部位的兴趣。不论是过去还是现在,不论是国内还是国外,对人脸跟踪的研究无疑是人体运动分析当中最重要和最有吸引力的内容。
2. 人脸空间姿态跟踪及其应用
人脸姿态估计(Face Pose Estimation)是指在摄像机获取的人脸图像序列中确定人脸在三维空间中姿态的技术和方法。人脸姿态估计作为智能人机交互和计算机视觉研究中的一项基本课题,近年来正不断引起人们的兴趣。人脸姿态估计技术在实践中,特别是在智能人机交互、基于模型的视频会议编码,虚拟现实、智能监控等方面都有广泛的应用前景。
智能人机交互是目前计算机和人工智能研究的热点。为了打破计算机与人(尤其是没有掌握高深的计算机专业知识的普通用户)之间的交流障碍,科学家们正在努力使计算机具备人类在视觉听觉等方面的某些功能。当前普遍采用的人机交互方式仍主要依赖于键盘和鼠标,其主要特点是以计算机为核心,让人来适应计算机,因此对于普通用户来说难于掌握,效率较低。因此人们迫切需要改变目前使用计算机的方式,要求以人类习惯的、更自然的方式与计算机进行交流,从而实现以人为核心的应用模式,使计算机能够主动地适应人的要求,这正是智能人机交互研究要达成的目标。为实现该目标,不仅需要有硬件技术方面的发展,如计算能力的提高、显示技术的进步和各种智能接口设备的出现;而且还需要在语音分析与合成、人脸检测、人脸识别和验证、表情识别、人体运动分析、人体建模与动画等理论和算法研究方面的进步。最终目的就是使人们最终摆脱键盘和鼠标的束缚,使计算机更加智能化、人性化,从而能更好地为人们的生活、工作和学习服务。由于视觉信息具有直观、信息量大、易于保存等特点,并且硬件技术的快速发展使廉价的摄像设备(如web camera)的不断涌现,越来越多的人拥有了桌上视频系统,加上计算机视觉和图像处理技术的进步,因此如何使计算机视觉系统更好地理解人的行为并与人进行智能化的交互就成了亟待解决的问题。
图1 人脸识别和表情识别
众所周知,智能人机交互研究中的一个重要问题是要求准确地判断人在某一时刻注意力的焦点,从而使计算机更好地理解人的行为并作出相应的反应。人脸作为人体上最重要的部位之一,在人与人之间沟通与交流中扮演着重要的角色,其空间姿态对于表达情感、揭示心理状态和确定其注意力的焦点都具有非常重的作用,我们常说的“垂头丧气”,“仰面大笑”等等就是对这种作用的生动描述。
因此准确地判断人脸空间姿态对于理解人的行为具有非常重要的意义。
除此之外,许多智能人机交互应用,如人脸识别和表情识别(图1)和视线跟踪(图2),往往需要使摄像机和人脸之间保持某种特定的空间位置关系。以人脸识别为例,如果摄像机和人脸之间位置不合适,很可能造成人脸许多部分出现遮蔽和变形,甚至完全不可见,从而影响人脸识别的可靠程度。
图2 视线跟踪
此外,某些基于对称性的人脸识别方法也要求获得正面的人脸图像,这时就可以应用人脸姿态估计技术求得人脸的空间姿态参数,并调整摄像机的姿态参数使之和人脸之间保持一定的位置关系。对表情识别而言也是如此。对一些要求进行视线跟踪的应用,如果知道人脸的姿态,那么就能更容易地确定视线的方向。
图3 基于模型的视频会议系统
在基于人脸模型的视频会议系统中(图3),与会者的人脸模型可以预先获得并传送到远端,然后在会议的进程中可以应用人脸姿态估计技术得到真实人脸的姿态参数,这样只需传送少量的姿态参数就可以在远端恢复出真实的人脸姿态,在网络带宽有限的情况下能够有效地减少传送大量图像数据给网络带来的负载。在安全监控系统(图4)中,摄像机往往不能直接捕捉到被监控对象的正面。从而给监控工作带来困难。如果能获得人脸的三维空间姿态参数,就能够动态地调整摄像机的姿态使之始终处于对监控对象最佳的观测位置。此外,利用人脸空间姿态参数还能够使多个监视摄像机在时间和空间上协调合作,实现对被监控对象的连续追踪。
图4 安全监控系统
娱乐和游戏是计算机技术最有吸引力的两个应用领域,尤其近年来网络游戏的盛行为新一轮网络经济带来了新的利润增长点。在三维游戏中,逼真的效果和简易的交互方式一直是玩家们梦寐以求的理想,目前基于游戏棒、游戏盒的交互方式远远不能满足玩家们的要求。通过计算人脸空间姿态参数,能够以图像对虚拟世界中的人物进行驱动,从而为游戏玩家们带来更真实的游戏体验。此外,在主题娱乐园的交互式的娱乐项目中,可以根据观众脸部的空间姿态有针对性地调整周围环境的音响和画面等效果,使观众获得身临其境的感受。
司机疲劳检测是人脸姿态跟踪另一个有价值的应用。司机驾驶的过程中可能出现疲劳,情况严重时可能导致事故。通过人脸姿态跟踪,我们能够发现司机可能存在疲劳的趋势并及时发出警报,从而能够避免事故的发生。此外,还有一些基于心理学研究和应用也要求比较精确的人脸姿态估计。总而言之,人脸姿态估计技术的研究不仅有学术研究价值而且还有重要的应用价值。
上一篇:Vega 虚拟仿真技术概述[ 11-28 ]
下一篇:裸视三维显示技术简介[ 12-07 ]