3D手势控制技术:从游戏机突围至消费电子
摘要: 微软的Xbox Kinect以PrimeSense参考设计为基础,使用两个CMOS成像器(一个用于红外光,一个用于可见光)检测3D深度,因此系统能够轻松辨别房间内的游戏玩家和背景物体。
关键字: 3D手势识别, ADI, MEMS, 惯性传感器, Wii, 电视, 智能手机, 陀螺仪
今年将是3D手势识别技术证明自己不仅限于儿童游戏的一年。自从在任天堂Wii用的无线游戏接口中首次面世几年后,基于MEMS传感器的手势识别技术已将触角伸向智能手机,并准备占有最具象征意义的消费者接口:电视遥控器。
自从Wii于2006年发布后,任天堂公司的竞争对手们都开发出了各自的3D手势识别和处理技术。索尼公司为寻求高精度控制的游戏发烧友提供了Move Playstation控制器;微软则通过Xbox Kinect实现了游戏接口的免提功能。
苹果率先利用微机电传感器的潜能成功构建更直观的智能手机接口,并于2007年在iPhone中增加了MEMS加速度计,在2010年增加了MEMS陀螺仪。苹果的竞争对手紧随其后,不久许多3D指令(如摇动-撤消、提起-接听和反面朝下-断开连接)将成为标准的智能手机功能。
当今,消费产品OEM商正在他们全线产品中增加3D手势识别功能。一些公司使用从GestureTek公司获得的技术许可,其它公司则从Hillcrest Laboratories公司或Movea公司获取许可。Movea公司拥有250多项相关专利,覆盖像使用陀螺仪控制光标之类的技术;Hillcrest公司拥有100多项专利,包括使用加速度计和陀螺仪跟踪运动的专利。两家公司都为3D手势设计师提供了增值的软件开发工具,它们分别是Movea公司的Gesture Builder和Hillcrest公司的Freespace MotionStudio。
谷歌则是在Gingerbread(姜饼)版的Android操作系统中增加了基于MEMS的手势识别应用编程接口,能够识别诸如倾斜、旋转、插入和切削等动作。
"运动处理最终将被主流消费者所接受。"InvenSense公司创始人Steve Nasiri表示,"我们预测用于运动处理和手势识别的硬件将像照相机模块一样在智能手机中普及开来。"该公司是首家在单个裸片上整合加速度计和陀螺仪的MEMS芯片制造商。
InvenSense的陀螺仪和加速度计/陀螺仪组合芯片嵌入了一个运动处理器,用于执行识别用户手势所必需的复杂传感器融合算法,并帮助卸载应用处理器的任务。InvenSense公司计划明年在单个裸片上整合加速度计、陀螺仪和磁力计(电子罗盘)。
在国际消费电子展(CES)上,InvenSense公司的运动处理数据库首次出现在电视遥控器和智能手机中,前者用于实现3D手势识别,后者用于基本的电话功能(比如只需将手机拿起来靠近耳朵就能接听电话)。这两种产品都是LG Electronics公司的产品。Magic Motion遥控器用于LG的Infinia系列3D电视机。LG公司9.2毫米宽的Optimus Black智能手机据称是全球最薄的智能手机,可以识别多种独特的手势指令。
其它MEMS芯片制造商同样将手势识别算法集成进了他们的加速度计和陀螺仪。例如,Kionix公司有数十种型号的产品集成了内置手势识别算法,而且公司的Gesture Designer软件开发套件能够帮助OEM商设计出他们自己的手势控制效果。
"电视遥控器公司正在努力将手势识别技术集成进自己的产品中,这要求非常复杂的动作应用。"Kionix公司首席执行官Greg Galvin指出,"这里的亮点是将视听输入功能集中于电视机,允许用户通过一个遥控器实现频道切换、音乐下载、照片库浏览、或文字处理和互联网冲浪。"
在IPTV上执行应用程序和浏览网站内容要求遥控器具有像鼠标一样的精度,以便进行点击和基于手势的控制。"这些应用确实需要MEMS。"Galvin表示。
苹果用户已经非常熟悉2D手势控制,像收捏缩放(pinch-to-zoom)之类的指令已经被苹果的计算和智能手机对手所充分使用。
智能电视之年
Hillcrest公司创始人兼首席执行官Dan Simpkins认为,2011年是"智能电视之年",并补充道,"50多年来,电视市场终于首次迎来了一种新的输入技术。"Hillcrest公司的Loop指针是一种空中鼠标,专门针对那些想要将计算机与电视机连接起来的消费者而设计,并使用为IPTV开发的Kylo浏览器。
LG公司在CES上展示的Magic Motion遥控器使用的是Hillcrest公司的Freespace手势识别技术,可以帮助用户通过复杂的点击屏幕界面浏览基于网络和传统的电视内容。
菲利浦的uWand是竞争技术之一。菲利浦的手持式控制器选用集成式红外摄像头检测电视机发出的红外光,不需要陀螺仪就能实现精确的运动跟踪。但大多数其它IPTV遥控器使用的是MEMS陀螺仪。
举例来说,Movea公司在CES上宣布,笔记本电脑键盘供应商台湾Sunrex公司今年晚些时候推出的控制器将使用Movea公司基于MEMS的MotionIC平台和SmartMotion技术实现3D手势识别。
"下一代运动遥控器将能识别所有种类的新手势。"Movea公司全球营销经理Dave Rothenberg表示,"例如,父母可以通过空中示意签名解锁电视中的成人内容,当有小孩进入房间时做同样的动作又将激活父母控制功能。"
微软的Kinect则向传统智慧提出了挑战,将包括MEMS加速度计在内的手势检测硬件移出用户掌心,移进头端单元。微软在从GestureTek公司获得的光学识别技术许可基础上为Kinect开发了自己的3D识别算法。
Kinect公司在特定游戏(如虚拟排球)中的严格动作范围内对手势进行了分类。该技术通过用激光将一组规则的红外点阵投射到玩家身上对图像进行分段,然后测量每个点的反射强度。强度较低的反射点被认为是从背景反射回来的,较强的反射点被认为是从前景中的用户身上反射回来的。然后Kinect利用对用户动作的最佳推测驱动游戏中的化身。Kionix公司的MEMS加速度计有助于将摄像头更精确地对准用户。
这种技术牺牲了一定的精度以换取用户的移动性,据分析师们表示。"我不相信微软公司基于摄像头的识别系统有足够高的精度能够满足许多游戏玩家,他们可能愿意继续手握控制器,从而使索尼的Move成为游戏发烧友的更好选择。"iSuppli公司高级分析师Jérémie Bouchaud指出。
"微软解决方案适合其有针对性的用户:想要快速进入和离开游戏、并且希望拥有方便和即时体验的家庭。"IHS Screen Digest公司游戏负责人Piers Harding-Rolls表示。"另一方面,索尼的Move是一种混合解决方案,使用传感器跟踪运动,并使用摄像头跟踪位置。在目前这个阶段,索尼的理论是向游戏爱好者提供更精确的传感器技术。"
像Kinect那样基于摄像头的技术"不是手势识别的终结者。它有它的市场,但加速度计-陀螺仪组合也有自己的市场。"Gartner公司分析师Jim Tully认为。
"例如,Kinect摄像头不能在多用户场合检测复杂的运动,特别当一个用户被另一个用户阻挡时。当用户背对摄像头时效果也不好......这些时候需要多台摄像头,这在大多数情况下是不可行的。"
但GestureTeck公司表示,光学手势识别技术最终将战胜基于MEMS的器件。通过观察不断变化的相机图像,这家公司的技术已经跟踪数百万部手机的3D运动。
"今天,光学手势识别的分辨率和精度尚没有使用MEMS惯性传感器时那么好,但对大多数游戏来说已经足够。"GestureTek公司合伙创始人兼总裁Vincent John Vincent指出,"并且随着摄像头分辨率的不断提高,我们相信光学手势识别将最终超过MEMS,能够跟踪身体每个部分的运动,并能达到像素级精度。"
穿戴着Xsens公司MVN Motion Capture弹力纤维套装的演员(中间),身上镶满了ADI公司的MEMS惯性传感器。他模仿传奇漫画"钢铁侠"插图中的特征手势(左),作为创作派拉蒙影业公司"钢铁侠2”(右)动画的基础。
资料来源:Marvel, Xsens, Paramount
菲利浦公司的uWand技术非常适合与安装有MEMS的控制器相同的应用,但不使用MEMS器件。相反,它集成了一个红外摄像头用于检测来自电视的红外光,因此不用陀螺仪就能实现运动跟踪。
资料来源:菲利浦
(红外光束,红外传感器,光标+按键 通过RF到接收器)
手势识别领域中的"凯迪拉克"
与游戏发烧友可能认可的精度价值一样,游戏本身并没有像游戏开发或特殊效果电影动画那么重要。对于动画专家来说,手势识别领域中的"凯迪拉克"是Xsens Technologies公司镶满MEMS的紧身衣裤。这种套装上的加速度计和陀螺仪可以实现实时的动画序列预演。
Xsens公司使用ADI的高精度三轴加速度计、陀螺仪和磁力计实现详细的运动跟踪。例如,一些专家利用Xsens技术为电影"钢铁侠2"和PS3游戏"杀戮地带2"开发动画效果。这种技术提供的运动捕获解决方案可以在任何地方使用,无需复杂的基础设施。最后,Xsens公司预测,这种技术将针对消费类应用降低成本,支持类似Kinect的体验,但提供高得多的保真度,玩家数量也没有限制。
"微软的Kinect是一种优秀的解决方案,因为它不要求身体上安装任何传感器,但速度较慢,有时在跟踪人类手势方面显得比较迟缓。"Xsens公司首席执行官Casper Peeters表示,"我们的技术在能够使用的场合方面灵活得多,在跟踪穿戴者的精确移动中可以达到更高的保真度。但基于运动的游戏控制器和电话接口才刚开始出现。Xsens公司则是另一种打算,支持针对精确特征动画的高端运动捕获,未来将有更多有趣的应用出现。"
微软也将目光瞄准了未来,计划充分利用分别于2009年和2010年收购3-DV公司和Canesta公司时获得的3D跟踪技术。这些公司实际上在飞行时间(TOF)手势识别专利方面垄断了市场,特别是对移动设备而言。
飞行时间传感器测量的是红光线从物体反射回来到达某个特定CMOS传感器的时间,从而产生任意距离任何光照条件下的高精度3D深度地图。飞行时间深度地图技术还能与微软通过其GestureTek许可开发的3D摄像头手势识别算法完美地结合起来。
德国TriDiCam GmbH公司和一些其他公司声称拥有飞行时间传感器技术。但至今为止只有Canesta公司证实了这个概念,可以使用一个CMOS图像传感器创建在移动设备上方仅数英寸的地方挥舞的手的精确3D图像地图,即使在室外明亮的阳光下也没问题。
像Silicon Labs等公司能够利用便宜的红外和环境光传感器识别特殊应用手势,比如通过用手指在空中划一条线开启显示器或调整音量。
在OEM算法的支持下,微软Surface平台可以读取“挥动”手势。重新设计的屏幕可以挂在墙上。
Surface下的变化
微软在CES上展示了下一代Surface多点触摸平台。这种平台不再使用第一代产品中的5个摄像头装置,而是一种可以垂直安装的更薄设备。
这种Surface平台允许用户直接操作屏幕上显示的物体,采用内置算法解释各种手势,如选择、拖拉、放下、收捏缩放和其它类似触摸屏的指令(OEM商还可以开发他们自己的算法)。新版本"只有4英寸厚,能以水平、垂直或任何其它角度安装。"微软公司Surface部总经理Brad Carpenter指出。
关键是微软公司与三星LCD部门(该公司最终出厂销售的显示屏型号是SUR40)联合开发的PixelSense技术。针对交替式棋盘形图案的可见光或红外光,PixelSense技术在每个LCD像素点增加了一个光传感器。背光中的可见光和红外光发射器允许每个对应像素检测从用户双手或其它物体反射的光线。通过60帧/秒的速度采样传感器,该技术可以同时跟踪多个用户的运动,用户数量仅受屏幕可用表面积的限制。内置FPGA支持位置跟踪,并能读取在屏幕表面上放置的物体上的特殊应用标签,并通过红外传输方式将数据发送到带摄像头的Windows 7智能手机上。
在应用程序方面,Surface平台集成了运行Windows 7的AMD Athlon X2 245e 2.9GHz双核处理器以及一个匹配的AMD Radeon HD 6750图形处理器。
"这种40英寸屏幕将由三星的LCD部门以7600美元的价格向全球市场发售。"微软公司的Carpenter透露。
微软的Xbox Kinect以PrimeSense参考设计为基础,使用两个CMOS成像器(一个用于红外光,一个用于可见光)检测3D深度,因此系统能够轻松辨别房间内的游戏玩家和背景物体。
暂无评论