AI「读」手语!Google释出最新演算法 利用21个点即时解读手部运动

▲Google日前成功开发出一套演算法,从单帧中推断出手部的21个3D关节点来提供高保真手掌手指追踪。(图/截自Google AI Blog)

记者王晓敏综合外电报导

拇指食指指尖相贴,其余三指自然伸展,对部分地区的人来说,可以很自然地从中解读出「OK」之意。手势解读对人类来说可能是相当自然的一件事,但即时手部姿势感知并解读,对AI来说可就是一项极具挑战性电脑视觉任务了。Google日前成功开发出一套演算法,令智慧型手机能够解读手语

Google在其AI部落格写发表最新的手部感知方法,该方法透过机器学息,从单帧中推断出手部的21个3D关节点来提供高保真的手掌及手指追踪。目前Google尚未为此技术开发出应用程式,但已开放此技术的演算法,让开发人员能加以利用并开发出自己的应用程式。目前为止,这类软体仅能在PC上使用。

Google工程师巴扎列夫斯基(Valentin Bazarevsky)及张帆(Fan Zhang,音译)在部落格中表示,这项免费公开的技术旨在成为「手语理解的基础」。Google发言人说:「我们很期待开发人员会想出什么样的点子。就我们而言,我们将继续展开我们的研究,使技术更加强大,进一步稳定对手语及手是的追踪,增加我们可以可靠地侦测到的手势数量。」

▲利用21个3D关节点,AI可即时解读手势所传达的意义。(图/截自Google AI Blog)

不过Google也坦言,这只是第一步。仅透过手势产生语音内容的应用程式,可能会忽略比手势者的面部语言做手势速度,而这些都可能影响比手势者所传达的意思。除此之外,该技术也不会将任何地域性因素纳入考虑。

听力损失行动(Action on Hearing Loss)技术经理维西纳勒姆(Jesal Vishnuram)表示,该计划是「听取」听障人士语言的良好开端,但仍需要许多配套功能,「从听障者角度来看,开发一种能将文本或语音翻译成手语的软体,以协助他们的日常对话、减少其在听觉世界中的隔阂,会更加有用。」

以往类似的技术开发都会受限于影像追踪技术。由于手指弯曲及手腕动作偶尔会遮盖部分手部,因此无法准确地进行全面追踪。为此,Google在手掌及手背上绘制了21个3D关节点,当手及手臂弯曲或两根手指接触时,电脑会更容易理解。

其他大型科技公司及研发人员也正试图开发手语解读技术。去年,微软与美国国立聋人理工大学(National Technical Institute for the Deaf)合作,为教室配置桌电,透过即时翻译员协助有听力障碍学生。另外,肯亚一名25岁的研发人员阿莱拉(Roy Allela)为其患有听力障碍的姪女打造出一副触觉手套,能利用Android应用程式,即时翻译手语并朗读,此发明也为阿莱拉夺下美国机械工程师协会奖项