AI「读」手语！Google释出最新演算法　利用21个点即时解读手部运动

▲Google日前成功开发出一套演算法，从单帧中推断出手部的21个3D关节点来提供高保真的手掌及手指追踪。（图／截自Google AI Blog）

拇指与食指指尖相贴，其余三指自然伸展，对部分地区的人来说，可以很自然地从中解读出「OK」之意。手势解读对人类来说可能是相当自然的一件事，但即时手部姿势感知并解读，对AI来说可就是一项极具挑战性的电脑视觉任务了。Google日前成功开发出一套演算法，令智慧型手机能够解读手语。

Google在其AI部落格写发表最新的手部感知方法，该方法透过机器学息，从单帧中推断出手部的21个3D关节点来提供高保真的手掌及手指追踪。目前Google尚未为此技术开发出应用程式，但已开放此技术的演算法，让开发人员能加以利用并开发出自己的应用程式。目前为止，这类软体仅能在PC上使用。

Google工程师巴扎列夫斯基（Valentin Bazarevsky）及张帆（Fan Zhang，音译）在部落格中表示，这项免费公开的技术旨在成为「手语理解的基础」。Google发言人说：「我们很期待开发人员会想出什么样的点子。就我们而言，我们将继续展开我们的研究，使技术更加强大，进一步稳定对手语及手是的追踪，增加我们可以可靠地侦测到的手势数量。」

▲利用21个3D关节点，AI可即时解读手势所传达的意义。（图／截自Google AI Blog）

不过Google也坦言，这只是第一步。仅透过手势产生语音内容的应用程式，可能会忽略比手势者的面部语言及做手势的速度，而这些都可能影响比手势者所传达的意思。除此之外，该技术也不会将任何地域性因素纳入考虑。

听力损失行动（Action on Hearing Loss）技术经理维西纳勒姆（Jesal Vishnuram）表示，该计划是「听取」听障人士语言的良好开端，但仍需要许多配套功能，「从听障者角度来看，开发一种能将文本或语音翻译成手语的软体，以协助他们的日常对话、减少其在听觉世界中的隔阂，会更加有用。」

以往类似的技术开发都会受限于影像追踪技术。由于手指弯曲及手腕动作偶尔会遮盖部分手部，因此无法准确地进行全面追踪。为此，Google在手掌及手背上绘制了21个3D关节点，当手及手臂弯曲或两根手指接触时，电脑会更容易理解。

其他大型科技公司及研发人员也正试图开发手语解读技术。去年，微软与美国国立聋人理工大学（National Technical Institute for the Deaf）合作，为教室配置桌电，透过即时翻译员协助有听力障碍的学生。另外，肯亚一名25岁的研发人员阿莱拉（Roy Allela）为其患有听力障碍的姪女打造出一副触觉手套，能利用Android应用程式，即时翻译手语并朗读，此发明也为阿莱拉夺下美国机械工程师协会的奖项。

AI「读」手语！Google释出最新演算法 利用21个点即时解读手部运动

相关资讯

AI「读」手语！Google释出最新演算法　利用21个点即时解读手部运动