富士通发表新AI技术 实现世界第一高精度图像识别
富士通研究所发表新的人工智慧(AI)技术,透过深度学习可从关节位置识别复杂的人类行为,并成功实现了世界第一的高精度图像识别。
这项行为识别技术,透过深度学习来识别多个关节串联的复杂动作,或获取行为中相邻关节位置资讯。较过往未使用邻近关节资讯的常规技术相比,获得相当显著的进步。例如开箱取出物品,手、肘部及肩关节随着手臂弯曲和伸展,这样多关节相互变化的复杂行为也能获得识别。
富士通研究所于日前1月10日至1月15日在线上举行的第25届国际模式识别会议(25th International Conference on Pattern Recognition,ICPR 2020)中揭幕这项新AI技术的细节。
2021年中,富士通研究所将追加此项新技术至「行为分析技术Actlyzer」中,期待打造更高精确度且能快速应用的辨识系统。应用于检查工厂的工作程序以及检测公共环境中的危险行为,可望大力提升社会安全性。
近年来AI技术的进步,已实现深度学习从视频图像识别人类行为。
一般来说,利用AI进行人类行为识别取决于各骨骼关节位置的时间变化,包括手、肘部及肩关节的识别特征,然后将这些特征连接到简单的运动模式(例如站立或坐下)。常规技术下已能准确掌握每个关节的特性。再加上对完成训练的AI模型,进一步提供连接相邻关节的组合特征,来实现复杂运动的高精度识别。
富士通针对图形卷积神经网路(Graph Convolutional Networks,GCN)开发了一组新的AI模型,借由采取透过以人体关节姿势的结构为节点作为基础,以邻近关节(作为节线)所构成的图来执行图结构的卷积运算。
透过关节的时间序列数据,预先训练此模型可以优化与相邻关节的连接强度(Weight)并可以获取用于行为识别的有效连接关系。
这项技术利用骨架数据对行为识别领域的世界基准进行了评估。在实际数据中,与简单行为(如坐、立)相比,准确率和常规技术持平;然而,在诸如开箱或扔掷的复杂行为辨识上准确率则大大地提升,与常规技术相比提高了7%以上,成功达到世界第一的识别精度。