广东科技向“新”力丨华南理工大学徐向民、贾奎:颠覆水下作业,让机器人在浑浊水下也看得清
南方财经全媒体记者吴佳楠 广州报道
如今,我们正步入大模型赋能千行百业的智能化时代,这也意味着对海量数据抓取、计算的使用需求增加。比如在视觉计算方面,需要解决高质量图像增强、海量数据快速计算、复杂场景视觉分析等问题。
但由于复杂大模型的参数空间大、大数据带来大计算量、精准感知能力不如人脑,视觉数据的高效率处理挑战巨大,加上海量数据计算也带来巨大的开销,这些进而成为大模型全面覆盖的瓶颈。
近日,2023年度广东省科学技术奖揭晓,华南理工大学的视觉智能计算项目——基于认知机理与物理规律的视觉计算理论与方法,获得广东省自然科学奖一等奖。
据了解,为解决上述视觉计算难题,该项目在视觉计算模型中加入物理规律和认知机理的知识,限定模型优化边界,减少复杂度同时提升性能,为人工智能模型的发展提供借鉴,从而推动大模型的落地应用,目前,项目成果已进入示范应用与产业化推广阶段。在获奖之际,项目第一完成人、华南理工大学徐向民教授以及第二完成人贾奎教授接受了包括南方财经全媒体记者在内的媒体采访。
他们表示,视觉计算有众多应用前景,未来将在工业具身智能、远程医疗与健康服务、教育与数字文娱等领域发挥更大的作用。对人工智能的发展,建议接下来要加强基础研究,加大对AI基础理论和算法的研究投入,鼓励原创性研究,以推动AI技术的长期发展;同时,加强区域间的产学研合作,利用粤港澳大湾区的产业化和商业化,加速技术成果的转化。
项目已应用在实际产业中
南方财经:开展这个项目的初衷是什么?该项目有何技术创新点?
徐向民:我们团队多年来一直专注于视觉计算,早期的视觉计算方法远不如人脑的视觉感知。因此,我们的思路就是借鉴人脑的认知机理来设计视觉计算方法,以期取得性能的突破。在研究过程中,也意识到借鉴认知机理的视觉计算本质上是融入认知相关的机理,而视觉数据在计算机中的呈现是受客观的物理规律限制的,因此,我们也把物理规律加进来。
该项目有三个主要的技术创新点。一是针对雾霾等多变环境导致成像质量退化,我们融入成像物理规律进行建模,让图像从“看不清”变成“看得清”。二是针对中层特征。中层特征是视觉计算中中间层次的信息,是进一步获取高层语义的中间步骤。海量的视觉数据分布差异巨大且噪声复杂,使得模型对不同环境条件的数据难以保持稳定性能。我们基于低复杂度的认知机理,添加低复杂度约束,使海量数据的中层特征从“难算”变得“易算”。三是针对图像、视频数据内容复杂,高层语义感知困难的问题,模拟人脑的多通路认知过程,建立高层语义感知模型,使得视觉语义从“难知”变成“可知”。
南方财经:在你看来,当前视觉数据处理面临的最大挑战是什么?团队是如何克服挑战的?
徐向民:当前,随着数据量的增加和模型表达能力的增强,各类视觉处理算法的性能持续在提升,我认为视觉数据处理面临的最大挑战是可靠性问题。很多时候,模型在已构建的数据集有很好的效果,但是在一些新的未知数据可能出现意想不到的错误。这是由于数据驱动的方法是靠挖掘数据的统计规律,而数据覆盖不全面就有可能导致挖掘出来的统计规律只是局部正确。而人在应对不同情况时有很好的泛化性,这是由于人可以基于知识去进行迁移和泛化。因此,我们研究的特点是融入知识,也就是数据驱动和知识引导。项目所采用的物理规律和认知机理,都是某种形式的知识,提出成像物理规律认知约束下的底层图像恢复方法,是项目的一大亮点。该方法基于深度学习模型刻画物理规律的思想,深刻地影响了像素级图像增强领域的发展,启发了一系列基于深度学习的图像增强研究,如图像去雾、去雨、去模糊、去噪、超分、低光增强等,目前在部分行业龙头公司进行示范应用。
视觉计算拥有众多应用场景
南方财经:这项技术如何改变行业发展?
徐向民:以水下作业机器人为例,水下成像存在模糊问题,影响水下机器人作业效果。本项目技术可用于解决水下机器人作业时看得清的问题。我们在水下环境光估计部分,通过深度模型估算透射率为零点的RGB三通道亮度值,作为环境光成分,同时实现水下成像的去模糊和白平衡。目前,该成果使得水下成像看得清,大大提升了水下机器人的可靠性,也在行业龙头公司的水下作业机器人示范应用。
另外,服务机器人要与人互动,同样要解决看得清的问题。在光照条件不好的地方,成像质量下降,会影响机器人的决策判断。低光增强与大气成像具有相似的物理模型,其主要差别在于空气中雾的大气光使得画面变白,低光成像中环境光照低导致画面变黑。所以我们在项目中运用环境光估计方法,可通过深度模型估算的环境光照,从而实现低光增强,使得服务机器人在光照条件不好的地方也能看得清。
南方财经:目前该技术的应用情况如何?视觉计算在日常生活中已有哪些应用?
贾奎:我们将本项目视觉感知技术与具身智能技术相结合,创立了跨维智能,实现通用机器人操作,已为工业、物流和医疗等行业提供了成熟、高性能、便于集成的标准化产品。跨维智能已完成战略轮融资。
徐向民:目前,此项目基于深度模型刻画物理规律的思想,解决了水下和低光环境的成像质量差的问题,有效提升成像效度,在相关行业龙头公司的水下作业机器人、服务机器人以及安防产品中示范应用。成果吸引了相关行业龙头公司开展产学研合作,实现了高效的跨模态人体特征提取方法。目前,视觉计算技术在日常生活中的应用已经非常广泛。视觉增强可以提升拍照效果和恶劣天气下的监控成像效果。视频智能安全监控可以实时监测和预警安全事件的发生。无人驾驶技术使用视觉计算来识别道路标志、红绿灯、行人和其他车辆,以确保安全驾驶。以图搜图的检索,让我们可以通过对一个物体拍照来找到购物网站上类似的商品。在医疗领域,视觉计算技术可以辅助医生进行图像诊断,如分析X光、CT和MRI图像,提高诊断的准确性。
南方财经:展望未来,你希望这项技术还能在哪些领域发挥更大作用?对于大湾区乃至全国的人工智能产业发展有哪些建议?
徐向民:视觉计算有众多应用前景,未来将在远程医疗、教育娱乐中发挥更大的作用,如通过对表情、动作的识别分析人的心理健康状态,运动姿态辅助分析,虚拟现实交互中人体动作分析与内容生成等。推动粤港澳大湾区人工智能产业发展,一是要加强基础研究,加大对AI基础理论和算法的研究投入,鼓励原创性研究,以推动AI技术的长期发展。二是要进行跨学科合作,促进AI与其他学科如医学、材料、心理学等领域交叉融合,以解决更复杂的问题。第三,要建立完善的人才培养体系,从基础教育到高等教育,要培养不同层次的AI人才,适应各岗位对AI人才的需求。最后,要加强区域间的产学研合作,利用粤港澳大湾区的产业化和商业化,加速技术成果的转化。