☰

直击WAIC2023|旷视科技CTO唐文斌：多模态会是大模型的未来

《科创板日报》7月8日讯（记者黄心怡）当ChatGPT激起的大模型浪潮涌入国内，原本深耕与AI赛道的企业们，被认为是站在风口之上的那批。

在世界人工智能大会2023上，旷视科技联合创始人、 CTO 唐文斌接受了《科创板日报》的采访，他指出，相比语言模型，增加训练数据量和参数量对于计算机视觉模型的提升和收益，目前看并没有那么大，而多模态会是大模型的未来。

谈及国内外在大模型方面的差距，唐文斌坦言，不管是基础语言模型、还是多模态模型上，都存在一定的距离。“不过，这是可以迎头赶上的。在应用的探索上，也处于相对初期的状态。但未来会是繁荣的生态。”

算力和数据被称为大数据研发的两大挑战。“算力紧缺确实是当前的最大难点。其次，在数据方面，英语语料的质量比中文要高很多，这也对中文大模型的研发增加了瓶颈。”唐文斌提到。

除了基础大模型，行业大模型、企业专属模型已经成为AI落地的讨论焦点。对此，唐文斌表示，技术最终要结合场景才能明确其产生的价值。“所以，未必会是一个模型就能大杀四方，可能会提供一些通用能力，成为支撑上面的所有不同垂直应用的底层和基座。但从落地的角度，还是会从垂直领域先开始。”

尤其对于企业来说，数据隐私和安全性会是首要的考量因素。“比如，要把公司的知识库上公有云，对于不少企业来说是存在风险的。因而专有化部署，结合相关技术来保证数据不外泄，是存在一定的必要性。”

过去，AI公司主要依靠计算机视觉算法能力占据市场。而ChatGPT大火让业界把更多的目光投射到了自然语言预训练模型上。谈及旷视科技后续是否会有类 ChatGPT 的计划，唐文斌表示，“旷视不会单独做Chat类的应用，但对于GPT的底层模型能力，旷视一直在做研究，特别是多模态和数理逻辑方面。”

旷视CEO印奇曾强调，公司的战略方向非常坚定，即沿着AIoT、AI in Physical这一路径。唐文斌介绍，公司会较为专注把AI能力应用在物联网的场景，应用在物理世界之中。

“以物流领域为例，大模型技术有助于我们进一步弥补机器与人之间的鸿沟，提升无人叉车、AGV机器人等在仓储物流的流程上的效率。”

ChatGPT大火，也让业内对于迈向人工智能的未来有了更大的期待。而唐文斌认为，在AI的通用性和泛化性上，现在仍为时尚早，而旷视在“大模型变小”上已经开展了探索。

“旷视已经在尝试把算法量产。比如，当通用能力大模型在不同场景之中应用时，由于无法承担那么大的计算量，所以就用大模型来教一个小模型，通过这样的方式，来实现算法在长尾场景的量产供应。”

相关资讯