Soul CTO 陶明:人和AI,如何“持续地聊天”?|36氪专访
作者|宋婉心
编辑|郑怀舟
进入2024年,国内大模型开始走入不同于海外同行的发展路线——从投入底层模型转向探索应用层。
在C端,普通用户对于大模型到底存在怎样的真实需求,是厂商们实现AI落地的关键。
前段时间在迪拜举办的GITEX GLOBAL大会上,Soul展示了其在大模型落地社交场景的最新进展,比如最新自研的3D虚拟人多模态AI交互体验。会上,36氪和Soul CTO 陶明进行了交流。
从以语音语义理解为基础的大模型横空出世以来,“聊天”就是刻在大模型骨子里的应用场景,如今诸多大模型厂商的产品,也是以聊天为场景来做搜索及互动。
但进一步的问题也随之浮出水面,用户为什么要和机器人聊天?这样的一对一聊天能持续多久?这一需求量有多少?
陶明向36氪表示,从Soul的实践来看,如果人和AI不在场景里面,“持续地聊天”有很大门槛。这也是当下AI聊天产品共同面临的难点。
“AI只具备认知能力并不够人格化,还必须要有感知和长记忆能力,才能给用户带来更多的体验。”
2020年时,Soul 就已正式启动对AIGC的技术研发工作。目前,Soul 已先后上线了自研语言大模型 Soul X,以及语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。
而如果从更早先的基因来看,在2016年创立之初,Soul就是一款基于AI推荐技术的陌生人社交产品。
当时Soul没有采用导入通讯录现实关系或者LBS的模式,而是采用了AI的解决方案,通过基于AI算法的灵犀引擎,对用户在平台上的内容及行为进行分析,并推荐存在社交可能性的其他用户。
到了大模型时代,Soul拥有了更好的AI工具后,如何革新社交场景?以下是36氪和Soul CTO陶明的对谈精编:
01 关于AI在Soul的应用
36氪:看到Soul在Gitex主要展示的还是国内版本,海外的还没上,原因是什么?
陶明:我们在海外有产品,但体验层面其实以及说给用户端创造的这种粘性还不太够,所以没有把海外的产品给放出来。
但不管是海外产品还是主产品,只是面向不同的市场,有不同的产品表现形式、功能以及场景,但底层希望把它打通,所以展示的基础技术能力是一样的。
36氪:Soul的两个AI模型在降本增效上有怎样的体现?
陶明:一个(模型)是基于形象层面的3D大模型。Soul从2020年就开始探索,希望用户在空间中打造另一个人设,同时一键生成自己的形象;另外一个是多模态大模型,希望用户在Soul里面不仅能跟真人进行对话,还能跟AI进行对话。这两条线并行往前走,AI 大模型感知层面已经蛮成熟。
组织层面来讲,原来的各个职能进行了重组,分 NLP、3D、CV、语音等,团队把面向单模态模型的所有工作全部 close 掉,打造一个融合团队来构建多模态模型。
技术层面,组织一定会带来技术方向的改变,所以现在整个技术上只有两条线,一条线是围绕类似 GPU 融合去打造 3D、CV、语音的多模态模型;另外一条线是围绕最近 OpenAI 发布的 o1 模型这个思路去尝试。
我们现在已经非常聚焦,不会在其他的技术分支上再投入资源。这样的话其实就相对降本了。
36氪:从用户本身来说,和一个数字人进行交流,是否是一个真实需求?
陶明:人机对话是产品基础的原子能力,但不能直接把原子能力推向用户,而要构建一个 AI being 和 Human being 共存的社区。这个社区其实并不是单点聊天就能够维持住的,需要更多 AI与人共处的场景。
另外在单聊这一块,包括大模型六小虎在内,他们做的一些 AI聊天产品,都有能力单独聊,但难的是“持续地聊”,人和AI不在场景里面,单聊是有蛮大门槛的。
所以为什么我们要坚持GPT-4o这个方向,AI 只具备认知能力并不够人格化,还必须要有感知能力,才能给用户带来更多的体验。
36氪:按照那些交互场景的方向往下发展,它跟奇迹暖暖这样的陪伴式游戏有什么区别?
陶明:恋与制作人这种,聊天互动是一次性的,但Soul的不同是,比如今天你感冒了,它可能第三天还会记得并问你感冒好了没有,这个感受是完全不一样的,这和“你说一句他回一句的”机械式沟通完全不一样。
所以一定要加强AI的感知和记忆能力,这是最重要的事情,
36氪:如何实现AI的长记忆能力?
陶明:最开始是搜索思路,回答之前搜机库把答案存下来;后来做了个 AI 小模型,在进入对话大模型之前,小模型会帮用户提炼记忆点,可能有数百个记忆点,时间越长记忆点所涉及范围会越广。
现在设想的是对长记忆数据直接输入进去,但这是一个大的技术方向,里面还有很多细节,比如记忆不能说完全是持续的,比如整个记忆里面某个点重复多次,不同时间点感冒应该取哪一次?不同场景是不一样的,这需要人工去做一些标注辅助,不是一个模型就能解决的。
所以,端到端去解决用户体验还有改进空间,抛开产品、运营,很难纯技术解决端到端。
36氪:目前soul更看重的指标什么,是用户的时长还是用户的单人资产成本等?
陶明:现在还是更关注活跃用户,因为时长并不能代表全面的活跃概念,所以还要看全盘的活跃。因为AI本身是一个普惠的工具,不能只是去服务某一群人,而是Soul里面任何一个用户都能够受益。
02 关于大模型应用前景
36氪:你们训练是租赁芯片吗?
陶明:有两种类型,我们自身没有ABC类机房,一方面我们在各个云平台买了独占的卡,另外一方面买了一些弹性的卡。
这也是从成本的角度去考虑,如果去年买了几千张卡,到今年卡的价值就已经下降了60%了。我们现在在整合资源的层面,尽量把固定成本转变为可变成本。
36氪:现在行业内大模型研发难点在哪?
陶明:没卡。我之前在美国,跟Llama的人聊过这个事情,因为Llama的一些技术文档其实非常详细,我就问,这么详细不怕你的竞争对手或者海外的一些客户会追上你吗?
他们说,释放这种技术文档,其实很多人看到了,但是他没法去做,原因就是没有卡。此外还有时间问题,每个技术细节去跑训练需要大量时间。
36氪:六小虎里有的公司预训练节奏开始收缩了。
陶明:因为在预训练层面的概念,大家已经看到天花板在哪里了,所以是当前立马达到天花板、还是短期达到、还是未来长期达到,都是一样的,已经没有意义了。当面对一个确定性的东西,知道每个玩家最后的底牌是什么,大家的心态就变得没有那么焦虑了。
36氪:所以你觉得瓶颈在哪?英伟达吗?
陶明:最终是在英伟达,但现在看来OpenAI还在引领。
36氪:大模型更新的主要瓶颈是因为 B200 还没上市么?
陶明:对,它是一个很重要的因素。但对国内来讲,现在其实不是资源的问题,国内资源没有那么缺乏,尤其是从去年下半年开始,原来很多囤卡的卡商现在都在抛货,只要想去拿都能拿得到,就看愿不愿意投资做这么大的投入。
但海外确实是卡资源的问题,国内短期不是算力的问题,是每家公司短期怎么干的问题,相当于六小虎搞预训练,比如要达到GPT的水平,但达到之后又能做什么,下一步怎么办?其实还想不到。
36氪:这一轮AI技术浪潮,你们是产品推着技术往前走还是技术研发推着产品发展?
陶明:原来的逻辑是产品出需求,然后技术实现,现在情况会有一些不同。
现在Soul内部有一个群,这个群里产品和AI算法工程师,都可以提需求,其实换句话来讲已经不分产品和工程师了,从现阶段来看,工程师提的需求反而会更多一点。
技术工程师更知道AI现在能做什么,不能做什么,所以他们提的很多需求是具有确定性的,但这种情况是当下技术阶段决定的,关于AI的边界,最终产品和工程师的认知会拉平。
36氪:现在技术团队大概有多少人?
陶明:技术团队不到三四百人的规模,但是AI这块占了将近一半。
36氪:AI的人是新增的还是以前的人转的?
陶明:原来就有这块职能的人,现在又扩充了。
关注获取更多资讯