☰

Soul CTO 陶明：人和AI，如何“持续地聊天”？｜36氪专访

作者｜宋婉心

编辑｜郑怀舟

进入2024年，国内大模型开始走入不同于海外同行的发展路线——从投入底层模型转向探索应用层。

在C端，普通用户对于大模型到底存在怎样的真实需求，是厂商们实现AI落地的关键。

前段时间在迪拜举办的GITEX GLOBAL大会上，Soul展示了其在大模型落地社交场景的最新进展，比如最新自研的3D虚拟人多模态AI交互体验。会上，36氪和Soul CTO 陶明进行了交流。

从以语音语义理解为基础的大模型横空出世以来，“聊天”就是刻在大模型骨子里的应用场景，如今诸多大模型厂商的产品，也是以聊天为场景来做搜索及互动。

但进一步的问题也随之浮出水面，用户为什么要和机器人聊天？这样的一对一聊天能持续多久？这一需求量有多少？

陶明向36氪表示，从Soul的实践来看，如果人和AI不在场景里面，“持续地聊天”有很大门槛。这也是当下AI聊天产品共同面临的难点。

“AI只具备认知能力并不够人格化，还必须要有感知和长记忆能力，才能给用户带来更多的体验。”

2020年时，Soul 就已正式启动对AIGC的技术研发工作。目前，Soul 已先后上线了自研语言大模型 Soul X，以及语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。

而如果从更早先的基因来看，在2016年创立之初，Soul就是一款基于AI推荐技术的陌生人社交产品。

当时Soul没有采用导入通讯录现实关系或者LBS的模式，而是采用了AI的解决方案，通过基于AI算法的灵犀引擎，对用户在平台上的内容及行为进行分析，并推荐存在社交可能性的其他用户。

到了大模型时代，Soul拥有了更好的AI工具后，如何革新社交场景？以下是36氪和Soul CTO陶明的对谈精编：

01 关于AI在Soul的应用

36氪：看到Soul在Gitex主要展示的还是国内版本，海外的还没上，原因是什么？

陶明：我们在海外有产品，但体验层面其实以及说给用户端创造的这种粘性还不太够，所以没有把海外的产品给放出来。

但不管是海外产品还是主产品，只是面向不同的市场，有不同的产品表现形式、功能以及场景，但底层希望把它打通，所以展示的基础技术能力是一样的。

36氪：Soul的两个AI模型在降本增效上有怎样的体现？

陶明：一个（模型）是基于形象层面的3D大模型。Soul从2020年就开始探索，希望用户在空间中打造另一个人设，同时一键生成自己的形象；另外一个是多模态大模型，希望用户在Soul里面不仅能跟真人进行对话，还能跟AI进行对话。这两条线并行往前走，AI 大模型感知层面已经蛮成熟。

组织层面来讲，原来的各个职能进行了重组，分 NLP、3D、CV、语音等，团队把面向单模态模型的所有工作全部 close 掉，打造一个融合团队来构建多模态模型。

技术层面，组织一定会带来技术方向的改变，所以现在整个技术上只有两条线，一条线是围绕类似 GPU 融合去打造 3D、CV、语音的多模态模型；另外一条线是围绕最近 OpenAI 发布的 o1 模型这个思路去尝试。

我们现在已经非常聚焦，不会在其他的技术分支上再投入资源。这样的话其实就相对降本了。

36氪：从用户本身来说，和一个数字人进行交流，是否是一个真实需求？

陶明：人机对话是产品基础的原子能力，但不能直接把原子能力推向用户，而要构建一个 AI being 和 Human being 共存的社区。这个社区其实并不是单点聊天就能够维持住的，需要更多 AI与人共处的场景。

另外在单聊这一块，包括大模型六小虎在内，他们做的一些 AI聊天产品，都有能力单独聊，但难的是“持续地聊”，人和AI不在场景里面，单聊是有蛮大门槛的。

所以为什么我们要坚持GPT-4o这个方向，AI 只具备认知能力并不够人格化，还必须要有感知能力，才能给用户带来更多的体验。

36氪：按照那些交互场景的方向往下发展，它跟奇迹暖暖这样的陪伴式游戏有什么区别？

陶明：恋与制作人这种，聊天互动是一次性的，但Soul的不同是，比如今天你感冒了，它可能第三天还会记得并问你感冒好了没有，这个感受是完全不一样的，这和“你说一句他回一句的”机械式沟通完全不一样。

所以一定要加强AI的感知和记忆能力，这是最重要的事情，

36氪：如何实现AI的长记忆能力？

陶明：最开始是搜索思路，回答之前搜机库把答案存下来；后来做了个 AI 小模型，在进入对话大模型之前，小模型会帮用户提炼记忆点，可能有数百个记忆点，时间越长记忆点所涉及范围会越广。

现在设想的是对长记忆数据直接输入进去，但这是一个大的技术方向，里面还有很多细节，比如记忆不能说完全是持续的，比如整个记忆里面某个点重复多次，不同时间点感冒应该取哪一次？不同场景是不一样的，这需要人工去做一些标注辅助，不是一个模型就能解决的。

所以，端到端去解决用户体验还有改进空间，抛开产品、运营，很难纯技术解决端到端。

36氪：目前soul更看重的指标什么，是用户的时长还是用户的单人资产成本等？

陶明：现在还是更关注活跃用户，因为时长并不能代表全面的活跃概念，所以还要看全盘的活跃。因为AI本身是一个普惠的工具，不能只是去服务某一群人，而是Soul里面任何一个用户都能够受益。

02 关于大模型应用前景

36氪：你们训练是租赁芯片吗？

陶明：有两种类型，我们自身没有ABC类机房，一方面我们在各个云平台买了独占的卡，另外一方面买了一些弹性的卡。

这也是从成本的角度去考虑，如果去年买了几千张卡，到今年卡的价值就已经下降了60%了。我们现在在整合资源的层面，尽量把固定成本转变为可变成本。

36氪：现在行业内大模型研发难点在哪？

陶明：没卡。我之前在美国，跟Llama的人聊过这个事情，因为Llama的一些技术文档其实非常详细，我就问，这么详细不怕你的竞争对手或者海外的一些客户会追上你吗？

他们说，释放这种技术文档，其实很多人看到了，但是他没法去做，原因就是没有卡。此外还有时间问题，每个技术细节去跑训练需要大量时间。

36氪：六小虎里有的公司预训练节奏开始收缩了。

陶明：因为在预训练层面的概念，大家已经看到天花板在哪里了，所以是当前立马达到天花板、还是短期达到、还是未来长期达到，都是一样的，已经没有意义了。当面对一个确定性的东西，知道每个玩家最后的底牌是什么，大家的心态就变得没有那么焦虑了。

36氪：所以你觉得瓶颈在哪？英伟达吗？

陶明：最终是在英伟达，但现在看来OpenAI还在引领。

36氪：大模型更新的主要瓶颈是因为 B200 还没上市么？

陶明：对，它是一个很重要的因素。但对国内来讲，现在其实不是资源的问题，国内资源没有那么缺乏，尤其是从去年下半年开始，原来很多囤卡的卡商现在都在抛货，只要想去拿都能拿得到，就看愿不愿意投资做这么大的投入。

但海外确实是卡资源的问题，国内短期不是算力的问题，是每家公司短期怎么干的问题，相当于六小虎搞预训练，比如要达到GPT的水平，但达到之后又能做什么，下一步怎么办？其实还想不到。

36氪：这一轮AI技术浪潮，你们是产品推着技术往前走还是技术研发推着产品发展？

陶明：原来的逻辑是产品出需求，然后技术实现，现在情况会有一些不同。

现在Soul内部有一个群，这个群里产品和AI算法工程师，都可以提需求，其实换句话来讲已经不分产品和工程师了，从现阶段来看，工程师提的需求反而会更多一点。

技术工程师更知道AI现在能做什么，不能做什么，所以他们提的很多需求是具有确定性的，但这种情况是当下技术阶段决定的，关于AI的边界，最终产品和工程师的认知会拉平。

36氪：现在技术团队大概有多少人？

陶明：技术团队不到三四百人的规模，但是AI这块占了将近一半。

36氪：AI的人是新增的还是以前的人转的？

陶明：原来就有这块职能的人，现在又扩充了。

关注获取更多资讯

Soul CTO 陶明：人和AI，如何“持续地聊天”？｜36氪专访

相关资讯