免费AI“神器”系列第11弹:苹果版ChatGPT超越GPT-4;腾讯版Sora已获3000星|钛媒体AGI

近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。

今天,钛媒体AGI梳理了免费 AI “神器”系列第十一弹,共五款,其中不少产品再一次拓宽了我们对AI的想象力。

苹果版ChatGPT来了。

产品信息:ReALM(Real-time Analysis of Live Media)是由苹果公司研究团队开发的一款设备端AI模型,参数量达8亿,某些性能超越了GPT-4,从而理解前后文关系,并且加快反应效率。

苹果 AI 技术将与Google、微软、OpenAI、亚马逊等科技巨头进行抗衡。

产品功能:首先,ReALM目前属一种模型技术,实际产品与GPT类似;其次,ReALM可利用大模型将参考指代问题(包括对话历史中的上下文、用户与设备交互式感知的非对话实体)转换为纯语言建模问题,使模型能够对用户的指令做出正确的响应;再次,ReALM也能用于理解图像中的文字内容,诸如电话号码或食谱资讯,由于ReALM模型参数量小,适合在手机和平板等设备上运行,有望显著提升Siri AI助手技术。

最后,目前暂时无法确认苹果是否会将ReALM AI模型实际用于iPhone、iPad、Mac当中,但苹果先前已经多次暗示将在2024年推出 AI 产品,借此提升产品使用体验,因此预期今年WWDC 2024期间将会有更进一步说明,可能会出现在即将到来的iOS 18和macOS 15中。

论文地址:https://arxiv.org/pdf/2403.20329.pdf

2、让图像开口说话,腾讯开源版Sora来了

继OpenAI、阿里之后,腾讯版Sora也来了。

产品信息:腾讯推开源技术框架AniPortrait,它可以通过一张人脸照片和音频生成一段高质量视频。与此前阿里发布的视频生成模型EMO的功能相似,但AniPortrait可直接开源,用户直接使用即可。

产品功能:AniPortrait可根据输入的音频和图像生成会说话、唱歌的动态视频,并保持人物面部表情流畅、生动且口型一致。同时支持多种语言输入,还可以对面部重绘以及进行头部姿势控制。

据了解,该技术框架的工作原理分为两个步骤:第一步AniPortrait会从音频中提取关键信息,再将音频通过两个简单的处理层转换成一个三维的面部模型,并确定头部姿势。第二步,将三维面部模型和头部姿态转换成一系列二维点,进行识别标注,再使用Stable Diffusion 1.5结合时间运动模块,根据二维标记点序列创建一系列连贯的肖像帧,形成动画,确保动画的流畅性和真实感。

对于AniPortrait目前存在对口型不太流畅自然的问题,腾讯团队称,接下来也会效仿阿里EMO方法,直接从音频来预测肖像视频的生成,以达到更好的效果。

截至目前,AniPortrait已经在GitHub上获得了3000 Stars星星

项目地址:https://huggingface.co/ZJYang/AniPortrait

论文地址:https://huggingface.co/papers/2403.17694

3、医疗护理保健模型——Polaris

产品信息:Polaris是由AI初创公司Hippocratic AI开发的一款用于医疗保健的大语言模型(LLM)系统,能通过实时对话为患者提供专业医疗咨询和指导,包括药物使用指南、治疗方案以及健康建议等。

产品功能:Polaris能与患者进行长时间、多轮次的自然语音对话,为其提供复杂的医疗咨询和指导,还能分析患者的实验报告和生命体征数据,帮助患者解读检查结果,监控健康状况的变化。此外,Polaris可以根据患者的健康状况和特定医疗需求,提供个性化的饮食和营养建议。

目前,Polaris已经发布了其二代模型——Polaris 2。评估结果显示,Polaris 2在医疗安全、临床准备、患者教育、对话质量等多个维度上与人类护士表现相当,甚至在某些关键维度上超越了人类护士。而在药物管理、实验报告解读能力上,Polaris 2已经超越了GPT-4和LLaMA-2 70B等大模型。

Polaris 2的运行成本也非常具有竞争力,每小时工作成本只需9美元,人类护士每小时工作成本是90美元,Polaris 2仅是其十分之一。

官网地址:https://www.hippocraticai.com/video

4、视频主体无缝替换——VideoSwap

产品信息:VideoSwap是一款由新加坡国立大学和Meta研究团队合作开发的视频编辑模型,支持在不改变视频背景、运动轨迹的前提下替换掉视频主体。

产品功能:在VideoSwap的帮助下,用户仅需一张图片就能替换掉一段动态视频的主角。比如将转头的小猫换成小狗,疾驰的SUV换成超跑等。

VideoSwap的原理是通过使用少量语义点来对齐物体的运动轨迹并改变主体形状,再利用图像扩散模型将视频运动层集成,以确保视频生成结果的时间一致性。

研究团队表示,VideoSwap通过大量测试,最终取得了SOTA(State of the arts)成绩,成为目前最好的视频变换模型。

项目地址:https://videoswap.github.io/

5、动画界“神笔马良”——BasicPBC

产品信息:BasicPBC是一项由新加坡南洋理工大学S-lab团队开发的动画自动填色AI技术,能自动为动画中的线条图着色,极大地提升了动画制作中的上色工作效率。

产品功能:用户只需要对动画的第一帧进行手动彩色化,BasicPBC就能自动将颜色填充到后续的所有帧。

为了帮助AI更好地理解动画的复杂性,研究团队开发了一个数据集PaintBucket-Character。这个数据集包含了丰富的3D角色渲染线条艺术及其彩色版本,模拟了真实动画制作中的各种细节。在大量实验中,这项自动着色技术显现出了其在人物运动、阴影变化和被遮挡等复杂场景时的优越性。

项目地址:https://github.com/ykdai/BasicPBC

(本文首发钛媒体App,作者|任颖文,编辑|林志佳)