“Sora目前仍不够可靠,应用场景受限”

近日,博主“AI疯人院”在网络上发布了一部利用AI技术生成的《西游记》动画短片。短片中展现了错落有致的宫殿群、郁郁葱葱的花果山,还有山间云卷云舒、山石崩裂等动画画面,令众多网友赞叹不已。这段短片利用了AI规划分镜并绘制图片,再辅以“图片生产视频”软件让图片“动起来”。视频作者冯先生在接受媒体采访时表示,这段视频如果人工制作至少需要半年,而自己在AI的帮助下用时一周就完成了。

值得一提的是,上述动画短片并非由AI直接生成,在动作画面上也有局限性,无法实现复杂的打斗场景。然而,短视频生成模型Sora的问世,让AI根据指令直接生成复杂逼真的动画成为可能。

北京时间2月16日凌晨,Sora“横空出世”。这是OpenAI推出的一款能根据文字指令即时生成短视频的模型。OpenAI曾在2022年11月30日发布名为ChatGPT的全新聊天机器人模型,开启了AI新时代。此番,OpenAI强势推出又一王炸Sora,将带来哪些改变?

谈及OpenAI开年的这一震撼级发布,多名业内专家在连线中向南都记者表达了一个共识,即目前的Sora功能让人眼前一亮,但仍未完全进化。

A

眼见为实?深度生成视频以假乱真 AI监管需综合治理体系

Sora采用Transformer与扩散模型结合的技术路线,能够生成长达1分钟的高清视频,视频中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

2月16日,OpenAI宣布推出文生视频大模型“Sora”,迅速引发AI圈的关注。Sora展示的全新影像画面精细生动,远胜于此前生成式AI所生产的动画内容。这款模型不仅能理解用户的要求,还了解物体在物理世界中的存在方式。

中国人工智能产业联盟安全治理委员会专委会副主委、浙江大学教授潘恩荣认为,生成式AI从文本到图像再到视频,是一个快速发展的过程。从目前Sora官方所发布的样片来看,其强大的图像视频生成能力在某种程度上确实能达到以假乱真的效果。虽然客观实践并不会因人工智能变得虚幻,但是人的认知发生了改变。

“可以认为我们改变了一些传统的观念,比方说‘眼见为实’。”潘恩荣告诉南都记者,这也会带来社会生活的一系列问题,例如视频证据要如何举证,如何证明视频证据的有效性等。“所以从人的认知的角度来讲,这个‘真实’就不存在了。”

Sora问世前,已经出现过多起不法分子利用AI技术伪造视频诈骗的事件。今年年初,有诈骗分子用AI假造香港特首李家超和特斯拉CEO马斯克的视频向香港市民推介一项投资计划。为此,1月24日香港特区政府紧急发布新闻公告,严正澄清。去年2月,浙江省一派出所接到报案。诈骗分子截取陈先生好友“阿诚”在社交平台已发布的视频,利用“AI换脸”技术,用合成的新视频假冒好友与陈先生聊天,从而实施诈骗。

Sora如果实现大规模推广,将大大降低普通人利用AI合成高质量视频的难度。据中国科学院信息工程研究所正高级工程师韩冀中介绍,Sora应用的技术与此前的深度伪造技术相互承接,又有所不同。深度伪造技术引起公众注意是从2018年开始的,当时的人脸“换脸”技术主要是基于GAN(生成式对抗网络)。后来,Transformer和扩散模型被成功用在文本生成图片和语音生成任务中,出现很多开源软件及成熟的工具平台。普通人简单学习之后就可以很快掌握并生成多媒体,比如让“孙燕姿”唱歌、“郭德纲”说英文等。

在此前技术的基础上,Sora采用Transformer与扩散模型结合的技术路线,能够生成长达1分钟的高清视频,视频中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。“Sora相比于之前Runway、Pika等的文生视频产品,生成的视频内容在三维空间的一致性、在时间上的连贯性上都取得很大的进步。”

鉴于Sora生成的视频内容高度逼真,韩冀中指出,基于Sora的虚假信息传播可能在国际冲突、国内政治、社会、经济安全等领域带来新的挑战。目前,国内外互联网平台在内容审核上都建立了针对政治谣言、色情、暴恐类信息的检测机制。因此,互联网内容无论是不是伪造合成的,带有明确特征的不当内容都能被较为有效地甄别和拦截。

但是,对于难以判断真假的信息,尤其是涉及热点舆情与名人明星的信息,在第一时间进行深度分析与研判,及时阻断其传播,依然有许多问题需要解决。随着未来AI生成内容越来越多,网络上将存在大量合成的文字、图片和视频,伪造合成的不一定是有害的,这就不仅需要在技术上改进,也需要建立更加完善的综合治理体系,才能有效实现安全防御。

据介绍,OpenAI公司仍在试图了解Sora的危险性,因此尚未向公众发布该系统。OpenAI针对Sora开展的“红队”演习中,专家们试图破坏AI模型的保护措施,以评估其被滥用的可能性。OpenAI发言人表示,目前参与测试Sora的都是“在错误信息、仇恨内容和偏见等领域的专家”。

这项测试至关重要,因为Sora可能会被别有用心者用来生成虚假视频,以骚扰他人,甚至影响政治选举。学术界、商界、政府以及AI专家都很担心,AI生成的“深度伪造”内容可能会造成虚假和错误信息的广泛传播。美国加州大学伯克利分校的哈尼·法里德认为,与生成式AI领域的其他技术一样,人们有理由相信,文本-视频技术会持续改进。因为一旦Sora与由AI驱动的语音克隆技术相结合,将为不怀好意者提供全新工具,并创建出逼真的深度伪造内容,这将让人们越来越难以区分真伪。OpenAI发言人强调称,在将Sora用于OpenAI的产品之前,公司正采取几项重要的安全措施。例如已使用了自动化流程,旨在防止其商业AI模型生成针对政客和名人的虚假内容。

B

实现科技跨越式发展?目前应用场景有限 存在不符合物理规律等问题

其实,AI实现文字生成视频并不是新鲜事。韩冀中告诉南都记者,Diffusion网络的提出,催生了跨模态内容生成,使AI可以用文字生成视频,虽然生成的水平不及Sora。

而且,目前Sora的应用场景还很有限。“生成式AI从文本到影像世界,还没有到跨越式发展的程度。”腾讯机器学习平台部专家工程师姚军指出,目前Sora可以用来解决一些创意辅助的场景,但是不够可靠,所以应用的场景是受限的。

OpenAI公司坦承,目前Sora模型也有弱点。它可能难以准确模拟复杂场景的物理特性,且可能无法理解因果关系。例如,该系统最近生成了一个人吃饼干的视频,但饼干怎么吃也没变小,被咬的饼干也神奇地没有咬痕。此外,该模型还可能混淆文字提示的空间细节,也可能难以精确描述随时间推移发生的事件。美国普林斯顿大学的阿凡德·纳拉亚南指出,Sora生成的视频在描绘有大量动作的复杂场景时仍然会出现一些奇怪的小问题。

对于官方公布的一些Sora的“硬伤”。姚军解释道,因为其模型不是依靠内在的物理仿真引擎,所以所生成的视频常常显得“不可靠”,会出现不符合真实物理规律的地方,这是当下这类依赖大规模数据驱动的大规模参数模型迭代的技术思路难以根除的问题。

根据韩冀中的介绍,针对视频生成模型是否构建通用物理世界模拟器的一条有前景的道路,在学术界依然有不同观点。比如Meta的Yann Lecunn在Sora推出之前,就一直认为LLM(大型语言模型)不是世界模型的正确路径。“从Sora发布的一些失败视频中,也看到目前Sora对物体交互场景的理解还有缺陷。”

C

近两年可实现通用人工智能?“AGI在一两年内实现过于乐观,但Sora大规模推广在望”

针对此次Sora所带来的讨论,360创始人周鸿祎在社交网络上也分享了自己的看法。他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

谈到Sora最大的优势,周鸿祎表示,以往文字视频软件都是在2D平面上对图形元素进行操作,可以把视频看成多个真实图片的组合,并没有真正掌握这个世界的知识。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube和TikTok的视频都看一遍,对世界的理解将远远超过文字学习。一幅图胜过千言万语,而视频传递的信息量又远远超过一张图,这就离AGI真的不远了,不是10年20年的问题,可能一两年很快就可以实现。”

然而,在业内专家看来,认为AGI能在一两年内实现的观点过于乐观。姚军表示,“从原理上不难得出,这类模型不具备世界模型,没有真正的一套知识框架内核,只是依赖数据中体现的‘大数原理’,与现实世界有一定的重合,但远达不到‘世界模型’的门槛。”

潘恩荣也认为,AGI在一两年内实现不能作为一种真实的预测。“因为我们讲的通用人工智能往往指的是‘人’作为主体所作用的能力,然而现在人工智能能实现的事情,更像是‘物’的能力。”

对于公众何时能够大规模使用此类产品,姚军告诉南都记者,“预计很快。”姚军表示,在未见到严肃论文的情况下,仅凭感觉目前Sora是在吸取了很多LLM和文生图的迭代经验,部分解决了训练数据的约束,据说是用到了游戏引擎生成的视频数据,同时,由于传闻该模型的规模并不大,所以其成果预计可以很快进行应用落地。

但不论如何,有一件事毋庸置疑,模型后续效果的优化速度会越来越快,就像当时文生图技术出现后一样,一个季度一次升级,一年一个大变样。

有人靠Sora赚钱了?

“Sora教程解读”九成是网络资料 有电商平台上售价99元

“变现教程”大多是公开内容,Sora还未公测就有商家号称有“内测名额”。记者在多个电商、社交平台搜索以不同关键词搜索发现,市面上不乏有Sora的“教程”“解读”,售价在几元至近百元不等,其中90%的内容是能够在网络上公开找到的资料。

有“教程”列举了普通人

用Sora赚钱的“十大机会”

此外,记者还发现了以Sora为免费送资料,但疑似进群拉新并诱导付费的“套路”。记者浏览发现,在某电商平台上,这类“教程”的售价最高为99元,最低则只有0.1元(需要加群)。记者购买了其中一份“教程”发现,“教程”是一份在线文档,其主要的内容包括Sora的介绍、生成的视频、还包含大段的其他媒体、自媒体发布的解读文章,其中90%的内容都是能够在网络上公开找到的资料。

而另一份售卖的“教程”则列举了普通人能够用Sora赚钱的“十大机会”,包括售卖Sora账号和邀请码、使用Sora生产视频做自媒体、制作Sora使用教程知识付费等。

OpenAI至今没对公众开放Sora的测试权限,但记者发现,许多售卖“教程”的人表示拥有“申请Sora内测名额步骤”。

记者下载该份“教程”后发现,其所谓的“Sora内测名额”实际上是要用户以“红队”(网络实战攻防演练中的攻击方)身份在OpenAI官网进行内测申请,“教程”还颇为贴心地提醒用户“填写信息最好邮件写谷歌,居住国家选美国,专业知识选择计算机”,并表示“通过(不通过)全看缘分”。

49.9元至1.6万元卖课和合伙人资格

记者发现,相比认真售卖“教程”的卖课人员,还存在不少标价0.1元,或者干脆免费赠送课程的卖家。

记者通过电商平台购买了一份标价0.1元的“教程”后,被卖家拉入了一个“AI破局群”,该群不仅赠送“Sora资料”,还有“新人福利”,不过该份教程除了建议正常的赚钱方式,除写公众号获得粉丝外,还包括拉新和进一步卖课的“玩法”。

2月20日下午,记者加入该群后发现在短短两小时内就有9人被拉入了群聊,群管理员在群内发布消息称“曾经抓住了AI机会,成立了团队创业,all in(全部投入),放大,44天就有2万人付费,太强了”,“一句话,如果你也想入局AI,探索副业或者创业机会,值得加入,即使最终不玩AI,499的试错也值得。”

那么,如何深度参加呢?记者在课程售卖者的朋友圈看到,可以以1.6万元的价格成为“合伙人”,或者199元、49.9元的价格进入星球,购买专栏。此外,还能通过“拉新”赚到钱或者兑换这些知识内容,“加入‘战队’可以拿到最高比例50%的拉新奖励,499起步价,每单多赚100多。”

需要注意的是,上述“玩法”已经和Sora没有关系了。记者观看了一段群友分享的视频发现,这样的同类群数量多达100个,讲师在群内发表视频时直白表示,“我实际上不懂AI,像我们这样的普通人不需要特别懂AI,但依然能通过AI赚到钱。”记者浏览视频发现,其演讲的核心内容就是如何利用信息差,通过知识付费赚钱。

链接

Sora两大技术孵化强大功能

Sora日语意为“天空”,其背后的团队之所以选择这个名字,是因为它“让人联想到无限的创造潜力”。该系统是生成式AI的一个最新实例。生成式AI可即时创建文本、图像和声音。

Sora目前可单独使用文本指令,或将文本与图像相结合,来创建长达60秒的视频,而且是一镜到底。比如一段演示视频依据如下文字描述生成:一位时尚女性漫步于充满城市标牌的东京街道上,道路两边霓虹灯闪烁,透出阵阵暖意。Sora不仅准确呈现了细节,还生成了具有丰富情感的角色。

目前OpenAI官网上已更新了48个视频,包括一只狗在雪地里嬉戏,车辆在路上行驶,以及更奇幻的场景,如鲨鱼在城市摩天大楼之间游泳等。为实现更高水平的真实感,Sora结合了两种不同的AI技术。一是类似于DALL-E等AI图像生成器中使用的扩散模型,这些模型学习将随机图像像素转换为相干图像;二是“转换器架构”技术,其被用于将序列数据依据上下文内容拼接在一起。例如,大型语言模型使用转换器架构将零散的单词组装成人们可理解的句子。OpenAI将视频片段分解为视觉“时空补丁”,Sora的转换器架构可处理这些补丁。

英伟达公司高级研究科学家范麟熙在社交媒体平台X上称,Sora是一个可模拟现实世界的“数据驱动的物理引擎”。