时论广场》善用Sora 人人都可成为专业导演(林建甫)

OpenAI推出的影像生成模型Sora,震撼全球。(示意图:shutterstock/达志)

最近OpenAI又推出了一项新科技,使用者给出一段文字描述就能由旗下最新的AI影片产生器Sora直接生成一段60秒的逼真影片,震撼全球。

9段Sora影片,包括走在热闹东京街头的时尚女性、淘金时代的场景鸟瞰、老式休旅车高速行走在山路、踏着皑皑白雪奔跑的猛犸象……。每段影片,看来都非常专业,运用镜头推移转换,准确地表达角色情感与和视觉风格。外媒《Wired》声称,这是没有在其他影片生成AI模型中看见过的真实感,并且生成的影片长于其他模型。

现在AI的智慧实在是突飞猛进。1980年代,我还在读大学的时候,有朋友告诉我交大就是一个很大的电脑学校,各科系都是在电脑里面的零件去分工研究。但是当时大家觉得电脑根本称不上一个脑,只是一部计算器而已。今天透过OpenAI的ChatGPT,电脑已经可以跟你聊天对话,一点违和感都没有。

根据OpenAI在官网上的介绍,Sora能够生成包含多名角色、特定动作类型以及大量细节的复杂场景,而且AI不仅了解用户在提示词所说的各种物体,还知道这些物体是如何存在于现实世界,进而营造出让人惊艳的逼真感受。

看起来AI逐渐可以摸透人类的想法,然而这还是大量计算的结果,不是像人类直觉的反应。不过令人担心的是,AI已经侵入人类的艺术工作层面。一般我们说科学的研究是逻辑推理,这种思考是「垂直思考」。电脑运算的速度很快,胜过人类,这可以让人类输得心服口服。但是这种艺术类的范畴,属于「水平思考」,不是直线逻辑的推理而是天外飞来一笔的想像。美学的东西,现在电脑竟然可以做得这么好,令人惊叹。

然而仔细思量,艺术作品人类还是可以进行逻辑的解析,将其脉络化,所以当电脑把诀窍写入程式,也可以依样画葫芦,做出类似的作品,或甚至是创造出新鲜的东西,也令人不得不佩服。最近网路流传一个故事,书法家孙大川写了个对联,右联:「酒二共识」,左联:「一盅各表」,广求横批,一直没人对得很好。没想到上网询问,ChatGPT居然回答对出了神横批:「合瓶共醇」,就像是神来之笔。

然而,这样的发展,令人担心的事就诚如我最近看到的一个段子,AI是不是发展错方向?AI怎么不是要帮我省却工作上的辛苦:倒垃圾、照顾小孩,反而是来抢走我的工作?

去年好莱坞的罢工,先是编剧抵制ChatGPT:抗议AI侵犯创作权益,后来又有编辑拒绝为ChatGPT产生的剧本草稿修改润饰,因为他们感觉这是为AI打工,虽伤害性不大,但侮辱性极强。另外在日本, AI绘图工具MIMIC也遭到绘师的集体抗议,因为只要使用者上传同一名绘师30幅以上的原创作品,给予 AI进行训练后,接着MIMIC就能自动产出与该绘师艺术风格相似的图片。这不但冲击到了绘师的商业利益,而且担心有心人士透过MIMIC生成与他们绘图风格相似的作品,接着在上面加注偏激文字、滥用与散布,那么网路上的人们又该如何分辨图片和讯息的真假。

回过来说,目前Sora影片还是有些缺点,例如影片中的角色可能走过雪地,没有脚印;可能咬了一口饼干,之后饼干却没有咬痕。目前Sora对于光影的移动掌握还不够精准,也还做不到准确描述一些物理作用的细节,比如人类手部的精巧动作,但一般人可能不会注意到,相信未来这一定可以改进解决的。

我们应该要如何面对这样的冲击?由于晶片、程式、算力还在突飞猛进的发展,AI再来应该更是等比级数的进化。工作及智财权的保障问题固然要解决,如何懂得驾驭新进的AI,善用它们来为人类工作,恐怕才是职场胜利者最该做的事。

「老高与小茉」这些YT(YouTuber)应该也很兴奋,因为从此不用在素材库里找不太合适的影片,全部可以自主贴近主题的生成。对于一般人,玩玩票,自己编个剧,就可以当导演,生成段影片,搞不好还可以找到自己被埋没的天赋。至于我,就等着Sora正式公布后,下个指令描述来生成影片,加入我的简报,让我的演讲更加生动。(作者为中信金控首席经济学家、中信金融管理学院讲座教授)