☰

时论广场》善用Sora 人人都可成为专业导演（林建甫）

OpenAI推出的影像生成模型Sora，震撼全球。（示意图：shutterstock/达志）

最近OpenAI又推出了一项新科技，使用者给出一段文字描述就能由旗下最新的AI影片产生器Sora直接生成一段60秒的逼真影片，震撼全球。

9段Sora影片，包括走在热闹东京街头的时尚女性、淘金时代的场景鸟瞰、老式休旅车高速行走在山路、踏着皑皑白雪奔跑的猛犸象……。每段影片，看来都非常专业，运用镜头推移转换，准确地表达角色情感与和视觉风格。外媒《Wired》声称，这是没有在其他影片生成AI模型中看见过的真实感，并且生成的影片长于其他模型。

现在AI的智慧实在是突飞猛进。1980年代，我还在读大学的时候，有朋友告诉我交大就是一个很大的电脑学校，各科系都是在电脑里面的零件去分工研究。但是当时大家觉得电脑根本称不上一个脑，只是一部计算器而已。今天透过OpenAI的ChatGPT，电脑已经可以跟你聊天对话，一点违和感都没有。

根据OpenAI在官网上的介绍，Sora能够生成包含多名角色、特定动作类型以及大量细节的复杂场景，而且AI不仅了解用户在提示词所说的各种物体，还知道这些物体是如何存在于现实世界，进而营造出让人惊艳的逼真感受。

看起来AI逐渐可以摸透人类的想法，然而这还是大量计算的结果，不是像人类直觉的反应。不过令人担心的是，AI已经侵入人类的艺术工作层面。一般我们说科学的研究是逻辑推理，这种思考是「垂直思考」。电脑运算的速度很快，胜过人类，这可以让人类输得心服口服。但是这种艺术类的范畴，属于「水平思考」，不是直线逻辑的推理而是天外飞来一笔的想像。美学的东西，现在电脑竟然可以做得这么好，令人惊叹。

然而仔细思量，艺术作品人类还是可以进行逻辑的解析，将其脉络化，所以当电脑把诀窍写入程式，也可以依样画葫芦，做出类似的作品，或甚至是创造出新鲜的东西，也令人不得不佩服。最近网路流传一个故事，书法家孙大川写了个对联，右联：「酒二共识」，左联：「一盅各表」，广求横批，一直没人对得很好。没想到上网询问，ChatGPT居然回答对出了神横批：「合瓶共醇」，就像是神来之笔。

然而，这样的发展，令人担心的事就诚如我最近看到的一个段子，AI是不是发展错方向？AI怎么不是要帮我省却工作上的辛苦：倒垃圾、照顾小孩，反而是来抢走我的工作？

去年好莱坞的罢工，先是编剧抵制ChatGPT：抗议AI侵犯创作权益，后来又有编辑拒绝为ChatGPT产生的剧本草稿修改润饰，因为他们感觉这是为AI打工，虽伤害性不大，但侮辱性极强。另外在日本， AI绘图工具MIMIC也遭到绘师的集体抗议，因为只要使用者上传同一名绘师30幅以上的原创作品，给予 AI进行训练后，接着MIMIC就能自动产出与该绘师艺术风格相似的图片。这不但冲击到了绘师的商业利益，而且担心有心人士透过MIMIC生成与他们绘图风格相似的作品，接着在上面加注偏激文字、滥用与散布，那么网路上的人们又该如何分辨图片和讯息的真假。

回过来说，目前Sora影片还是有些缺点，例如影片中的角色可能走过雪地，没有脚印；可能咬了一口饼干，之后饼干却没有咬痕。目前Sora对于光影的移动掌握还不够精准，也还做不到准确描述一些物理作用的细节，比如人类手部的精巧动作，但一般人可能不会注意到，相信未来这一定可以改进解决的。

我们应该要如何面对这样的冲击？由于晶片、程式、算力还在突飞猛进的发展，AI再来应该更是等比级数的进化。工作及智财权的保障问题固然要解决，如何懂得驾驭新进的AI，善用它们来为人类工作，恐怕才是职场胜利者最该做的事。

「老高与小茉」这些YT（YouTuber）应该也很兴奋，因为从此不用在素材库里找不太合适的影片，全部可以自主贴近主题的生成。对于一般人，玩玩票，自己编个剧，就可以当导演，生成段影片，搞不好还可以找到自己被埋没的天赋。至于我，就等着Sora正式公布后，下个指令描述来生成影片，加入我的简报，让我的演讲更加生动。（作者为中信金控首席经济学家、中信金融管理学院讲座教授）

时论广场》善用Sora 人人都可成为专业导演（林建甫）

相关资讯