「文字翻轉影片」成真?抖音推AI生成影片 專家擔憂這現象

「抖音」公开一篇「MagicVideo-V2:多阶高美学影片生成」的论文,表示抖音将更进一步让文本由AI生成影像,一举实现从文字到影片只需由AI产生的境界。撷自「MagicVideo-V2:多阶高美学影片生成」论文内容

无影无真相的时代来了吗?中国大陆短影音平台「抖音」近日预先公开一篇「MagicVideo-V2:多阶高美学影片生成」的论文,表示抖音即将跨越由文本生成音讯的技术门槛,更进一步让文本直接由AI生成影像,一举实现从文字到影片只需由AI产生的境界;但该篇论文让不少专家学者闻之变色,认为还需考量AI产制的影片是否有道德上的问题。

「北京字节跳动科技有限公司」近日抢先公开一篇名为「MagicVideo-V2:多阶段高美学影片生成」的论文,由12名陆籍专家挂名,内文揭露未来抖音如何利用文本产制出高品质的影片内容,只要有一段描述文字,AI就能自动转换成影像,还可以指定各种呈现的风格。

报告中提及的MagicVideo-V2,包括了将文本到图像模型、影片运动模组、参考图像嵌入模组及插图模组4大类,只要套用就像是让AI自行运用动画拍摄影片一般,一则影片立即就能生成。该论文还指出,为了确保影片的保真度和流畅度,MagicVideo-V2还运用了包括伸展台(Runway)、Pika 1.0(标榜为想法生影片的平台)、Morph(变形)、Moon Valley(标榜让想法动起来的平台)和稳定视讯扩散(Stable Video Diffusion)模型技术。

但外媒忧心,尽管抖音这项技术为影片的产生提供了一个崭新的前景,但AI产制出的内容是否还有道德上的考虑,都值得注意。

报告中提及的MagicVideo-V2,包括将文本到图像模型、影片运动模组、参考图像嵌入模组及插图模组4大类,只要套用就像是让AI自行运用动画拍摄影片一般,一则影片立即就能生成。撷自「MagicVideo-V2:多阶高美学影片生成」论文内容