未来媒体访谈全新改版|王仲远:随着AI模型越来越大,创作想象空间越来越广

来源:封面新闻

在万物互联的5G时代,媒体智能化已经成为不可阻挡的趋势和发展方向。人工智能技术与媒体如何融合?智能化会带来哪些媒体伦理问题?进入智能时代,媒体如何做好社会的“瞭望者”?新浪新闻、封面新闻联合推出《未来媒体访谈》节目智能媒体专题,探讨与智能媒体相关的问题。

本期访谈嘉宾:

王仲远,博士,快手技术副总裁,MMU&Y-tech负责人。荣获2018年“《麻省理工科技评论》35岁以下科技创新35人”。曾在美团、Facebook、微软亚洲研究院任职,负责人工智能核心技术研发。

王仲远博士在国际顶级学术会议及期刊发表论文50余篇,其中包括美国著名科学杂志《自然》人工智能子刊《Nature Machine Intelligence》,以及获得国际顶级学术会议ICDE 2015最佳论文奖。出版学术专著3部,获得美国专利5项,中国专利30余项。在NLP、知识图谱研究领域及搜索推荐等实际产品系统中均有丰富经验与产出。

他的研究兴趣包括:自然语言处理、知识图谱、多模态、搜索推荐、深度学习、数据挖掘等。

以下为访谈实录:

主持人:

我们先从快手聊起,作为国民短视频APP,我们都知道快手拥有海量的内容、超高的流量,还有高用户的粘性。在这个做节目之前我们做了一组调查,有76%的快手用户在这个短视频里面它是有配乐的,高达90%的人群,他们期望短视频有配乐,我们不禁就有点好奇,为什么用户在创作短视频作品时,对于音乐有这么强的一个依赖性?

王仲远:

我觉得音乐是一个非常神奇的艺术,对于快手的用户而言,每天其实他会刷几百个视频,那么一个熟悉的音乐,对于他去看一些新的视频的时候,其实会有一种新的独特的熟悉感。其实早在35000年前就已经有了人类的第一支的乐器是德国的骨,在那个时候音乐其实主要存在于皇族贵族。所以我们可以看到在国内的话,这种编钟其实它从周朝开始兴起,国外其实整个音乐也基本上处在宗教以及皇族当中。

那么进入到了工业化时代,其实随着这种机械工艺的制作水平的提升。乐器之王钢琴的诞生使得音乐进入到了更多的百姓的当中。

到了电子化的时代,其实音乐又有了新的一些发展,所以音乐其实已经从一个少数人才能欣赏的这样的一个特权阶层所有的一种艺术形式已经到了每一个普通用户都能欣赏到的一种艺术形式。

进入到现在的AI时代,在这些年,其实随着短视频平台的兴起,越来越多的神曲是从我们的短视频平台上兴起的,所以我们可以看到有越来越多的这种洗脑的神曲,让人一听就非常的上头,然后其实大家也会非常的喜欢。

主持人:

像您刚才所说的音乐在随着技术的发展而产生了很多新的表现的形式,在电子化时代,电子技术的发展创造出了自然界机械无法发出的声音,所以让音乐的表现力更加的丰富,那么我们现在步入到人工智能时代,AI技术能够帮助音乐实现哪些变化呢?

王仲远:

在AI时代,有可能我们能够让AI去帮助我们一起去创作音乐,去演唱我们的歌曲,所以使得音乐的创作会进入到一个新的阶段,那么它不再是音乐人所独有的一种能力,而是普通的用户都能够去尝试创作属于自己的音乐,去演唱自己的歌曲。

主持人:

刚才您说的这些带来的这些变化,又能为短视频创造一个什么样的新的发展空间?

王仲远:

在短视频其实它是包含三个阶段,包括短视频的创作理解以及短视频的分发。在每一个阶段我们其实都使用了大量的AI的技术。那么在短视频的创作环节,我们其实投入了非常多的AI工程师,使用AI的模型去帮助我们做一些音乐的创作,以及 Ai歌手的研发,我们都在做各种各样的努力,希望让创作进入到一个普惠的阶段,希望每一个用户都能够用非常便捷的方式创作出短视频,所以我们现阶段已经有一些像AI音乐、AI歌手、AI导演以及像AI的虚拟人、AI主播这样的一些项目。

主持人:

您刚才聊到了 AI歌手和AI音乐,我们非常的感兴趣,所以说像我们作为人工智能的一个分支,我们都知道智能语音正在被用到越来越广的越来越多的领域,AI歌手更是一个多学科交叉的体现,我们想了解一下从2019年到现在,AI歌手经历了怎样一个迭代的过程?

王仲远:

在AI歌手过去这两年的研发当中,我们其实也经历了两个大的阶段,从一个传统的一种我们把它称之为word模型,它是一个基于信号处理的,将这样的一个文字变成一个演唱出来的这样的一种形式。到现在我们基本上都已经基于了深度学习的网络模型,所以我们有了我们的网络的声码器,那么它能够基于我们的大数据,通过这样的一个反复的学习,使得AI的模型能够模仿出歌手的演唱。

主持人:

AI歌手出现正在挑战着真人歌手的地位,带来一个不一样的科技感,我们就会好奇说,在未来或者是目前为止,这个技术角度,AI歌手有没有可能顶替真人歌手?

王仲远:

每一次技术的变革,其实我们更期待的是如何去拥抱技术,使得技术与人和谐相处。当前其实我们的AI歌手的演唱水平,经过过去两年的技术迭代,在我看来已经基本接近一个普通歌手的水平,但是它依然有很多的问题。比如说真人的歌手他在演唱的时候会有他的情感,会有他的演唱的技巧,以及他在不同的场合的一些临场发挥。但是在我们目前的AI歌手的这种模型,依然是在追求使得他唱得准,使得他能够把整首歌曲给演唱下来,所以其实我在我看来,他跟人还是有很多本质的区别,并不期待AI歌手能够非常快速的对我们真实的歌手有一种顶替的作用。但是它其实会是一个帮助我们的用户有更加趣味性的能够去互动,能够去欣赏,以及使用自己的音色去演唱出属于自己的歌曲,这样的一个有趣的一种互动的形式。

主持人:

您刚才描述的基本都是 Ai歌手的短板之处,它的优势是什么呢?

王仲远:

它的优势是他总能唱的那么好听

主持人:

总能唱的那么好听?只就只有这一个优势吗?

王仲远:

这是应该它最大的一个优势,我们的AI歌手还是能够通过大量的数据的学习,使得他的演唱水平是远超普通用户的。同时我们也正在研发能够把自己的音色融进去,我们期待有一天我们的用户也许只需要把歌词读出来,然后他就能够听到用自己的音色唱出来的歌曲了。

主持人:

我们都知道这个真人歌手录制一首,成品歌曲需要消耗很多的精力和时间,AI歌手可能几分钟就录制完一首歌了,而现在 AI技术的发展可能已经基本可以做到让普通人的人耳可以听不出 AI的歌手和真人歌手的唱歌的一个区别。那么是不是可以这么理解,就是真人歌手的一个生存空间正在被 AI歌手所倾轧呢?

王仲远:

其实计算机的一个优势就是它算得特别快,它通过这样一个海量数据的学习,使得他去探索整体的这种艺术的空间的速度也是非常快的,所以您可以想象我们的一首音乐确实对于音乐的制作人,快则可能几天,慢则可能一两个月才能创作出一首音乐,然后我们的歌手可能要花几天的时间才能够去录制一首歌曲,但是所有这些对于AI的模型来说,它只需要几分钟,乃至几十秒的时间就能够完成。

主持人:

作为AI音乐的爱好者,我们想知道传统音乐的制作流程是我们先作词作曲,然后是编曲,最后进行一个录音和混音,那么在AI技术的帮助下,AI的作词和AI的旋律的创作跟传统的模式有什么不同?

王仲远:

其实从流程上来看,没有什么特别大的不同,更多的是在每一个环节,我们的AI的模型都能够帮助人们去探索新的可能性,而且是非常的便捷和快速,它其实是通过海量数据的学习,使得他知道把什么样的音符组合起来,是一个人们比较喜欢的这样的一种旋律。

主持人:

我们移步到 AI歌曲和短视频创作的结合,短视频我们都知道这个优点是传播的非常快,而且非常广泛,AI歌曲的创作加短视频对于大众音乐的发展有哪些帮助?

王仲远:

我们原来的音乐通常以流行音乐为例,通常它是3-4分钟,但是在短视频时代,它的一个音乐的节奏可能只有十几秒,所以在这样的新的发展阶段当中,其实音乐也需要去有一些新的发展形势,那么把AI在融入之后,使得我们海量的用户都能够创作出一些音乐,同时又通过其他用户的这种消费的行为,能够选出那些真正让人非常上头上脑的这样的一些神曲,那么这种非常好听的一些音乐或者非常让人喜欢的音乐也能够更快的涌现出来。

主持人:

有没有哪一个短视频是利用了音乐和视觉AI的技术进行了混合的创作,让您觉得印象非常深刻的?

王仲远:

我想短视频的用户在前几个月应该都有听到过一首吗咿呀嘿,它能够对于很多的用户来讲,只需要上传一张照片,就能够让这个照片上的人活动起来,并且伴随着《吗咿呀嘿》这样的一个音乐的节奏,活动起来非常简单,但是又非常的有趣。那么类似这样的一个火爆全网的一些视觉以及音乐结合的一些形式,这种爆款的玩法在短视频平台上是不断的涌现的。

主持人:

海量短视频用户的使用,对于AI学习,尤其是对AI的创作方面有哪些帮助呢?

主持人:

用户能够更加便捷的去创作出一个属于自己个性化的音乐,也能够创作出非常高质量的视频,并且能够通过其他用户的一些反馈的行为,能够知道自己创作的作品,别的用户是不是喜欢,所以它会使得一个从创作到反馈的这样的一个流程更加的快速和便捷化,同时因为有海量用户的这些行为,也能够帮助我们的模型更好的去学习适合短视频时代的这样的一些音乐以及视频。

主持人:

现在各大音乐平台都已经有了微软小冰的音乐专辑,而且我注意到很多短视频音乐短视频的APP,也相应的推出了AI技术相结合的说话成歌的新功能,就是将用户说出的歌词和AI作曲相互的匹配,快速的生成一首全新的歌曲,那么这首歌的版权应该归个人所有,还是应该归于我们AI的技术团队呢?

王仲远:

这是一个非常好的问题。其实进入到一些新的时代,随着技术的发展,其实会带来很多关于法律伦理道德方面的一些探讨,那么在音乐版权、像AI音乐版权这一块,应该来讲还处在一个非常开放讨论的一个阶段,那么我个人会认为在这个过程中创作出来的AI音乐,那么它与我们背后的AI模型的研发团队肯定是有非常密切的关系,其中有一部分的版权应该属于AI模型的研发团队。但另外一方面,如果我们的用户基于这样的AI创作出来的歌曲,有了很多自己独到的新的改编和创作那么版权的问题我觉得是可以被进一步的讨论,是不是应该双方共享或者有其他的一些方式。

主持人:

假设说AI技术是根据某一个知名的音乐人的曲风进行深度的学习,然后根据他的曲风创作出来的一首AI歌曲,这样的版权应该归谁所有,是不是应该归知名的音乐人所有呢?

王仲远:

如果我们的AI音乐能够把贝多芬的音乐风格重新学到,在几百年后的今天,我们能够创作出更多的贝多芬风格的音乐,这应该是一件非常美妙的事情。

主持人:

您作为快手的技术负责人,怎么去考虑 AI技术布局和视频创作布局?

王仲远:

相信大家也听过近期非常火热的一个名词叫元宇宙,它可以把很多的技术都融合在一起,使得我们开创一个新的虚拟的世界数字的世界。那么像短视频只是当前移动互联网时代的一个产物,大家能够利用碎片化的时间去消费我们的短视频,但是技术的发展是没有上限的,我们可以看到现在有越来越多关于真实世界和数字世界如何更好的融合。那么我们可以想象在不远的将来,我们可以有真人,也可以有数字的虚拟人,那么都可以在不同的时间和空间进行对话。

主持人:

我们刚才一直在讨论当前的AI音乐技术,我们来聊聊未来,AI歌手在未来可以与真人歌手进行一个互动吗?

王仲远:

答案是肯定的!我想在不远的将来,我们的AI歌手和我们的真人歌手就一定可以进行互动,AI歌手只是我们其中的一种艺术创作的形式,那么对于人类而言,除了音乐而言,还有非常多种艺术,所以我非常期待在各种艺术创作上都能够有AI的身影。

主持人:

目前比如说我们在国际上,我们讨论人工智能写作技术在突飞猛进的发展,比如我们经常看到一些新闻、财经类新闻、包括一些体育类新闻以及广告邮件等内容都是由人工智能程序写出来的。我们作为观众想知道一点,AI音乐的技术在国际的领域上现在发展是一个什么样的情况?

王仲远:

其实不止AI音乐,包括像AI的文本的创作、或者说 AI剧本的创作、AI写诗、AI的小说的创作、其实这些年都有非常快速的发展。就技术而言,这些年我们的AI的模型是变得越来越大,AI模型的大小通常我们会用一个参数的量级来做一个评判,大概在几年前这样的参数可能还在10亿的量级,但是这两年已经逐步的突破了百亿的参数、千亿的参数、万亿的参数。那么以大家可能技术领域比较耳熟能详的一些大模型,比如说GPT-3,它的参数已经到的到了千亿量级。那么有了这种千亿量级的AI模型,他所能够去做一些智能的问答,能够去写像您刚才提到的写新闻,能够去做小说的创作,以及能够去做一些艺术的创作,比如说自动的作画,然后以及产生AI的音乐。

主持人:

谢谢仲远老师今天来参加我们的节目,我们很期待下一次和您继续对话。

王仲远:

谢谢。