☰

字节音乐大模型炸场！Seed-Music发布，支持一键生成高质量歌曲

机器之心发布

机器之心编辑部

放假期间，本 i 人又领教了被 e 人支配的恐惧。

跟 e 人朋友出门玩，先被拉去饭局尬聊，再和陌生人组队打本，下面这首歌真是唱出了 i 人心声。

试听链接：https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

后两天假期就舒服多了。通关了黑神话悟空还不过瘾，我在家补经典 86 版的《西游记》。无论多少次重温，还是会被大圣的魅力吸引。

试听链接：https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

这歌怎么样，是不是感觉斗战胜佛活灵活现，如在眼前？

实际上，两首歌都并非真人所作，而是全靠字节最新发布的音乐大模型 ——Seed-Music。

Seed-Music 官网：https://team.doubao.com/seed-music

据豆包大模型团队官网介绍，Seed-Music 是一个具有灵活控制能力的音乐生成系统，包含 Lyrics2Song、Lyrics2Leadsheet2Song、Music Editing、Singing Voice Conversion 四大核心功能，具体涵盖十种创作任务。

刚发布，Seed-Music 就已经在海外平台引起了关注。

有音乐人表示：“（Seed-Music）生成的音乐质量比同类模型都高出一筹。已经期待它能作为一项服务被使用。”

AI 音乐难点重重

Seed-Music 放新招

虽说 AIGC 很火，但相较于语音合成、文本生成，音乐生成面临着更为复杂的挑战。

目前，业界在 AI 音乐领域的研究主要集中在以下几个核心问题：

无论是传统的音乐辅助创作工具，还是当下热门的 AI 音乐生成的研究和产品，面向上述问题，均还处于摸索阶段。

比如针对音乐信号复杂性，Google、Meta、Stability AI 等各家在音频、演奏、曲谱层面上做了建模尝试，效果各有优缺，而且各家的评估方法均有局限，人工评测仍必不可少。

面对这些挑战，字节 Seed-Music 采用了创新的统一框架，将语言模型和扩散模型的优势相结合，并融入符号音乐的处理。

视频链接：https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

通过官方视频展示，我们发现，与其他音乐模型相比，Seed-Music 能更好地满足不同群体的音乐创作需求。

满足多元需求

专门提供高灵活编辑

我们仔细研究了 Seed-Music 的音乐生成 demo，发现其能力真・丰富多样，且 demo 人声效果逼真度，绝了。

接下来，我制作成几个短视频，向大家直观展示下效果。

对于专业音乐人来说，使用 AI 工具辅助创作，最大痛点莫过于无法对音乐进行编辑。

Seed-Music 创新点之一，在于能通过 lead sheet（领谱）来编辑音乐，这增加了音乐创作可解释性。

在官方视频的 Lead2Song 部分，可以看到同一版歌词，通过领谱增减音轨、改变输入风格后，就能得到不同结果的歌曲，显著提高模型的实用性。

除领谱外，Seed-Music 也能直接调整歌词或旋律。比如，“情人节的玫瑰花，你送给了谁 / 你送给别人”，歌词修改前后，旋律保持不变，音乐的连贯性得以保持，过渡效果非常平滑。

视频链接：https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

即使是音乐小白，Seed-Music 也提供了简单有趣的创作场景。

文生音乐这一必备能力，自然少不了。

输入内容除了文本，也可以是音频，它能基于原曲输出续作或仿作。下面这首英文歌曲“摇身一变”，仿写成了中文古风歌。

视频链接：https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

哪怕输入临时录制的 10 秒人声， Seed-Music 的零样本音频转换技术都能够将其转化为流畅的声乐。

惊喜的是，Seed-Music 能将中文人声输入转换为英文声乐输出，实现了跨语种人声克隆，扩大了音乐小白们的创作空间。

视频链接：https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

统一框架

实现高质量音乐生成

那为什么 Seed-Music 能做到生成高质量音乐、提供灵活编辑能力呢？

来自豆包大模型团队的研究者们表示，这主要得益于统一框架，关键技术贡献如下：

Seed-Music 架构

根据官方论文，如上图所示，从高层次来看 Seed-Music 有着统一的音乐生成框架，主要包含以下三个核心组件：一个表征模型，用于将原始音频波形压缩成某种压缩表征形式；一个生成器，经过训练可以接受各种用户控制输入，并相应地生成中间表征；一个渲染器，能够从生成器输出的中间表征中，合成高质量的音频波形。

基于统一框架，Seed-Music 建立了三种适用于不同场景的中间表征：音频 token、符号音乐 token 和声码器 latent。

Seed-Music pipeline

如图所示，中间表征对整个系统来说很重要，每种表征都有其特点和适用场景，具体选择取决于用户的音乐创作任务。

在上述链路中，Seed-Music 经历三个训练阶段：预训练、微调和后训练。预训练旨在为音乐音频建模建立强大的基础模型；微调包括基于高质量音乐数据集的数据微调，以增强音乐性，或者针对特定创作任务提高可控性、可解释性和交互性的指令微调；后训练是通过强化学习进行的，从整体上提高了模型的稳定性。

此外，在推理时，样本解码方案对于从训练模型中诱导出最佳结果至关重要。研究者们同时会应用模型蒸馏和流式解码方案来提高系统的延迟。

音乐生成技术

激发社交新场景

回顾过往，新技术往往能够激发新创新。可以看到，Seed-Music 将音乐生成自然地嵌入不同创作群体的工作流中，使 AI 音乐具备独特的社交属性，这是其与传统音乐创作模式的不同之处。在未来，或许会由此涌现创作音乐、欣赏音乐、分享音乐的新场景。

就目前观察到的业界各玩家动向来说，Meta 和谷歌在 MusicGen 和 MusicLM 论文发布、Lyria 短暂内测之后，暂无更多消息放出。Suno、Udio 更为活跃，正侧重于改善效果。Seed-Music 此番在技术研发层面提供了更多可能。

期待 Seed-Music 乃至 AI 产业各类玩家能在未来获取更多突破。

最后，欢迎对 Seed-Music 感兴趣的朋友访问豆包大模型团队官网 https://team.doubao.com/seed-music，了解更多相关的信息。

https://team.doubao.com/en/special/seed-music?view_from=jiqizhixin

字节音乐大模型炸场！Seed-Music发布，支持一键生成高质量歌曲

相关资讯