☰

Stability AI推出Stable Audio開源版！免費AI生成超過半分鐘的聲音

Stability AI推出Stable Audio开源版本，可以文字免费生成约47秒长度声音。

Stability AI宣布释出能以文字描述自动生成声音内容的Stable Audio开源版本，并且以Stable Audio Open为称，将可依照文字内容生成约47秒长度声音内容。

Stable Audio Open模型是以超过48万笔声音纪录进行训练，其中超过90%资料源自免费声音资料库Freesound，同时也有部分声音源自Free Music Archive (FMA)，并且强调所有声音内容都事先合法取得使用许可。

至于文字内容理解部分，则是透过预先训练的T5 (Text-to-Text Transfer Transformer)模型处理文字分析，并且产生后续相应文本内容，进而让Stable Audio Open模型产生相应声音内容。

透过此开源模型生成声音内容约达47秒长度，Stability AI表示将能用于产生环境音效、模拟声音，或是即兴声音内容，除了用于内容创作，也能用于补足所需声音片段。

跟Stable Audio比较的话，除了可生成声音内容长度有明显差异，声音内容也不会进一步将音质等细节最佳化。而Stable Audio目前已经发展至2.0版本，不仅生成声音内容长度可达3分钟，更可生成44.1kHz音质内容。

Stable Audio Open目前已经可透过开源模型托管平台Hugging Face取得1.0版本。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

相关资讯