Stability AI推出Stable Audio開源版!免費AI生成超過半分鐘的聲音

Stability AI推出Stable Audio开源版本,可以文字免费生成约47秒长度声音。

Stability AI宣布释出能以文字描述自动生成声音内容的Stable Audio开源版本,并且以Stable Audio Open为称,将可依照文字内容生成约47秒长度声音内容。

Stable Audio Open模型是以超过48万笔声音纪录进行训练,其中超过90%资料源自免费声音资料库Freesound,同时也有部分声音源自Free Music Archive (FMA),并且强调所有声音内容都事先合法取得使用许可。

至于文字内容理解部分,则是透过预先训练的T5 (Text-to-Text Transfer Transformer)模型处理文字分析,并且产生后续相应文本内容,进而让Stable Audio Open模型产生相应声音内容。

透过此开源模型生成声音内容约达47秒长度,Stability AI表示将能用于产生环境音效、模拟声音,或是即兴声音内容,除了用于内容创作,也能用于补足所需声音片段。

跟Stable Audio比较的话,除了可生成声音内容长度有明显差异,声音内容也不会进一步将音质等细节最佳化。而Stable Audio目前已经发展至2.0版本,不仅生成声音内容长度可达3分钟,更可生成44.1kHz音质内容。

Stable Audio Open目前已经可透过开源模型托管平台Hugging Face取得1.0版本。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》