聯和科創首款「客語」文字轉語音系統VoxHakka問市

联和科创「VoxHakka系统」为台湾客语开发尖端的文字转语音系统。图/联和科创提供

智通*(8932)旗下子公司联和科创15日宣布,团队在AI部门主管李鸿欣的带领下,成功在「客语语音合成技术」领域取得重大突破,携手国立联合大学张陈基博士推出「文字转语音系统VoxHakka」。团队透露,这套系统是一款结合「多腔调暨多语者」的语音合成系统,而记载该成果的论文,预计将于今年第27届Oriental-COCOSDA(O-COCOSDA 2024)国际会议上发表。

联和科创指出,VoxHakka系统的研发,成功解决了保存与活化濒危的台湾客语所面临的挑战。该系统基于YourTTS架构,实现了语音合成的高自然度、准确性及低延迟,并且独特地支援所有六种主要的客语腔调。为了解决客语语音公开可用资料稀缺的问题,团队采用了一种新颖的网路爬虫技术以及先进的自动语音辨识(ASR)技术。

李鸿欣坦言,这种方法确保了创建高品质、多语者、多腔调资料集,这对于训练语音合成模型至关重要。而根据比较平均意见分数(CMOS)进行的严格主观听力测试证实,VoxHakka在发音准确性、声调正确性和整体自然度方面,则明显优于目前市场上现有的所有公开客语语音合成系统。

李鸿欣表示,团队非常高兴能推出VoxHakka系统,这对「客语语音技术」的发展,可说是具有相当重大的意义,并且透过这个项目也突显了我们致力于运用AI产生积极社会文化影响力的贡献,特别是在传统语言保存的领域。而VoxHakka根据CC-BY 4.0授权免费提供,旨在鼓励其成果可以在研究、教育和创意应用中被广泛使用。这种开放取用方法也促进了客家社群内外的协作和创新。

对此,联和科创也将持续致力于改进和扩展 VoxHakka 的功能,进一步巩固其在AI语音保存领域的领导地位。O-COCOSDA是东方口语语音资料库和评估技术协调与标准化委员会的缩写,该委员会成立于1997年,主要探讨语音资料库及语音处理的评估技术,为研究人员、业界专家和从业者提供一个交流最新研究成果和合作机会的平台,涵盖了自动语音辨识、自然语言处理和语音合成等领域。