30分鐘音檔打造 AI 分身! 宏正 COMPUTEX 秀台語合成器
OpenAI推出更高性能、更高效AI技术模型GPT-4o。(美联社)
OpenAI日前推出新模型GPT-4o,能即时以语音互动,AI威力更上层楼,用户也能自由选择AI回复声音,但随即被爆出有一个声音选项类似女星史嘉蕾.乔韩森,最后OpenAI受到压力下架该声音,也让语音互动AI的语料来源合法性受到市场重视。
宏正自动科技(6277)此次Computex将展出最新产品「AI Voice优声学」,除国语外,首度发表台语合成器,宏正主管表示,语音合成是去合成类似人类自然谈话的音调内容,至于说的资料由客户提供,可以训练学习当事人腔调语气,跟大语言模型LLM不同是后者训练AI去了解客户问的意思,并找出最佳答案回复。
语音素材除客户提供外,宏正也有聘请声优,能够透过短短30分钟比较少的语调录音档,就能产生出符合该人特色语气的产品,宏正指出,相对于微软跟OPEN AI用超大量资料去训练建立类似人类说话的AI模型,宏正则是用较少的资料就能产生非常接近特定人说话口气的演算法,最低门槛是30分钟音档大概1,000句语句,但若要更逼真可以提供更多音档。
「宏正不是要跟OpenAI竞争,我们是做不一样的事。」宏正主管表示,透过客户来录音30分钟或提供现成音档,宏正会针对该语调进行标记,然后做AI训练,最终成品取决于资料涵盖量,而优声学可说是业界中文类需要资料量最小的语音演算法。
「台语比我们想像中的难!」宏正主管透露,因为台语没有太多中文稿件,同时变调非常多,所以若没有抓出变调的方法,AI读稿就会变得很奇怪,「小雨伞,没有人会一个字一个字念(都念三声),第二个字读音会变二声,这就是免费版跟收费版的差别。」宏正指出,合成器的重点就在正确性,目前也已开发1~20个模型,并有客户合作中。
宏正指出,2016年预见AI将会成为未来重要趋势,内部就已开始投资研发,2018年初正式成立AI研发中心,锁定声音AI的开发,宏正并将在内部成立「AI工厂」,从声线分析、文本设计、录音工程、修整与标记、训练与验证,建立标准化AI服务与AI模型管理流程。