在地化繁中AI 能理解「很盤」

多家企业昨共同发表繁体中文AI大型语言模型「Project TAME」,借由企业提供的电子业、石化业、医疗、法律等各专业领域资料,进行五千亿字符(token)的预训练,发展出在地化特色,可精准解释「很盘」等繁中语境下的特定用法,现在已开放民众跟企业使用,并导入产业应用。

「繁体中文专家模型开源专案TAiwan Mixture of Experts」(Project TAME)是拥有产业专业知识的开源模型,由多家企业联合发起,与台大资工系副教授陈缊侬合作、NVIDIA提供技术支持,总共预训练五千亿字符,目标是以在地化文化及用语,协助台湾产业快速导入生成式AI落地应用。

参与专案的台大资工系博士班学生林彦廷解释,有三个需要台湾在地化模型的原因,首先是针对繁体中文最佳化,其次是不让文化、观点及意识形态,集中在美国科技公司所开发的主流模型产品上,把台湾文化放入自己的模型;第三点则希望进一步加强在地文化,精准推荐台湾事物及细节。

林彦廷举例,若询问语言模型何谓买东西「很盘」,GPT-4o回答「价格合理」,Project TAME则精准回「买东西吃了亏」;若提供超商店员询问「刷载具」的生活情境时,Project TAME也回答正确,GPT-3.5却回答「使用信用卡」。

另外,Project TAME在台湾的「大学学测、律师/中医考试、导游证照、驾照、台湾在地化测验」都分数优异,例如以去年律师考试第一试成绩换算,TAME赢过近九成考生。