HTC DeepQ推出AI自然语言处理平台T-BERT 台语都通
协助开发卫福部疾管「疾管家」抗疫机器人的HTC DeepQ团队,宣布发表最新新一代 AI 自然语言处理平台T-BERT。图为自然语意处理(NLP)技术示意图。(达志影像/Shutterstock提供)
HTC(宏达电)旗下健康医疗事业部DeepQ今(31)日宣,总经理张智威 (史丹佛大学电脑科学系客座教授)亲自领军,推出新一代 AI 自然语言处理平台:T-BERT(Taiwan Bidirectional Encoder Representations from Transformers),使得电脑能同时三声道读听写国语、台语及客语,将AI应用在语义分析及问答互动上。
DeepQ是HTC(宏达电)旗下健康医疗事业部,先前曾运用多年来累积各领域的研发经验(包括VR/AR、AI人工智慧、区块链、及自然语言处理等前瞻技术),积极投入抗疫,将相关技术与疾管署和卫福部合作,开发「疾管家」抗疫机器人,至今已超过2百万名使用者,发挥防疫抗疫积极效用。
DeepQ指出,新一代AI自然语言处理平台T-BERT采用Transformer网路架构,从左到右;从右到左,双向读取段落文字,透过编码器分析文字特征,结合为台湾研发的AI加速运算技术,大幅提升语意判断的精准度至93.7%。
在台湾,自然语言处理平台必须能够处理在地语言,才可实践相关语意分析应用。DeepQ AI团队与台湾大学廖世伟教授合作,应用两个关键技术:深度学习模型与巨量资料处理的技术,针对台湾市场,打造出可支持国语、台语及客语的AI平台。
DeepQ AI团队让AI不断阅读巨量语意资料库,训练AI模型判断语意。不过,要让电脑可以学习如此巨量的资料,计算复杂且耗时。DeepQ团队同时使用超过64颗GPU运算,运用平行运算技术架构,提升60倍的运算速度,将AI模型的学习时间有效缩短至6小时。除国语外,T-BERT 训练也加入台语客语文献。目前研发的AI模型已能将国语新闻自动分类成9大类别,如:财经、国际等类别,准确度达93.7%。而相对台客语语料库规模较小,DeepQ AI团队则采用两阶段的微调训练,让台客语新闻分类准确度也能达到满意的准确度。
张智威表示:「在台湾,同时支援国台客语的自然语言处理平台尚不存在,我们计划将把我们的 T-BERT 模型开源释出,并继续扩充规模,以回馈学界与促进产业发展。同时将陆续把此技术导入产品端,譬如此平台可以使疾管家未来能够支持国台客语问答。」