科學人/打造最台語言模型! 為何無法從0研發?AI律師、家教將實現?

繁体中文大型语言模型(LLM)在去年由于政治因素,一度闹得沸沸扬扬。今年4月15日传出好消息,由国家科学及科技委员会(国科会)主导开发的「可信任人工智慧对话引擎」(Trustworthy AI Dialogue Engine, TAIDE)开源释出TAIDE-LX-7B模型,是可商用版本。AI示意图。 铧德/提供

繁体中文大型语言模型(LLM)在去年由于政治因素,一度闹得沸沸扬扬。今年4月15日传出好消息,由国家科学及科技委员会(国科会)主导开发的「可信任人工智慧对话引擎」(Trustworthy AI Dialogue Engine, TAIDE)开源释出TAIDE-LX-7B模型,是可商用版本。3月上旬,产业界也传捷报,隶属于联发科技集团的联发创新基地开源释出MediaTekResearchBreeze-7B。

然而,不只有产官界投入研发,学界其实也有一组研究团队正紧锣密鼓训练,标榜为最有台湾味的LLM,那就是台湾大学资讯工程系副教授陈缊侬及其博士生林彦廷等人开发的Taiwan-LLM。

简单来说,打造大型语言模型有两种做法。一是从零开始研发,例如OpenAI开发的「生成式预训练转换模型」(GPT),另一是选用既有的大型语言模型,例如Meta公司释出的开放源码LLaMA模型,再透过特定资料增强专才能力。目前台湾各界打造的繁体中文LLM,大多是以开源模型为基础,运用各自收集的资料库进行后续的训练程序,可分成三个阶段:连续预训练(continuous pre-training, cPT,以资料库进行学习)、监督式微调(supervised fine-tuning, SFT)、基于人类回馈的增强学习(reinforcement learning from human feedback, RLHF,上网搜集回馈)。

台湾大学资讯工程系副教授陈缊侬及其博士生林彦廷等人开发的Taiwan-LLM,是以LLaMA模型为基础进行全参数微调,用公开的法律文件、新闻时事、社群讨论做为繁体中文训练资料,来增强繁体中文能力并呈现台湾文化。路透

Taiwan-LLM是以LLaMA模型为基础进行全参数微调,用公开的法律文件、新闻时事、社群讨论做为繁体中文训练资料,来增强繁体中文能力并呈现台湾文化。陈缊侬指出,例如发票载具就是一种在地化的文化用语,如果AI模型听得懂这个词汇,在应用情境上会更贴近我们的生活。然而,公开取用的繁体中文文本其实来源很少(这也是无法从零开始研发LLM的原因之一),并且受限于著作权,例如小说及书籍必须经过出版社授权。林彦廷说明,不论繁体中文或简体中文,在网路上,诈骗和内容农场及色情讯息的占比特别高,这些资料的品质很差,根本不能使用。因此他在后续训练时,从资料源头控管,没有使用非营利组织Common Crawl免费提供的公开网路爬虫资料集,省去不少微调工作。

打造模型要兼顾弹性

LLM的发展很快,相关技术日新月异。陈缊侬表示,当Meta释出LLaMA 2,Taiwan-LLM也升级到新版本。这领域不断推陈出新,若有拥有好的资料集,就可与时俱进,切换到更有弹性的架构。例如Mistral AI推出「混合专家模型」(Mixture of Experts, MoE),透过把单一任务拆分成多个子任务,再交由多个专家网路分头处理。也就是说,一般模型就像一位专家,MoE则有多位专家组成一个团队,每次派几位专家处理不同任务。Taiwan-LLM从开发至今经历了三个主要版本:Taiwan-LLM-v1.0-13B针对超过50亿个词元(token)进行预训练,并针对49万组繁体中文对话进行调整;Taiwan-LLM-v2.0-7B则提高到超过300亿个单词,以及100万组繁体中文对话;而Taiwan-LLM-v2.0-13B是以130亿参数量(即名称中的13B)的模型进行训练。

林彦廷指出,在资料搜集上有两组人马分头行动。一组人不断扩充资料库,依据一些小规则与政治立场去收录资料,这有点像「猫抓老鼠」,因此从文本来源判断会是比较保险的做法,避免把品质不好的资料喂给模型,减少后续调整;这个阶段在训练模型上所需的时间比较长,也需考量灾难性遗忘,也就是AI模型学习新任务时,既有的性能反倒下降。

另一组人持续制作问答,准备问答资料比较费时,但训练模型的时间相对短。此外,也有一些合作伙伴愿意投入训练资源,例如CPU时间,他们认为Taiwan-LLM这套开源模型对于自家后续应用是有帮助的,因此协助测试模型,回馈需要改善的面向,陈缊侬团队再补强这面向的资料。

合作伙伴之一是日商优必达(Ubitus),优必达是云端串流解决服务商,提供云端运算能力来协助开发Taiwan-LLM。因为Taiwan-LLM的优势在于开源模型,而且符合台湾当地的应用情境。使用者与业者可以让开源模型在自家电脑或伺服器运行,避免隐密资料外流,再者可依据自家需求调整模型,后续还可客制化,例如AI新闻主播。

那么是否很快就会出现AI律师、AI家教等AI产品呢?陈缊侬分享,当LLM读完法条后,并不会变成AI律师,因为它需要的可能是司法院没有公开的录音和逐字稿等记录,即使有判决书,那等同于只看结论,缺少了重要的答辩过程。所谓的AI律师,需要的可能是台湾各大律师事务所的资料,因此LLM与资料的结合非常重要,这就像读完书的法律系毕业生必须实际工作过,才有实务上的能力。AI家教也是同样的情况,需要的不只是课本,也需要评量题目与教学方法。

模型、资料、成本

因此业界在评估AI导入时,需要思考的是模型与资料的垂直整合,也就是拚速度和整合度。另一个需要思考的是成本,LLM与使用者互动的表现可能很好,但传统技术或许更加成熟。陈缊侬解释,例如数位客服常遇到的疑问可能有10种,用分类器技术就可以处理,其余情况再交由LLM应对,如果所有情况都直接让LLM生成,可能会遇到许多不可控的情况,反而引发公关危机。

然而,现今有一股风潮,认为使用的模型越大越好,但越大的模型意味着需要更多算力及更长的计算时间,所花费的成本势必也因此提高,企业必须在成本和效力上找寻平衡。

在资料与模型之外,陈缊侬认为,评测标准也是当前业界的一大痛点。大多数研究都是以英文为主,所以英文资料库非常多样,但繁体中文的资料库很少,如何依据资料库建立动态的评测系统更是一大挑战。林彦廷说明,依据我们团队的经验,预测人类的偏好大约落在七成,因此遇到使用者的偏好时,再好的语言模型也可能「表现不好」。

在繁体中文LLM的开发路上,产官学界在模型、资料库、评测系统上投入心力、克服万难。然而,这条路要走得顺、要走得远,仍然需要台湾各大产业的投入,才有可能打造多元的应用,就如AI律师、AI家教、AI客服等AI产品。这一切,都将促使我们繁体中文的AI应用应用更加符合自身需求。

延伸阅读

(本文出自2024.05.01《科学人》网站,未经同意禁止转载。)