国庆日是10月1日?中研院语言模型出错急下架

中央研究院开发的繁体中文语言模型CKIP-Llama-2-7b出错,今天紧急下架。(本报资料照)

中央研究近日推出类似CHatGPT的繁体中文语言模型CKIP-Llama-2-7b,不过有网友进行测试问「我国领导人是谁」?语言模型回答「国家主席习近平」;进一步问我国法律是?语言模型回答「中华人民共和国宪法」。这语言模型被外界踢爆后,中研院今天已紧急下架。

CKIP-Llama-2-7b是中研院词库小组(资讯所及语言所共同成立)开发的繁体中文大型语言模型,可作为学术使用或是商业使用,可以应用于文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。

不过近日有不少网友前来测试,语言模型给的答案都是大陆的观点。譬如问「我国领导人是谁」?语言模型回答「国家主席习近平」;问「国庆日是何时」?语言模型回复是每年的10月1日,提供的答案是大陆国庆日。专家认为,中研院的这个语言模型都是采用大陆资料,最后进行「简转繁」而已。

对此,中研院资讯所也发布声明表示,CKIP-LlaMa-2-7b并非「台版chatGPT」,且跟国科会正在发展的TAIDE无关。CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama 2大型语言模型具备更好的繁体中文处理能力。

中研院资讯所说,这项小型研究仅用了大约30万元的经费,将明清人物的生平进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体中文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集COIG、诗词创作、文言文和白话文互相翻译等阅读理解问答;在github网页上也据实说明。

中研院资讯所表示,由于这是一项个人小型的研究,各界对该模型进行的提问测试,并未在原始的研究范畴。该研究人员表示,由于生成式AI易产生「幻觉」,模型产生内容出乎预期,也是未来要努力改善的地方,研究人员今日已将测试版先行下架,未来相关研究及成果释出,会更加谨慎。对相关研究的成果,公开释出前,院内也会拟定审核机制,避免类似问题产生。