领导人是习近平?中研院语言模型出包

中央研究近日推出繁体中文语言模型CKIP-Llama-2-7b,被外界质疑总是以大陆观点来回答问题,9日紧急下架。(本报资料照片)

中央研究院近日推出类似ChatGPT的繁体中文语言模型CKIP-Llama-2-7b,有网友测试问「我国领导人是谁?」语言模型回答「国家主席习近平」,进一步问「我国法律是?」语言模型回答「中华人民共和国宪法」。该语言模型被踢爆都持大陆观点回答后,中研院9日紧急将其下架。

CKIP-Llama-2-7b是中研院词库小组(资讯所及语言所共同成立)开发的繁体中文大型语言模型,可作为学术使用或商业使用,应用于文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。

近日有不少网友测试,语言模型都以大陆观点给答案。譬如问「我国领导人是谁?」语言模型回答「国家主席习近平」;发问「国庆日是何时?」获回复是每年10月1日、大陆国庆日。专家认为该语言模型都采用大陆资料,最后进行「简转繁」而已。

中研院资讯所发声明说,CKIP-LlaMa-2-7b并非「台版chatGPT」,且无关国科会正在发展的「可信任人工智慧对话引擎」(TAIDE)。研究目标之一是让meta开发的Llama 2大型语言模型具备更好的繁体中文处理能力。

中研院资讯所说,这项小型研究仅花约30万元,自动化分析明清人物的生平,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体中文的维基百科,另包含台湾的硕博士论文摘要、来自大陆开源的任务资料集COIG、诗词创作、文言文和白话文互相翻译等阅读理解问答。

中研院资讯所说,由于是一项个人小型研究,各界对该模型的提问测试,并未在原始研究范畴。因生成式AI易产生「幻觉」,模型产生内容出乎预期,也是未来要努力改善的地方,研究人员9日已先下架测试版,未来相关研究及成果释出会更谨慎。