「不会做才更要做」解密蔡明介督军 联发科出手赢过ChatGPT3.5
联发科技推出生成式AI服务平台MediaTek DaVinci与最新繁中大模型MR BreeXe,由董事长蔡明介亲自督军。(图/记者黄耀征、周志龙摄)
「不会做,才更要做!」台湾晶片一哥联发科技4月9日发表繁体中文语言模型MR BreeXe,以450亿参数超越中文版ChatGPT3.5,夺下世界最强的繁体中文大语言模型(LLM)。尽管外界看热闹,也有酸民说赢了ChatGPT3.5没什么好骄傲,但台湾科技圈人士深知,联发科努力「缓解了一场迫切危机!」
近年全球争相砸钱启动的AI及LLM军备竞赛中,以欧美思维为主流,英语称霸,中文则以中国大陆简体中文的语意逻辑挂帅,繁体中文相对弱势,直到联发科的MR BreeXe出现,缓解了被「边缘化」的危机。
CTWANT记者采访多位关键人士,得知了这场艰辛的技术研发过程,其实是一场文化保卫战,连辉达闻讯后也上门,将去年底新推的AI超级电脑Taipei -1,交与联发科训练模型。
业内人士表示,联发科在1997年从联华电子多媒体部门分出来后,「拿到的牌都是最差的那一种」,要人没人、要钱没钱,主攻的产业都是世界上最竞争最难的,然而蔡明介一路走来的经营理念,就是有一个顶级的公司,才能把人才留在台湾。
联发科从光碟机晶片组开始,一路做到全球行动通讯晶片第二大厂,蔡明介引领技术创新之际,也观察到AI科技将扭转局势,2019年他亲自拍板、督军,成立联发创新基地,负责AI的前瞻研究,「比很多业者都早发现AI的重要性,将会形成『革命性的转变,就像一种新的电力。』」联发科技协理叶家顺表示。
辉达去年底推出最新的AI超级电脑Taipei-1,让联发科第一个做训练。(图/翻摄自GoogleMap)
「AI最重要的基础就是大语言模型,联发科是以技术力为主的公司,要做、就做对世界有影响的技术。」业内人士表示,联发创新基地最初研究的是自然语言处理(NLP),是一种人工智慧的分支,可让电脑理解、产生及处理人工语言,「最一开始的AI研究真是万事起头难,常改到死。」
2022年6月蔡明介下令基地放弃旧研究,改成全力押宝生成式人工智能GenAI,并启动首个开源繁中大语言模型,跟一级主管这样说,「没有人做,所以我们要做!」
联发科员工跟CTWANT记者说,当时董事长下军令,但大家都面面相觑,OpenAI当时还默默无名,ChatGPT更是在2022年11月30日才发布,等于没有任何前例可循,更何况是要做台湾为主的繁体中文系统,几乎是从零开始。
「听到这个消息,我们的合作伙伴都很关切,频频问我们,怎么做、你会吗?当然不会呀!」联发科员工表示,因为大家都知道做大语言模型的难度大、门槛高,一般单位是做不来的,联发科在研究过程中也「踩了不少坑、撞得头破血流」,但在其他阵营开发速度陆续放缓后,「这件事反而成了『社会对我们的期望』,得到很多伙伴的协助。」
「最难的就是一开始,找不到适合的人才」联发创新基地负责人许大山是加州柏克莱大学电机博士,曾任台大副教授,被学生广为流传的「年年书卷奖的台大电机学霸」。他跟CTWANT记者说,当时联发科在AI顶级科学家圈内是没有名气的,花了很大力气才能招募到人才,有了成果、上了几篇国际级的论文,学者们认识我们,后续才比较顺利。目前联发创新基地在台大、剑桥、伦敦都有据点,「成员就像是个小的联合国。」业内人士说。
联发创新基地负责人许大山。(图/记者黄耀征摄)
联发科「MR BreeXe」是以法国AI业者推出的Mixtral 8x7B开源模型为基础去开发,继承Mixtral多专家模型特有的节省运算资源、提升速度优势,再加上联发创新基地的训练,在繁体中文测试项目(TMMLU+、MT Bench TW)超越GPT-3.5,并优化台湾常见之地端应用,提升产业界检索增强生成(RAG)的体验,还能一口气处理4万字的长篇资料,而Mixtral只能四千字。
AI龙头辉达得知联发科在做繁体中文大语言模型,特别拿出他们去年底才推出最新的AI超级电脑Taipei -1,让联发科第一个跑数据、做训练。截至4月初MR BreeXe正式发表,450亿参数,比OpenAI两年前发表的中文版ChatGPT3.5模型参数规模270亿,远超出一大截。
「其实联发科以繁体中文切入做大语言模型,是『缓解了一个非常迫切的危机』」成功大学资工系教授黄敬群跟CTWANT记者解释,以网路搜索来说,使用者14亿人、源自中国的简体资料在世界上的点击量绝对高过台湾的,像是Google台湾就花了百人团队去「平衡」,才让台湾人看到的网页搜寻符合需求,但到了AI时代,这些人工干预就失灵了。
更多 CTWANT 报导