蘋果釋出兩組小規模開源人工智慧模型 超越Mistral、直追Meta與Google推出同級產品

苹果机器学习研究团队科学家Vaishaal Shankar稍早于「X」表示,分别释出两组小规模的开源人工智慧模型,均隶属于「DCLM」 (DataComp for Language Models)发展项目,分别对应69亿组参数及14亿组参数,强调能与Mistral AI的70亿组参数规模人工智慧模型,以及Meta提出的Llama 3、Google的Gemma、阿里云的开源模型Qwen2直接抗衡。

同时,Vaishaal Shankar更标榜「DCLM」为真正形式上的开源模型,其中69亿组参数版本是基于OpenLM框架,以2.5兆个词元 (token)进行训练,前后文长度各可对应2K组词元,在大规模、多任务的语言理解 (MMLU,Massive Multitask Language Understanding)测试达63.7%,超过Mistral-7B-v0.3的62.7%表现,并且贴近Meta Llama3 8B的66.2%、Google Gemma的64.3%),以及微软Phi-3的69.9%,另外也以更少算力完成相关测试。

而在14亿组版本,苹果则是与Toyota研究团队共同训练,并且以2.6兆组词元数量进行训练,在大规模、多任务的语言理解测试达41.9%,超过微软Phi-1.5B的35.90%。

另外,苹果方面也在69亿组参数规模的人工智慧模型基础下,将前后文长度支援至8K组词元,在在大规模、多任务的语言理解的表现基本维持不变,意味相比语言模型框架设计,用于训练的资料集设计将变得更加重要。

目前「DCLM」计划以开源形式与业界研究人员合作,目前合作对象包含华盛顿大学、特拉维夫大学与Toyota研究中心,但目前在「DCLM」计划研究项目并不会用于苹果市售产品,避免引发不必要的争议,目前作为研究为主。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》