☰

蘋果釋出兩組小規模開源人工智慧模型超越Mistral、直追Meta與Google推出同級產品

苹果机器学习研究团队科学家Vaishaal Shankar稍早于「X」表示，分别释出两组小规模的开源人工智慧模型，均隶属于「DCLM」 (DataComp for Language Models)发展项目，分别对应69亿组参数及14亿组参数，强调能与Mistral AI的70亿组参数规模人工智慧模型，以及Meta提出的Llama 3、Google的Gemma、阿里云的开源模型Qwen2直接抗衡。

同时，Vaishaal Shankar更标榜「DCLM」为真正形式上的开源模型，其中69亿组参数版本是基于OpenLM框架，以2.5兆个词元 (token)进行训练，前后文长度各可对应2K组词元，在大规模、多任务的语言理解 (MMLU,Massive Multitask Language Understanding)测试达63.7%，超过Mistral-7B-v0.3的62.7%表现，并且贴近Meta Llama3 8B的66.2%、Google Gemma的64.3%)，以及微软Phi-3的69.9%，另外也以更少算力完成相关测试。

而在14亿组版本，苹果则是与Toyota研究团队共同训练，并且以2.6兆组词元数量进行训练，在大规模、多任务的语言理解测试达41.9%，超过微软Phi-1.5B的35.90%。

另外，苹果方面也在69亿组参数规模的人工智慧模型基础下，将前后文长度支援至8K组词元，在在大规模、多任务的语言理解的表现基本维持不变，意味相比语言模型框架设计，用于训练的资料集设计将变得更加重要。

目前「DCLM」计划以开源形式与业界研究人员合作，目前合作对象包含华盛顿大学、特拉维夫大学与Toyota研究中心，但目前在「DCLM」计划研究项目并不会用于苹果市售产品，避免引发不必要的争议，目前作为研究为主。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

蘋果釋出兩組小規模開源人工智慧模型 超越Mistral、直追Meta與Google推出同級產品

相关资讯

蘋果釋出兩組小規模開源人工智慧模型超越Mistral、直追Meta與Google推出同級產品