Meta 推最新語言模型 Meta Llama 3 擁有更精準推理能力

Meta公司。路透通讯社

云端服务业者、大型平台竞争大语言模型(LLM)地位,Meta宣布推出新一代先进开源大型语言模型Meta Llama 3,预计将可于AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等平台上使用,由AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 等硬体平台支援运作

Meta表示,致力以负责任的原则开发 Llama 3,也将提供多种资源来协助大家以负责任的方式使用,包括导入 Llama Guard 2、Code Shield 和 CyberSec Eval 2 等新的信任和安全工具

Meta新一代 Llama 3 初始的两个模型已可广泛使用。此版本包含预训练和指令微调的语言模型,其中的 8B (80 亿) 和 70B (700 亿) 参数,可支援更多元的使用情境。新的功能包括更精准的推理能力,是目前同业中最佳的开源模型,Llama 3也将释出供社群运用。

Meta 希望透过建立与目前专有模型并驾齐驱的最佳开放模型 Llama 3 ,回应开发人员的回馈,并提高 Llama 3 的整体实用性,同时持续领导负责任地使用并部署大型语言模型。Meta秉持及早释出与频繁更新的开源精神,让社群抢先试验这些仍在开发阶段的模型。今日所推出的以文字为基础的模型为 Llama 3系列的第一波模型。Meta 期待让 Llama 3 在近日具备多语言和多模态、有更长的上下文语境,并继续提升推理和编写程式码等核心大型语言模型能力的整体表现。

Llama 3 卓越的效能

Llama 3 中全新 8B 和 70B 参数的模型,相较于 Llama 2 有大幅的进步,并为此规模的大型语言模型立下新标准。得益于预训练与后训练技术的进展,Meta 的预训练和指令微调模型是目前 8B 及 70B 参数规模的最佳模型。Meta 在后训练程序流程的改进大幅降低错误拒绝率(False Rejection Rate, FRR),改善一致性,并提升模型反应的多样性。同时,在推理、程式码生成和指令遵循等功能亦有显著提升,让 Llama 3 更易于操控。