Meta 发布多模态 Llama 3.2 ,意义非凡

Meta 刚刚发布了其Llama 大型语言模型家族的新版本。

更新后的 Llama 3.2 引入了多模态,这使得它除了能理解文本,还能理解图像。

Llama 意义重大——不一定是因为它比OpenAI 或谷歌的模型更强,尽管它确实能和它们一较高下——而是因为它是开源的,几乎任何人都能相对轻松地获取。

此次更新引入了四种不同的模型大小。拥有 10 亿参数的模型在M3 MacBook Air上运行得很顺畅,配备 8GB 内存,而 30 亿参数的模型也能运行,但只是勉强能行。这两个都是纯文本的,但可以在更广泛的设备上运行并且离线运行。

不过,真正的突破在于Llama 3.2的 110 亿和 900 亿参数这两个版本。这些是首批真正的多模态 Llama 模型,针对硬件和隐私进行了优化,比其 3.1 版本的前辈效率高得多。110 亿参数的模型甚至可以在一台不错的游戏笔记本电脑上运行。

羊驼的广泛可用性、最先进的能力和适应性使其与众不同。它为 Meta 在 Instagram、WhatsApp、Facebook、雷朋智能眼镜和 Quest 头戴设备上的 AI 聊天机器人提供支持,但它也可以在公共云服务上使用,因此用户可以在本地下载并运行它,甚至将其集成到第三方产品中。

Groq,这一超快速云推理服务,是拥有开源模型成为强大选择的原因之一。我使用在 Groq 上运行的 Llama 3.1 70b 构建了一个简单的工具来总结一篇 AI 研究论文 - 它完成总结的速度比我读标题的速度都快。

一些开源库允许您在 Mac 上创建一个由 Llama 3.2 或其他模型驱动的类似 ChatGPT 的界面,如果您内存足够,还包括图像分析功能。然而,我更进一步,构建了自己的 Python 聊天机器人,它查询 Ollama API,使我能够直接在终端中运行这些模型。

Llama 3.2 如此重要的一个原因是它有可能改变人工智能与其环境的交互方式,特别是在游戏和增强现实等领域。多模态功能意味着 Llama 3.2 可以同时“看到”和“理解”视觉输入以及文本,为视频游戏中诸如动态的、由人工智能驱动的非玩家角色等可能性创造了条件。

想象一下这样一个游戏,其中非玩家角色不仅仅遵循预先编写的对话,还可以实时感知游戏世界,智能地响应玩家的动作和环境。例如,一个守卫非玩家角色可以“看到”玩家拿着特定的武器并对此发表评论,或者一个人工智能伙伴可能会以细致和对话的方式对游戏环境的变化做出反应,例如突然出现的威胁。

除了游戏之外,这项技术还可以用于智能设备,如雷朋智能眼镜和 Quest 头戴式设备。想象一下,把你的眼镜对准一座建筑物,并向人工智能询问其建筑历史,或者仅仅通过看一眼就询问某家餐厅的菜单详情。

这些用例令人兴奋,因为 Llama 的开源性质意味着开发人员可以为无数创新应用定制和扩展这些模型,从教育到医疗保健,人工智能在医疗保健领域能通过描述环境来帮助视障用户。

除了使用 Meta 构建的模型之外,开源意味着公司、组织甚至政府都可以创建自己定制和微调的模型版本。这在印度已经出现,目的是拯救濒临灭绝的语言。

Llama 3.2 11b 和 90b 在识别图像和类似视觉任务方面,与 Anthropic 的较小模型(如 Claude 3 Haiku)以及 OpenAI(包括 GPT-4o-mini)具有相当的竞争力。3B 版本在 150 个基准测试中与微软和谷歌的类似规模模型(包括 Gemini 和 Phi 3.5-mini)具有相当的竞争力。

虽然这并非直接的基准测试,但我自己让 1b 模型对我的写作进行分析并提供改进建议的测试,大致与苹果智能写作工具的性能相当,只是缺少方便的上下文菜单访问功能。

这两个视觉模型,即 11b 和 90b,能够执行许多我在 ChatGPT 和 Gemini 上看到的相同功能。例如,您可以给它一张您花园的照片,它能够提供改进建议甚至种植计划。

虽说性能不错,但对 Llama 3.2 而言,这并非其最为重要的卖点