谷歌 Gemini 与 GPT-4 哪家强?

美国时间12月6日,谷歌正式发布了 Gemini 大模型。按照谷歌的说法, Gemini 可以像人类一样理解世界,处理代码、文字、音频、图像和视频通通不在话下。

Google DeepMind团队称,Gemini在32项基准性能测试中的30项上超过了GPT-4。

“我们离新一代人工智能模型的愿景越来越近了。”进行完一系列视频演示后,Google DeepMind产品副总裁Eli Collins(伊莱·柯林斯)对包括第一财经在内的媒体说,这是Google迄今为止功能最强大、最通用的大模型。

谷歌CEO Sundar Pichai(桑达尔·皮查伊) 评价,Gemini 这一新时代的模型代表了 Google 作为一家公司在科学和工程方面所做的最大努力之一。他同时提到,这也是 Google 今年早些时候成立 Google DeepMind 时的愿景首次实现。

Gemini的各种能力

谷歌称,Gemini 是一种“原生多模态”AI模型。这意味着它从一开始就经过预先训练,可以处理用户基于文本和图像的提示词任务,支持文本和图像的服务。

据悉,Gemini 包含三个不同尺寸,分别是Gemini Ultra、Gemini Pro、Gemini Nano。其中,Gemini Nano主要应用于设备端,Pixel 8 Pro将是第一款搭载 Gemini Nano 的智能手机;Gemini Pro 则适用于在各种任务中扩展,谷歌便计划用 Gemini Pro 来升级旗下的聊天机器人 Bard,以及包括搜索、广告、Chrome等在内的更多谷歌产品中。

对于功能最强悍的 Gemini Ultra,谷歌称目前正在进行信任和安全检查,以及通过微调和基于人类反馈的强化学习(RLHF)进一步完善模型,预计明年初向开发人员和企业客户推出。

·理解文本、图片、音频

Gemini模型经过海量数据训练,可以很好识别和理解文本、图像、音频等内容,并可以回答复杂主题相关的问题。所以,非常擅长解释数学和物理等复杂学科的推理任务。

·生成代码

Gemini可以生成和理解Python、Java、C++和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval,这是评估编码任务性能的重要行业标准。

谷歌还基于Gemini模型开发了专业的代码模型AlphaCode 2。与前一代相比,AlphaCode 2的性能提升了至少50%以上。

·复杂推理

Gemini的多模态功能,使其能在视觉理解、文本生成等方面有非常强的功能。例如,从数十万字的小说中整理出重要观点;

从200页的金融报告中找出最有价值的内容。这对于金融、科技、医疗的科研和业务人员来说帮助巨大。

支持Bard

目前,谷歌的Bard已经集成了 Gemini Pro 模型,「AIGC开放社区」体验了一下,其图片理解和文本生成能力比之前强很多,尤其是代码生成和审查能力很出色。

谷歌方面表示,Gemini 将通过谷歌产品推向数十亿用户。目前,谷歌计划通过谷歌云将 Gemini 授权给客户,供他们在自己的应用程序中使用。12月13日开始,开发者和企业客户可以通过谷歌AI Studio或谷歌 Cloud Vertex AI 中的 Gemini API(应用程序编程接口)访问 Gemini Pro,安卓开发人员可以使用 Gemini Nano 完成构建。

能打败GPT4吗?

过去八年,谷歌一直把 AI-first 作为公司战略,2016年打败人类围棋冠军的 AlphaGo 便是出自谷歌之手。毫不夸张地说,是谷歌掀起的一股AI浪潮,但现在,它亟需在大模型领域证明自己。

今年4月,Google 将曾经诞生了Tensorflow 与Transformer 的 Google Brain 团队,和凭借AlphaGo掀起上一轮AI热潮、创造了AlphaFold 预测蛋白质折叠的DeepMind 团队合并,成立 Google DeepMind,这一团队也被外界调侃是“AI复仇者联盟”。

Gemini 被视作是 Google 在AI大模型领域放出的“大招”。Gemini 发布后,外界最关心的是其对 OpenAI GPT4 的挑战。

谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流评测中,将 Gemini 与 OpenAI 的 GPT-4 和 GPT-4 V 进行深度评测。

DeepMind的CEO Demis Hassabis称,谷歌运行了32种完善的基准指标相关测试,对比Gemini和GPT-4这两个模型,既有诸如多任务语言理解这类广泛的整体测试,到生成Python代码这种单一能力的测试。32种基准指标中,Gemini有30项都“遥遥领先”。

在性能测试上,Gemini Ultra在32个大语言模型基准测试中的30个中超过了当前最优成绩,另外在MMLU(大规模多任务语言理解)中,Gemini Ultra的得分为90%,成为首个超越人类专家的大模型。

据悉,MMLU通过结合数学、物理、历史、法律、医学和伦理学等57个科目,来测试大模型对世界知识和解决问题的能力。此前,GPT-4在该测试中的成绩为86.4%,而人类专家的成绩为89.8%。

而在MMMU基准测试中,Gemini Ultra取得了59.4%的最高得分,GPT-4V的成绩为56.8%,该项测试由跨越不同领域的多模态任务组成。

黛米斯·哈萨比斯称,在测试图像基准过程中,Gemini Ultra 在没有来自图像字符识别(OCR)系统的帮助下,就超越了此前最先进的模型。这些基准测试凸显了Gemini的多模态能力,也展现出其具有更复杂推理能力的早期迹象。

“我们将Gemini设计为原生多模态,它从一开始就针对不同模态进行了预训练,然后我们使用额外的多模态数据对其进行微调,以进一步提高其效果。”黛米斯·哈萨比斯介绍道,“这帮助Gemini从头开始就能无缝理解和推理各种输入,远远优于现有的多模态模型,而且其能力在几乎所有领域都达到了最先进的水平。”

此外,Gemini 具有到目前为止所有谷歌AI模型中最全面的安全评估,包括对偏见和有害信息的评估。同时,为了识别内部评估方法中的盲点,谷歌还在与各种外部专家和团队合作,对Gemini 模型在各种问题上进行压力测试。

另外值得关注的是,Gemini的训练是基于谷歌自己的张量处理单元(TPUs)——v4 和 v5e。在这些TPUs上,Gemini比谷歌之前的模型运行速度更快、成本更低。所以除了新模型外,谷歌还宣布将推出新的TPU系统——Cloud TPU v5p,这是专为训练尖端AI模型而设计的,也将用于Gemini的开发。

圣达菲研究所的AI研究员Melanie Mitchell对媒体表示,Gemini基准测试的表现令人印象深刻,这的确说明Gemini是一个非常复杂的人工智能系统,但她指出,自己并没有明显感受到Gemini和GPT-4在实际能力上的差距。

Mitchell还指出,Gemini在语言和代码基准测试上的表现要比在图像和视频上表现更好:“多模态基础模型仍然有很长的路要走,才能在许多任务里大范围、可靠地应用。”

斯坦福大学基础模型研究中心主任Percy Liang也对媒体表示,虽然Gemini具有良好的基准分数,但由于训练数据中的内容保密,很难知道如何解释这些数字。

多位科技分析人士认为,虽然 Gemini 的性能的确优于现有的多模态模型,但它和GPT-4的差距并没有那么夸张。从谷歌放出的演示视频来看,很少有什么我们在过去一年的AI炒作狂潮里没见过的东西。

更大的问题在于,如果以谷歌的算力资源、研发能力和丰富的数据都仅能做到勉强击败GPT4,Gemini或许就是以人类目前的技术,能够打造的大模型的上限了。

责任编辑:张薇