Grok图像理解功能上线,单挑ChatGPT结果惊人!无地标照片秒定位,18世纪手稿一眼识别
新智元报道
编辑:静音
【新智元导读】能识别并转录18世纪手稿、还能推测无地标照片拍摄地……马斯克本人也出来官宣:Grok现在能够理解图像了!
就在刚刚,xAI为Grok增加了图像理解功能!
马斯克本人也出来官宣了,并称「Grok现在能够理解图像了,甚至还可以解释笑话」。
在马斯克举的例子中,Grok根据给出的这张meme图,从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。
不少网友调侃道:Grok比美国政客还要聪明有趣!甚至连它都知道什么是笑话。
但其实,这个笑话解释得太过复杂,让人云里雾里!
有网友在评论区补充了更恰当的解释:「真糟糕,我以为笑话是,物理学家们听到牛顿『发明了重力』忍不住要起来纠正,所以才停止装死...」
不少网友讨论道:
「是的,Grok的解释太过『高智商』以至于它重新变得愚蠢。」
「Grok解读太多毁了这个笑话!」
还有网友直言:「整个评论区都很奇怪,因为几乎没有人意识到Grok完全没理解这个笑话。那些知名的网红们都表现得像机器人一样。」
没想到马斯克本人出来官宣还闹了个乌龙!
不过,除了理解笑话还不太行,Grok倒是在其他的图像理解任务中展现出了不错的水平。
AI Breakfast发帖称:「Grok 2具有令人难以置信的OCR功能。它能够完美地转录这份几乎难以辨认的18世纪手稿文件。」
宾夕法尼亚大学沃顿商学院的副教授Ethan Mollick也发帖称赞了Grok的图像理解能力。
他将一张在日本大阪拍摄的照片传给Grok和GPT-4o,并让它们推测这张照片的拍摄地。据他所说,所有位置信息都从图像中删除,且没有可见的路标和广告牌。
GPT-4o回答道:「这张图片展示了一座大型工业起重机,位于水边,可能靠近一个港口或船厂。周围的建筑和起重机的结构表明,它可能位于一个具有大量海洋活动的城市的工业区。根据可见的细节,这个地点可能是在美国、日本或其他以重工业而闻名的沿海城市。」
在被要求进一步缩小范围的时候,GPT-4o能直接猜到是日本。
Grok也同样先分析了一遍照片的内容,最后捕捉到了照片中的「亚洲感」,给到「很可能是像日本、韩国或新加坡这样的亚洲船厂」的结论。
还有网友也分别给Grok和GPT-4o发了一张在葡萄牙首都里斯本拍摄的照片,让它们推测这张照片的拍摄地。
Grok回答道:
GPT-4o回答道:
显然,ChatGPT完胜!但Grok的回答也不赖,已经十分接近正确答案。
不过目前,Grok还不能处理某些文件格式(例如PDF)。一名用户在马斯克的帖子下评论道:
「埃隆,Grok怎么回事?它无法处理照片或PDF,老实说,它在功能上感觉远远落后于ChatGPT。你曾对它进行了很多宣传,但作为用户,我可以告诉你:Grok需要重大改进。如果目标是设定一个新标准,它还远远不够。是时候让它赶上来了,你不觉得吗?」
马斯克回复说:「不久后就可以了。我们在几个月内完成的事情是其他人花费数年时间才能做到的。」
参考资料:
https://x.com/grok/status/1850808322074509434
https://x.com/AiBreakfast/status/1850961980892615161
https://x.com/emollick/status/1851025478833819947
https://x.com/MesutGenAI/status/1851048640472563798