大模型挑战手机发布会报道:文心与豆包表现出色,GPT名不副实

临近年末,各大手机品牌新机新机陆续发布,一场接着一场的发布会导致我们加班成了常态。疲惫之时小雷突然想到,或许我们可以用生成式AI撰写一些信息量较多,无需过多解读的文章,以缓解工作疲劳。

但在真正使用生成式AI帮助我们工作之前,自然要对比测试一下当前行业人气比较高的几款AI大模型,看看它们是否真的可以完成我们的工作。

考虑到现阶段生成式AI不少可以免费使用,部分需付费使用,公平起见,小雷选择了豆包、Kimi、讯飞星火三款免费AI大模型,以及文心一言可免费使用的文心3.5版本和免费版GPT-4o。测试流程方面,小雷准备了三重考验,包括总结能力、文章撰写能力,以及图片生成能力。

闲话不多说,咱们直接进入正题。

数码圈报告总结:只得皮毛,却失骨肉

今天几乎所有AI都加入了文档总结能力,因而小雷感觉,只是对新手机的发布会文档进行总结,难度似乎有点低。于是,小雷找到了之前看过的小红书《潮流数码白皮书》PDF文件,该文件约有2万字,深度剖析了小红书平台潮流数码的现状、发展趋势,并给数码家电品牌提出了相应的营销建议。

分析一份大小超过30MB的文件,对于这几款AI大模型都是挑战。

豆包:数据扎实,深入内容剖析

作为字节跳动开发的AI大模型,豆包拥有庞大的文章数据库可用于训练,也是当前小雷常用的AI助手之一。豆包将《潮流数码白皮书》总结出核心观点、小红书数码行业现状、潮流数码人群与趋势、营销解决方案、未来展望五大板块。

(图源:豆包截图)

其中最为关键的营销解决方案板块,豆包还点出了应当抓住对应的时间节点进行营销,这是其他所有AI大模型都未能做到的事。尽管仍遗失了不少信息,但豆包总结出的内容明显优于其他几款AI大模型。

讯飞星火:精炼简洁,关键信息缺失

讯飞星火与豆包的风格完全不同,豆包的总结大而全,讯飞星火的总结则极为精简,全文加起来的字数都没有豆包总结出的营销解决方案一个板块多。

(图源:讯飞星火截图)

字数多虽不一定好,但两万多字的文件,总结到五百多字,难免要舍弃大量内容。事实也正是如此,讯飞星火总结出的内容过于简练,看不到太多有用信息,也没有明确的分析,整体显得过于笼统。

Kimi:车轱辘话多,大厂味浓浓?

第三个进行测试的是Kimi,对于《潮流数码白皮书》,Kimi足足总结出了八大板块,但每一个板块的字数都不多,有点浅尝辄止的意味。而且与讯飞星火相同,Kimi也没有总结出任何数据,有点大厂打工人开会的感觉,主打一个“不说人话”。

(图源:Kimi截图)

严格来说,Kimi总结出的内容更像是一份大纲,可以根据其填补缺失的部分,但对于我们了解PDF的内容,没有太多帮助。

文心3.5:满屏小标题,有效信息少

如果说Kimi总结出的结果是一份大纲,那么文心3.5总结出的内容则像是文章的标题和小标题,一句又一句的短语,有效信息却不多,能够总结出数码行业人群资产规模情况是少有亮点。

(图源:文心一言截图)

GPT-4o:我不支持解析PDF

前面几款AI大模型无论总结的结果如何,但至少给出了一个答案,GPT-4o却直接显示无法查看和处理PDF文件。

(图源:ChatGPT截图)

ChatGPT几乎是公认的最强LLM(大语言模型),却无法查看和处理PDF文件,着实令小雷有些失望。

小结:车轱辘话来回转,准确信息看不见

本以为内容总结是AI大模型的基础功能,豆包、讯飞星火、Kimi、文心3.5,以及GPT-4o的表现却令小雷大失所望。豆包总结的内容有数据有分析,勉强能够达到及格分,其他几款AI大模型交上的答卷不说是0分,也没高出太多。

AI大模型对于《潮流数码白皮书》的总结,普遍是车轱辘话来回转,鲜有话语能够落到实处。例如营销布局部分,PDF统计了不同产品的最佳营销节点,暑期毕业季打游戏和旅游人群多,适合营销台式机和摄像机;女生喜欢拍照和音乐,38女王节则适合营销数码相机和蓝牙耳机。在评测的几款AI大模型中,只有豆包提到了一些相关内容,

(图源:《潮流数码白皮书》截图)

在本轮评测中,豆包的表现无疑是最好的,讯飞星火、Kimi、文心3.5三款大模型,虽没能总结出太多有价值的信息,但至少输出了内容,表现可列为第二档,被寄予厚望的GPT-4o,表现则逊色不少。

当然,总结功能不过是开胃菜,对于其他文章的总结能力不足,不代表撰写的文章的能力不行。

发布会报道:GPT水土不服,国产大模型出色

为了凸显出编辑撰写和AI生成的差距,小雷挑选了雷科技小伙伴撰写iQOO Z9 Turbo+发布会文章作为对比。该手机发布至今已有一段时间,网络上的相关文章不少,AI能够轻松找到素材,相对而言更简单一些。

首先看看雷科技小伙伴撰写的资讯报道,该文章逻辑清晰,将iQOO Z9 Turbo+的硬件配置、游戏帧率、产品亮点、价格完整罗列,并对其竞争力进行了分析。

(图源:雷科技文章截图)

受限于篇幅与时效性要求,雷科技小伙伴撰写的这篇资讯报道并未深入解析与体验产品,但消费者希望能够了解到的信息,基本完整阐述。

撰写文章是生成式AI的基础功能之一,豆包、讯飞星火、文心3.5等AI大模型还提供写作类型或风格可选,以帮助用户快捷创作文章。

闲话不多说,咱们来看看AI大模型撰写这一款产品的发布会报道(由于iQOO Z9 Turbo+已发布相当长一段时间,网络上的资料已十分充沛,能不能写好就看大模型的技术实力了。)

豆包:信息详实,逻辑清晰,原创度超50%

豆包撰写的文章比雷科技小伙伴所写的内容更长,条理同样清晰,外观设计、性能、散热、屏幕、电池、影像、价格每一部分都单独列了出来,并加上了小标题。该文章不但配置细节相对丰富,而且没有出现错误。值得一提的是,价格环节雷科技小伙伴报道称iQOO Z9 Turbo+ 12GB+256GB首发价格为2199元,但实际上如豆包撰写文章所言,应该是2299元,首销特价2199元。

小雷使用某自媒体工具对该文章进行了原创度检测,查询到该文章的原创度为50.56%。一般来说,自媒体平台会要求文章原创度在70%以上,但考虑到该文章为资讯报道,内容包含了大量参数信息,原创度能够达到50%左右,实际上已经不低了。就算是雷科技小伙伴自己写的文章,该工具检测显示原创度也在50%左右。

(图源:自媒体工具截图)

豆包撰写的发布会报道,配置信息、价格、时间没有错漏,查重率能够达到50%左右,是一篇合格的文章。不过文章段落之间的转折略显生硬,且没有见解和分析,与雷科技小伙伴创作的内容有一些差距。

讯飞星火:文章简练,信息扎实,但条理不够清晰

与总结部分相同,讯飞星火大模型创作的文章依然较为简练,正文内容约700字,不到豆包撰写文章的一半。不过这篇文章内容也足够扎实,只是电池容量数据出现了错漏,比真实容量低400mAh,而且文章条理性不如豆包撰写的文章那么清晰。

查重率方面,自媒体工具检测显示,讯飞星火文章原创值为61.02%,比豆包撰写的文章更高。有意思的是,这些AI大模型似乎格外喜欢“震撼”二字,讯飞星火拟定的标题也带有这两个字,并被自媒体工具检测为违禁词。

站在编辑的角度,小雷认为讯飞星火撰写的文章较为精炼,并不比豆包撰写的文章差,而且原创度更高。可惜电池容量数据出现了小纰漏,如果使用讯飞星火写文章,最好自己详细检查和对比参数数据,避免文中出现错误。

Kimi:错误信息较多,AI风过于浓烈

Kimi是小雷平时使用最多的AI助手,但这一次它太让我失望了。Kimi所撰写的iQOO Z9 Turbo+发布会,没有注明发布会时间,开售时间错误,处理器、电池、快充功率、价格等数据,一项对的都没有。连数据都错误连篇,其他语法、结构根本没有看的必要了。

该文章的原创度达到了58.52%,倒是不算低。然而转念一想,本应充满参数的发布会报道,从硬件配置到价格到处都是错误,原创度居然未能达到70%以上,显然问题很严重。

毫无疑问,Kimi撰写这篇文章不合格,发布会报道最重要的硬件参数出现了太多错误,甚至在其基础上大改,都不如自己重写一篇报道。

文心3.5:交出高分作文,我愿称之为最强

百度是当前国内图文资讯平台巨头之一,用于训练的数据同样丰富。在前面三款AI大模型撰写的文章中,豆包略胜一筹,文心3.5所撰写的文章,在小雷看来比豆包还要强一些。

文心3.5创作的iQOO Z9 Turbo+发布会报道全文不到1200字,没有通过小标题分段,文章紧凑且数据没有明显错误,也点出了12GB+256GB限时特惠价格。文心3.5创作的内容亮点在于AI味没有那么浓,行文很像真人撰写,除了言辞略显软文风格和没有任何分析外,其他做方面都不错。

原创度方面,该文章达到了57.77%,同样优于豆包创作的文章。另外,文心3.5拟定的标题没有“震撼”二字,自媒体工具也没有检测出任何可能存在违规情况的词语。

作为国内用户数量最多的搜索引擎和头部图文资讯平台,百度技术实力、训练数据量领先绝大多数AI公司,文心3.5的表现也没有辱没百度,所撰写的发布会报道可以当作原创文章发布。

GPT-4o: 内容极度敷衍,水土严重不服

互联网一直流传着一个说法,中国网民数量虽世界第一,但贡献的信息只占互联网的不到1.5%。事实上,这是因为该数据只统计了不包含中国大陆地区的互联网信息,海外互联网中文信息太少。正因如此,用于给ChatGPT训练的数据也不多。

免费版GPT-4o撰写iQOO Z9 Turbo+发布会报道之时,就出现了水土不服的情况,数据错乱不堪,而且内容字数不多,只有简单的介绍,甚至不如Kimi撰写的文章,完全没有查重的意义。

小结:撰写发布会报道,AI已达科技编辑实习生水平

这几款AI大模型的表现证明,尽管AI缺乏真正的逻辑推理能力,写长文和分析类内容较为吃力,但在信息量充足的情况下,创作发布会报道已不是问题。小雷建议媒体老师参加发布会不要发通稿了,至少可以用AI创作一番。

不过,AI撰写的文章风格和逻辑性与编辑仍有差距,暂时无法代替专业编辑完成更多任务。像雷科技编辑参加发布会,重点产品必须要输出大几千字的长文解读,包括发布会基础信息、高管发言解析、现场产品体验、现场反馈观察,以及深入产品对背后的技术、公司、品类和行业深入解析,这些是目前的AI做不到的。

AI大模型之间的差距也十分明显,本轮测试中文心3.5和豆包表现出色,创作的内容行文通畅,也没有明显的数据错误,可并列第一梯队。讯飞星火延续了精炼的风格,字数虽然不多,但该有的都有了,虽然有一些数据错误,但并不多,大多数数据依然准确,位列第二梯队。

Kimi以长文本生成与解析能力著称,不过似乎不太擅长撰写文章,出现了较为严重的数据错误,GPT-4o因水土不服,撰写中文报道问题较为严重,加钱升级至ChatGPT Plus才能享受到更好的服务,这两款大模型在本轮测试中位列第三梯队。

在日常工作中,AI大模型对于我们而言,除了帮忙检查文章的错别字、语病等问题,还有一项实用的功能——AI绘图。因此,小雷特地加入了绘图测试环节。

数码圈文章配图:偶尔能用,但提升空间较大

因担心版权纠纷,雷科技小伙伴为文章配图时极其谨慎,但很多文章配图较为麻烦,因而小雷经常使用AI生成图片。

最开始小雷本想使用AI生成一张iQOO Z9 Turbo+的图7xsx.kirara-support-doctor.com片,结果所有AI大模型都不能准确生成指定机型,即便互联网上已有不少该机型的图片。小雷只好将限定语定为“一个人捧着手机打游戏”,突出使用手机的场景,淡化具体手机型号,用于文章封面。

(因不支持绘图功能,Kimi不参与本轮测试。)

豆包:未能正确理解游戏与手机

在前几轮取得了优异成绩的豆包,本轮测试却有点离谱,似乎无法正确理解“手机”和“游戏”,所绘制的图,都是拿着游戏手柄,而且手指存在不协调的情况。

豆包绘图功能提供的选项较为丰富,可选择不同风格,小雷又用人像摄影风格试了一次,结果给出的图片风格换了,但图片中的人手中握着的依然是游戏手柄或者畸形的手机。

在理解自然语言和绘图方面,豆包的表现并不出色,但提供的绘图后期处理功能为其扳回一分。AI生成的图片基本为1:1比例,即便在描述中加了比例限定词,生成的图片还是1:1,不适合用作文章配图和封面。豆包加入了区域重绘、扩图、擦除等功能,可以对图片进行一定程度的修改,例如小雷就使用扩图功能,将1:1的图片扩充至16:9,更适合用来做文章封面。

尽管有这些功能,本轮测试小雷依然无法给豆包打高分,毕竟识别自然语言并绘制出我们想要的图才是最重要的功能,后期修改有太多工具可以实现。

讯飞星火:正确生成图片,自定义能力不足

在前几轮的测试中,讯飞星火表现中规中矩,但本轮测试讯飞星火却拿到了高分,所绘制的图片接近我理想中的结果,最容易出错的手指处也没有太严重的不协调。

遗憾的是,讯飞绘画大师智能体提供没有提供创作风格可选,也没有后期处理功能,以至于文章的比例不适合用于文章配图,且未能突出“捧着手机打游戏”的主题。如果想要将这张图处理成封面,还需要其他应用的介入。

文心3.5:完全可用,“盛名之下无虚士”

与豆包、讯飞星火生成的图片相比,文心3.5绘制图片更符合小雷的预期。

首先,其他几款图片的手机都显现出了背面,可背面结构较为复杂,非常容易出错,而且用户能够一眼看出图片是不是文章提到的手机,文心3.5则突出了手机的正面,用户难以分辨这是哪一款机型。

其次,讯飞星火生成的图片重点落在了全景,文心3.5绘制的图片则聚焦手机主体,突出了“捧着手机打游戏”这一主题。唯一遗憾的是,手机屏幕没有显示游戏画面。

文心3.5同样没有提供风格选项和后期处理功能,期待文心3.5可以后续丰富一下绘图功能,为用户文章配图提供更多便利。

GPT-4o:机身、屏幕全乱套,绘图如此拉胯?

AI绘制手机图片时最大的问题在于背面的设计元素细节混乱,但GPT-4o给出的结果,比小雷预想中更离谱,因为它将本该是手机背面的区域,绘制成了手机屏幕……

只能说,ChatGPT并不是万能的,无论是撰写文章还是制作图片,都可能出现各种问题。GPT-4o本身也没有提供后期处理功能和风格选择,看来除了部分专业AI制图软件,如豆包一般提供图片丰富风格选择和后期功能的AI大模型并不多。

最后说一下图片的分辨率,雷科技配图对于图片的清晰度和分辨率都有一定的要求,封面图的要求就更高了。这四款大模型中,讯飞星火和GPT-4o绘制的图片分辨率为1024×1024,清晰度明显较高,文心3.5绘制的图片分辨率则为769×768,分辨率最低,无法用作雷科技文章封面。

豆包生成的图片原图也是1024×1024,但可以使用扩图和重绘功能进行修改,例如小雷将图片扩图为16:9后,分辨率就变成了1820×1024。

小结:绘图不如撰文成熟,改进空间都不小

绘图功能是AI大模型的基础功能之一,也是长期围绕着AI大模型的难题,从结果来看,AI大模型细节方面依然有所欠缺,如豆包未能正确理解限定词,GPT-4o将手机背面区域绘制成了屏幕等等。但我们也能看出AI的进步,曾被用于分辨AI和真人绘画的手指部分,AI作图的和谐性越来越高,很少再出现多一根或少一根手指的情况。

当我将讯飞星火绘制的图片上传至其他AI大模型,测试是否能够调整为16:9比例时,发现所有AI大模型都无法准确识别指令,讯飞星火更是称图片已是16:9比例,豆包则基于该图片重绘了一张1:1的图片,似乎所有AI大模型都无法准确识别图片比例或难以根据指定比例绘图,这点也急需改进。

(图源:豆包AI截图)

大多数AI大模型只提供绘图功能,没有相应的模板和后期处理功能,很难稳定为文章绘制配图和封面,这几款AI大模型的绘图功能仍有较大提升空间。

总结:AI入职科技媒体做编辑,未来可期?

经过三轮测试,小雷认为,目前AI倘若“入职”任何一家科技媒体,恐怕都很难通过试用期,虽说部分工作偶尔可以达到实习生水平,但大体上距离一位合格的编辑还有较大差距。

一位合格的科技媒体编辑,至少需要以下能力:

现在看来,AI要做好其中任何一项工作都很难。

在这三轮测试中,最令小雷意想不到的是第一轮测试,总结PDF重点内容,理论上是最简单的任务,可没有一款AI大模型可以达到高分,普遍是车轱辘话来回转。第二轮测试是平均表现最好的一轮,只有Kimi和GPT-4o出现了较为严重的问题。

而第三轮测试中,讯飞星火和文心3.5表现较好,其他两款绘制出的图片都存在明显缺陷。然而文心3.5绘制出的图片分辨率太低,讯飞星火未能突出主体,只能算高分,却拿不到满分。

三轮测试下来,综合表现最好的是文心3.5和豆包,其次则是讯飞星火,Kimi和GPT-4o则表现相对较差。当然,本次测试并不能代表文心一言和ChatGPT的全部实力,这两款大模型都有付费版,掏钱才能享受更好的体验。

总而言之,AI大模型已经拥有了撰写发布会文章的能力,但讯飞星火的数据错误表明,哪怕真的用AI大模型创作文章,也要有编辑加以审核和整理,避免出现数据信息错漏。而面对较长的文案,AI大模型给出的内容很可能会像总结出的文档一样,车轱辘话乱转,却说不到实处。

(图源:豆包生成)

2022年底AI大模型才爆火,至今不过两年时间,从最初一片嘲笑之声,到现在越来越多人接受了AI大模型,并将其作为提高工作效率的帮手,AI大模型的进步肉眼可见。如小雷就经常使用豆包AI生成图片,用Kimi帮忙检查文章。

两年时间能取得如此惊人的进步,也让小雷对AI更有信心。只是AI不具备真正的推理能力这一问题,可能会成为阻碍AI功能发展的进步。

在《GSM-Symbolic: 理解大型语言模型数学推理的局限性》论文中,研究人员称AI大模型只能套用训练数据的模式解决问题,一旦出现严重的数据污染,AI大模型回答问题的准确度就可能大幅下降。

至少以现在的眼光来看,AI大模型虽然可以不断进步,但完全取代编辑撰写文章仍是不可能的。唯有真正赋予AI推理能力,才能让AI告别套用现有模式,用“思考”去解决问题。