☰

大模型挑战手机发布会报道：文心与豆包表现出色，GPT名不副实

临近年末，各大手机品牌新机新机陆续发布，一场接着一场的发布会导致我们加班成了常态。疲惫之时小雷突然想到，或许我们可以用生成式AI撰写一些信息量较多，无需过多解读的文章，以缓解工作疲劳。

但在真正使用生成式AI帮助我们工作之前，自然要对比测试一下当前行业人气比较高的几款AI大模型，看看它们是否真的可以完成我们的工作。

考虑到现阶段生成式AI不少可以免费使用，部分需付费使用，公平起见，小雷选择了豆包、Kimi、讯飞星火三款免费AI大模型，以及文心一言可免费使用的文心3.5版本和免费版GPT-4o。测试流程方面，小雷准备了三重考验，包括总结能力、文章撰写能力，以及图片生成能力。

闲话不多说，咱们直接进入正题。

数码圈报告总结：只得皮毛，却失骨肉

今天几乎所有AI都加入了文档总结能力，因而小雷感觉，只是对新手机的发布会文档进行总结，难度似乎有点低。于是，小雷找到了之前看过的小红书《潮流数码白皮书》PDF文件，该文件约有2万字，深度剖析了小红书平台潮流数码的现状、发展趋势，并给数码家电品牌提出了相应的营销建议。

分析一份大小超过30MB的文件，对于这几款AI大模型都是挑战。

豆包：数据扎实，深入内容剖析

作为字节跳动开发的AI大模型，豆包拥有庞大的文章数据库可用于训练，也是当前小雷常用的AI助手之一。豆包将《潮流数码白皮书》总结出核心观点、小红书数码行业现状、潮流数码人群与趋势、营销解决方案、未来展望五大板块。

（图源：豆包截图）

其中最为关键的营销解决方案板块，豆包还点出了应当抓住对应的时间节点进行营销，这是其他所有AI大模型都未能做到的事。尽管仍遗失了不少信息，但豆包总结出的内容明显优于其他几款AI大模型。

讯飞星火：精炼简洁，关键信息缺失

讯飞星火与豆包的风格完全不同，豆包的总结大而全，讯飞星火的总结则极为精简，全文加起来的字数都没有豆包总结出的营销解决方案一个板块多。

（图源：讯飞星火截图）

字数多虽不一定好，但两万多字的文件，总结到五百多字，难免要舍弃大量内容。事实也正是如此，讯飞星火总结出的内容过于简练，看不到太多有用信息，也没有明确的分析，整体显得过于笼统。

Kimi：车轱辘话多，大厂味浓浓？

第三个进行测试的是Kimi，对于《潮流数码白皮书》，Kimi足足总结出了八大板块，但每一个板块的字数都不多，有点浅尝辄止的意味。而且与讯飞星火相同，Kimi也没有总结出任何数据，有点大厂打工人开会的感觉，主打一个“不说人话”。

（图源：Kimi截图）

严格来说，Kimi总结出的内容更像是一份大纲，可以根据其填补缺失的部分，但对于我们了解PDF的内容，没有太多帮助。

文心3.5：满屏小标题，有效信息少

如果说Kimi总结出的结果是一份大纲，那么文心3.5总结出的内容则像是文章的标题和小标题，一句又一句的短语，有效信息却不多，能够总结出数码行业人群资产规模情况是少有亮点。

（图源：文心一言截图）

GPT-4o：我不支持解析PDF

前面几款AI大模型无论总结的结果如何，但至少给出了一个答案，GPT-4o却直接显示无法查看和处理PDF文件。

（图源：ChatGPT截图）

ChatGPT几乎是公认的最强LLM（大语言模型），却无法查看和处理PDF文件，着实令小雷有些失望。

小结：车轱辘话来回转，准确信息看不见

本以为内容总结是AI大模型的基础功能，豆包、讯飞星火、Kimi、文心3.5，以及GPT-4o的表现却令小雷大失所望。豆包总结的内容有数据有分析，勉强能够达到及格分，其他几款AI大模型交上的答卷不说是0分，也没高出太多。

AI大模型对于《潮流数码白皮书》的总结，普遍是车轱辘话来回转，鲜有话语能够落到实处。例如营销布局部分，PDF统计了不同产品的最佳营销节点，暑期毕业季打游戏和旅游人群多，适合营销台式机和摄像机；女生喜欢拍照和音乐，38女王节则适合营销数码相机和蓝牙耳机。在评测的几款AI大模型中，只有豆包提到了一些相关内容，

（图源：《潮流数码白皮书》截图）

在本轮评测中，豆包的表现无疑是最好的，讯飞星火、Kimi、文心3.5三款大模型，虽没能总结出太多有价值的信息，但至少输出了内容，表现可列为第二档，被寄予厚望的GPT-4o，表现则逊色不少。

当然，总结功能不过是开胃菜，对于其他文章的总结能力不足，不代表撰写的文章的能力不行。

发布会报道：GPT水土不服，国产大模型出色

为了凸显出编辑撰写和AI生成的差距，小雷挑选了雷科技小伙伴撰写iQOO Z9 Turbo+发布会文章作为对比。该手机发布至今已有一段时间，网络上的相关文章不少，AI能够轻松找到素材，相对而言更简单一些。

首先看看雷科技小伙伴撰写的资讯报道，该文章逻辑清晰，将iQOO Z9 Turbo+的硬件配置、游戏帧率、产品亮点、价格完整罗列，并对其竞争力进行了分析。

（图源：雷科技文章截图）

受限于篇幅与时效性要求，雷科技小伙伴撰写的这篇资讯报道并未深入解析与体验产品，但消费者希望能够了解到的信息，基本完整阐述。

撰写文章是生成式AI的基础功能之一，豆包、讯飞星火、文心3.5等AI大模型还提供写作类型或风格可选，以帮助用户快捷创作文章。

闲话不多说，咱们来看看AI大模型撰写这一款产品的发布会报道（由于iQOO Z9 Turbo+已发布相当长一段时间，网络上的资料已十分充沛，能不能写好就看大模型的技术实力了。）

豆包：信息详实，逻辑清晰，原创度超50%

豆包撰写的文章比雷科技小伙伴所写的内容更长，条理同样清晰，外观设计、性能、散热、屏幕、电池、影像、价格每一部分都单独列了出来，并加上了小标题。该文章不但配置细节相对丰富，而且没有出现错误。值得一提的是，价格环节雷科技小伙伴报道称iQOO Z9 Turbo+ 12GB+256GB首发价格为2199元，但实际上如豆包撰写文章所言，应该是2299元，首销特价2199元。

小雷使用某自媒体工具对该文章进行了原创度检测，查询到该文章的原创度为50.56%。一般来说，自媒体平台会要求文章原创度在70%以上，但考虑到该文章为资讯报道，内容包含了大量参数信息，原创度能够达到50%左右，实际上已经不低了。就算是雷科技小伙伴自己写的文章，该工具检测显示原创度也在50%左右。

（图源：自媒体工具截图）

豆包撰写的发布会报道，配置信息、价格、时间没有错漏，查重率能够达到50%左右，是一篇合格的文章。不过文章段落之间的转折略显生硬，且没有见解和分析，与雷科技小伙伴创作的内容有一些差距。

讯飞星火：文章简练，信息扎实，但条理不够清晰

与总结部分相同，讯飞星火大模型创作的文章依然较为简练，正文内容约700字，不到豆包撰写文章的一半。不过这篇文章内容也足够扎实，只是电池容量数据出现了错漏，比真实容量低400mAh，而且文章条理性不如豆包撰写的文章那么清晰。

查重率方面，自媒体工具检测显示，讯飞星火文章原创值为61.02%，比豆包撰写的文章更高。有意思的是，这些AI大模型似乎格外喜欢“震撼”二字，讯飞星火拟定的标题也带有这两个字，并被自媒体工具检测为违禁词。

站在编辑的角度，小雷认为讯飞星火撰写的文章较为精炼，并不比豆包撰写的文章差，而且原创度更高。可惜电池容量数据出现了小纰漏，如果使用讯飞星火写文章，最好自己详细检查和对比参数数据，避免文中出现错误。

Kimi：错误信息较多，AI风过于浓烈

Kimi是小雷平时使用最多的AI助手，但这一次它太让我失望了。Kimi所撰写的iQOO Z9 Turbo+发布会，没有注明发布会时间，开售时间错误，处理器、电池、快充功率、价格等数据，一项对的都没有。连数据都错误连篇，其他语法、结构根本没有看的必要了。

该文章的原创度达到了58.52%，倒是不算低。然而转念一想，本应充满参数的发布会报道，从硬件配置到价格到处都是错误，原创度居然未能达到70%以上，显然问题很严重。

毫无疑问，Kimi撰写这篇文章不合格，发布会报道最重要的硬件参数出现了太多错误，甚至在其基础上大改，都不如自己重写一篇报道。

文心3.5：交出高分作文，我愿称之为最强

百度是当前国内图文资讯平台巨头之一，用于训练的数据同样丰富。在前面三款AI大模型撰写的文章中，豆包略胜一筹，文心3.5所撰写的文章，在小雷看来比豆包还要强一些。

文心3.5创作的iQOO Z9 Turbo+发布会报道全文不到1200字，没有通过小标题分段，文章紧凑且数据没有明显错误，也点出了12GB+256GB限时特惠价格。文心3.5创作的内容亮点在于AI味没有那么浓，行文很像真人撰写，除了言辞略显软文风格和没有任何分析外，其他做方面都不错。

原创度方面，该文章达到了57.77%，同样优于豆包创作的文章。另外，文心3.5拟定的标题没有“震撼”二字，自媒体工具也没有检测出任何可能存在违规情况的词语。

作为国内用户数量最多的搜索引擎和头部图文资讯平台，百度技术实力、训练数据量领先绝大多数AI公司，文心3.5的表现也没有辱没百度，所撰写的发布会报道可以当作原创文章发布。

GPT-4o：内容极度敷衍，水土严重不服

互联网一直流传着一个说法，中国网民数量虽世界第一，但贡献的信息只占互联网的不到1.5%。事实上，这是因为该数据只统计了不包含中国大陆地区的互联网信息，海外互联网中文信息太少。正因如此，用于给ChatGPT训练的数据也不多。

免费版GPT-4o撰写iQOO Z9 Turbo+发布会报道之时，就出现了水土不服的情况，数据错乱不堪，而且内容字数不多，只有简单的介绍，甚至不如Kimi撰写的文章，完全没有查重的意义。

小结：撰写发布会报道，AI已达科技编辑实习生水平

这几款AI大模型的表现证明，尽管AI缺乏真正的逻辑推理能力，写长文和分析类内容较为吃力，但在信息量充足的情况下，创作发布会报道已不是问题。小雷建议媒体老师参加发布会不要发通稿了，至少可以用AI创作一番。

不过，AI撰写的文章风格和逻辑性与编辑仍有差距，暂时无法代替专业编辑完成更多任务。像雷科技编辑参加发布会，重点产品必须要输出大几千字的长文解读，包括发布会基础信息、高管发言解析、现场产品体验、现场反馈观察，以及深入产品对背后的技术、公司、品类和行业深入解析，这些是目前的AI做不到的。

AI大模型之间的差距也十分明显，本轮测试中文心3.5和豆包表现出色，创作的内容行文通畅，也没有明显的数据错误，可并列第一梯队。讯飞星火延续了精炼的风格，字数虽然不多，但该有的都有了，虽然有一些数据错误，但并不多，大多数数据依然准确，位列第二梯队。

Kimi以长文本生成与解析能力著称，不过似乎不太擅长撰写文章，出现了较为严重的数据错误，GPT-4o因水土不服，撰写中文报道问题较为严重，加钱升级至ChatGPT Plus才能享受到更好的服务，这两款大模型在本轮测试中位列第三梯队。

在日常工作中，AI大模型对于我们而言，除了帮忙检查文章的错别字、语病等问题，还有一项实用的功能——AI绘图。因此，小雷特地加入了绘图测试环节。

数码圈文章配图：偶尔能用，但提升空间较大

因担心版权纠纷，雷科技小伙伴为文章配图时极其谨慎，但很多文章配图较为麻烦，因而小雷经常使用AI生成图片。

最开始小雷本想使用AI生成一张iQOO Z9 Turbo+的图7xsx.kirara-support-doctor.com片，结果所有AI大模型都不能准确生成指定机型，即便互联网上已有不少该机型的图片。小雷只好将限定语定为“一个人捧着手机打游戏”，突出使用手机的场景，淡化具体手机型号，用于文章封面。

（因不支持绘图功能，Kimi不参与本轮测试。）

豆包：未能正确理解游戏与手机

在前几轮取得了优异成绩的豆包，本轮测试却有点离谱，似乎无法正确理解“手机”和“游戏”，所绘制的图，都是拿着游戏手柄，而且手指存在不协调的情况。

豆包绘图功能提供的选项较为丰富，可选择不同风格，小雷又用人像摄影风格试了一次，结果给出的图片风格换了，但图片中的人手中握着的依然是游戏手柄或者畸形的手机。

在理解自然语言和绘图方面，豆包的表现并不出色，但提供的绘图后期处理功能为其扳回一分。AI生成的图片基本为1:1比例，即便在描述中加了比例限定词，生成的图片还是1:1，不适合用作文章配图和封面。豆包加入了区域重绘、扩图、擦除等功能，可以对图片进行一定程度的修改，例如小雷就使用扩图功能，将1:1的图片扩充至16:9，更适合用来做文章封面。

尽管有这些功能，本轮测试小雷依然无法给豆包打高分，毕竟识别自然语言并绘制出我们想要的图才是最重要的功能，后期修改有太多工具可以实现。

讯飞星火：正确生成图片，自定义能力不足

在前几轮的测试中，讯飞星火表现中规中矩，但本轮测试讯飞星火却拿到了高分，所绘制的图片接近我理想中的结果，最容易出错的手指处也没有太严重的不协调。

遗憾的是，讯飞绘画大师智能体提供没有提供创作风格可选，也没有后期处理功能，以至于文章的比例不适合用于文章配图，且未能突出“捧着手机打游戏”的主题。如果想要将这张图处理成封面，还需要其他应用的介入。

文心3.5：完全可用，“盛名之下无虚士”

与豆包、讯飞星火生成的图片相比，文心3.5绘制图片更符合小雷的预期。

首先，其他几款图片的手机都显现出了背面，可背面结构较为复杂，非常容易出错，而且用户能够一眼看出图片是不是文章提到的手机，文心3.5则突出了手机的正面，用户难以分辨这是哪一款机型。

其次，讯飞星火生成的图片重点落在了全景，文心3.5绘制的图片则聚焦手机主体，突出了“捧着手机打游戏”这一主题。唯一遗憾的是，手机屏幕没有显示游戏画面。

文心3.5同样没有提供风格选项和后期处理功能，期待文心3.5可以后续丰富一下绘图功能，为用户文章配图提供更多便利。

GPT-4o：机身、屏幕全乱套，绘图如此拉胯？

AI绘制手机图片时最大的问题在于背面的设计元素细节混乱，但GPT-4o给出的结果，比小雷预想中更离谱，因为它将本该是手机背面的区域，绘制成了手机屏幕……

只能说，ChatGPT并不是万能的，无论是撰写文章还是制作图片，都可能出现各种问题。GPT-4o本身也没有提供后期处理功能和风格选择，看来除了部分专业AI制图软件，如豆包一般提供图片丰富风格选择和后期功能的AI大模型并不多。

最后说一下图片的分辨率，雷科技配图对于图片的清晰度和分辨率都有一定的要求，封面图的要求就更高了。这四款大模型中，讯飞星火和GPT-4o绘制的图片分辨率为1024×1024，清晰度明显较高，文心3.5绘制的图片分辨率则为769×768，分辨率最低，无法用作雷科技文章封面。

豆包生成的图片原图也是1024×1024，但可以使用扩图和重绘功能进行修改，例如小雷将图片扩图为16:9后，分辨率就变成了1820×1024。

小结：绘图不如撰文成熟，改进空间都不小

绘图功能是AI大模型的基础功能之一，也是长期围绕着AI大模型的难题，从结果来看，AI大模型细节方面依然有所欠缺，如豆包未能正确理解限定词，GPT-4o将手机背面区域绘制成了屏幕等等。但我们也能看出AI的进步，曾被用于分辨AI和真人绘画的手指部分，AI作图的和谐性越来越高，很少再出现多一根或少一根手指的情况。

当我将讯飞星火绘制的图片上传至其他AI大模型，测试是否能够调整为16:9比例时，发现所有AI大模型都无法准确识别指令，讯飞星火更是称图片已是16:9比例，豆包则基于该图片重绘了一张1:1的图片，似乎所有AI大模型都无法准确识别图片比例或难以根据指定比例绘图，这点也急需改进。

（图源：豆包AI截图）

大多数AI大模型只提供绘图功能，没有相应的模板和后期处理功能，很难稳定为文章绘制配图和封面，这几款AI大模型的绘图功能仍有较大提升空间。

总结：AI入职科技媒体做编辑，未来可期？

经过三轮测试，小雷认为，目前AI倘若“入职”任何一家科技媒体，恐怕都很难通过试用期，虽说部分工作偶尔可以达到实习生水平，但大体上距离一位合格的编辑还有较大差距。

一位合格的科技媒体编辑，至少需要以下能力：

现在看来，AI要做好其中任何一项工作都很难。

在这三轮测试中，最令小雷意想不到的是第一轮测试，总结PDF重点内容，理论上是最简单的任务，可没有一款AI大模型可以达到高分，普遍是车轱辘话来回转。第二轮测试是平均表现最好的一轮，只有Kimi和GPT-4o出现了较为严重的问题。

而第三轮测试中，讯飞星火和文心3.5表现较好，其他两款绘制出的图片都存在明显缺陷。然而文心3.5绘制出的图片分辨率太低，讯飞星火未能突出主体，只能算高分，却拿不到满分。

三轮测试下来，综合表现最好的是文心3.5和豆包，其次则是讯飞星火，Kimi和GPT-4o则表现相对较差。当然，本次测试并不能代表文心一言和ChatGPT的全部实力，这两款大模型都有付费版，掏钱才能享受更好的体验。

总而言之，AI大模型已经拥有了撰写发布会文章的能力，但讯飞星火的数据错误表明，哪怕真的用AI大模型创作文章，也要有编辑加以审核和整理，避免出现数据信息错漏。而面对较长的文案，AI大模型给出的内容很可能会像总结出的文档一样，车轱辘话乱转，却说不到实处。

（图源：豆包生成）

2022年底AI大模型才爆火，至今不过两年时间，从最初一片嘲笑之声，到现在越来越多人接受了AI大模型，并将其作为提高工作效率的帮手，AI大模型的进步肉眼可见。如小雷就经常使用豆包AI生成图片，用Kimi帮忙检查文章。

两年时间能取得如此惊人的进步，也让小雷对AI更有信心。只是AI不具备真正的推理能力这一问题，可能会成为阻碍AI功能发展的进步。

在《GSM-Symbolic: 理解大型语言模型数学推理的局限性》论文中，研究人员称AI大模型只能套用训练数据的模式解决问题，一旦出现严重的数据污染，AI大模型回答问题的准确度就可能大幅下降。

至少以现在的眼光来看，AI大模型虽然可以不断进步，但完全取代编辑撰写文章仍是不可能的。唯有真正赋予AI推理能力，才能让AI告别套用现有模式，用“思考”去解决问题。

大模型挑战手机发布会报道：文心与豆包表现出色，GPT名不副实

相关资讯