让ChatGPT脱颖而出的秘密武器

OpenAI的GPT系列模型在数据集、模型构建、用户互动以及其他关键优势方面均表现出色,超越了Google、Meta等公司的大型模型。(图/路透社)

在开发人工智慧的领域里,使用深度学习的公司很多;而使用大型语言模型(LLM)来开发AI的公司也不只OpenAI一家。ChatGPT的脱颖而出,还因为运用了另外两种特别的学习机制和架构,而得以实现更高效的平行训练:一个是基于自注意力的Transformer架构;另一个则是被称为MaskedSelf-Attention

的技术。

自注意力机制的一个重要特性,是它允许模型在一次操作中处理所有的输入元素,这与前面提到的循环神经网络(RNN)和长短期记忆(LSTM)的序列化处理方式形成对比。在RNN或LSTM中,模型必须逐步处理序列中的每个元素,并依赖于前步的状态生成下一步的状态。这使得RNN和LSTM难以有效地利用现代GPU(图形处理器)的平行处理能力,并且在处理长序列时,会出现梯度消失-也就是导致远距离的资讯在传递过程中权重被稀释或被遗忘-的问题。

相反,Transformer架构下的GPT,可以同时处理所有的输入元素,不需要依赖前一步的状态来生成下一步的状态,而得以充分利用现代GPU的计算能力,从而大幅度提升训练速度和运算效率。而MaskedSelf-Attention机制则确保了模型在生成每个新元素时,只能使用到该元素之前的信息,这符合真实世界中的生成序列的情况,同时也保证了模型在训练过程中的正确性。

除此之外,GPT的优势有:

●数据集规模:GPT模型的运作,依赖于庞大且多元化的数据集,这是它超越其他模型的关键要素之一。GPT系列模型所取得的训练数据,源于各式网路来源,如维基百科、各类书籍、网路页面等,包含了各领域的丰富知识。同时,OpenAI对于资料进行严谨的清理与筛选,确保模型在训练过程中能够吸收高品质的知识,所以可以提升生成内容的精确度与信赖度。

●跨语言能力:GPT模型在多语言处理方面具有很强的能力,能够理解和生成不同语言的文本,满足全球范围用户的需求。相比其他模型,GPT在跨语言任务上表现更为出色,如翻译、跨语言摘要等。

●灵活的微调:GPT于微调策略上的卓越表现,正是超越其他语言模型的核心因素。在预训练的基础上,进行具有针对性的精细校准,让GPT能迅速适应各式NLP任务,例如文本分类、情感分析等。

●知名投资者的支持:OpenAI得到众多知名投资者的支持,如前期的ElonMusk及后期大举投注的BillGates,这些投资者的背景和声誉,为GPT带来背书与额外的品牌价值。此外,这些投资者的资源和网络,也为GPT的市场行销与形象推广提供有力的支持。

●迅速聚集大量用户:GPT模型在短时间内吸引大量用户,迅速扩大了市场规模。这得益于其出色的自然语言生成能力,使得GPT在各种场景下的应用更为广泛,在极短时间内达到一亿用户的门槛。

综上所述,OpenAI的GPT系列模型在数据集、模型构建、用户互动以及其他关键优势方面均表现出色,超越了Google、Meta等公司的大型模型。这些优势,使GPT其他的生成式人工智慧模型,同时包含文字、图像、音乐、影像的处理,在许多应

用场景中展现出惊人的性能。不过,这场新AI战争才刚刚开始,胜负仍然在未定之天。

(本文摘自《新AI与新人类》/大块文化)

【作者简介】

苏经天

联谱顾问股份有限公司创办人、国鼎生物科技总经理、国光生物科技策略长、和鑫生技开发总经理、联亚生技开发商务发展副总经理。

台湾大学EMBA高阶公共管理组企管硕士,霍华休斯医学研究院、约翰霍普金斯医学院神经科学研究所博士后研究,纽约州立大学石溪分校博士,康乃尔大学医学院生物化学研究所博士班,台湾大学化学系学士。

并曾任科技部审查委员、国家衞生研究院智财、技转及育成中心评鉴委员、IBM, Research Center for Bioinformatics, Regional顾问、52 Club会长、台湾生物发展协会秘书长。

毕生致力于系统化地解决复杂系统的问题,例如(与中央研究院资讯所合作)开发生物资讯模组、知识管理系统、科学文献评估系统。近期试图将阅读书籍所萃取出的抽象概念产出AIGC,经由52 Club的平台,协助忙碌的现代人仍能有效益地学习。

LinkingPros (高阶创新医药从业人员的交流园地)

脸书 https://www.facebook.com/linkingpros

网页 linkingpros.com

52 Club (复杂世界闪亮羽毛捡拾者的乐园)

https://www.facebook.com/52Club2022

《新AI与新人类》/大块文化