☰

彭博开发BloombergGPT 提供专于金融AI资讯服务

美国新闻业网站尼曼实验室（Nieman Lab）报导，彭博3月31日发表研究论文详述BloombergGPT的开发。据彭博介绍，BloombergGPT是「一个新的大规模生成式AI模型。这个大型语言模型（LLM）专门锁定范围广泛的金融资料来训练生成，目的为了支援多元化的金融产业自然语言处理（NLP）任务集」。

彭博表示，近期以大型语言模型为基础的人工智慧发展，已在许多领域展示出令人振奋的新应用；但金融领域因其复杂性及具有专门术语，有必要有专属模型。因此BloombergGPT的推出，代表将聊天机器人这项新科技开发应用到金融产业的第一步。

彭博指出，BloombergGPT将协助其改善现有金融相关自然语言处理的任务，例如文本情感分析、命名实体辨识（NER）、新闻分类、回答问题和其他功能。此外，它也创造新机会来排列可从彭博终端机取得的巨量资料，以提供客户更好的协助。

至于BloombergGPT的训练规模，彭博表示它的语料库有7000亿余个token（字词碎片）。相较之下，热门聊天机器人ChatGPT的开发公司OpenAI在2020年推出的模型GPT-3，训练的语料库则约有5000亿个token。

根据彭博说法，BloombergGPT的语料库中，有3630亿个token取自彭博自有金融资料，也就是来自彭博终端机的资料库，彭博号称这是「至今最大的特定领域资料集（dataset）」；其余3450亿个token则是取自其他来源的通用资料集。

彭博还说，训练资料分为财金类FinPile和一般The Pile两类。其中FinPile包括彭博档案库中的各类英文金融文件，如新闻文章、公告、新闻稿、网页内容和社群媒体资料，以及彭博记者撰写的新闻以外所有的新闻来源。

至于The Pile则是庞杂的语料库，来源从YouTube的画面撷取、文艺数位化的古腾堡计划（Project Gutenberg）到AI训练常见的安隆公司（Enron）电邮快取。

究竟BloombergGPT能够如何应用？尼曼实验室的文章表示，按照其训练原理，它应该具有像ChatGPT的功能，但此外也能处理与彭博需求更相关的任务，例如将自然语言指令翻译成彭博查询语言（Bloomberg Query Language）终端机的使用者偏好功能。

BloombergGPT也能为新闻文章提议具有彭博新闻风格的标题。彭博还说，BloombergGPT更能胜任回答与商业有关的提问，无论是有关文本情感分析、分类、资料撷取或任何其他任务。

彭博开发BloombergGPT 提供专于金融AI资讯服务

相关资讯