ChatGPT评估儿童呼吸系统疾病竟超实习医生

在奥地利维也纳举行的欧洲呼吸学会(ERS)大会上所展示的一项研究表明,聊天机器人 ChatGPT 在评估诸如囊性纤维化、哮喘和胸部感染等复杂呼吸系统疾病病例时的表现要优于实习医生。

该研究还显示,谷歌的聊天机器人 Bard 在某些方面的表现比实习医生出色,而微软的 Bing 聊天机器人的表现则与实习医生旗鼓相当。

此项研究指出,这些大型语言模型(LLM)能够用于辅助实习医生、护士和全科医生更迅速地为患者进行分诊,从而减轻医疗服务的压力。

该研究由英国爱丁堡皇家儿童医院和青少年医院的儿科肺病顾问、爱丁堡大学名誉高级临床讲师曼吉特·纳拉亚南(Manjith Narayanan)博士提出。他说:“像 ChatGPT 这类大型语言模型在过去的一年半中脱颖而出,它们似乎能够理解自然语言,并且能给出足以充分模拟人类对话的回应。这些工具在医学中有几个潜在的应用。我开展这项研究的动机在于评估 LLM 在现实生活中对临床医生的协助程度究竟如何。”

为了探究这一问题,纳拉亚南博士使用了儿科呼吸医学中经常出现的临床场景。这些场景由另外六位儿科呼吸医学专家提供,涵盖了囊性纤维化、哮喘、睡眠呼吸障碍、呼吸困难和胸部感染等主题。这些场景均无法明确诊断,且不存在已发表的证据、指南或专家共识能指向特定的诊断或方案。

十位儿科临床经验不足四个月的实习医生获得了一个小时的时间,在此期间,他们能够使用互联网,但不能使用任何聊天机器人,用 200 至 400 个单词的描述性答案来解决每个场景。每个场景也都提供给了三个聊天机器人。

所有回答均由六位儿科呼吸专家依据正确性、全面性、有用性、合理性和连贯性来进行评分。他们还被要求说明他们认为每个回答是由人类还是聊天机器人生成的,并给每个回答打出 9 分制的总分。

ChatGPT 3.5 版本所提供的解决方案,总体平均得分为 9 分里的 7 分,并且被认为比其他聊天机器人的回答更具人类特征。Bard 的平均得分为 9 分里的 6 分,被评价为比实习医生的回答更“连贯”,但在其他方面并不比实习医生更好或更差。Bing 平均得分为 9 分中的 4 分——与实习医生总体得分相同。专家可靠地认定 Bing 和 Bard 的回答是非人类的。

纳拉亚南博士说:“据我们所知,我们的这项研究是首次在反映现实临床实践的情形下对大型语言模型和实习医生进行测试。我们是通过允许实习医生像在现实生活中那样,能够完全访问互联网上可用的资源来做到这一点的。这把重点从测试记忆力上转移开了,在这一方面大型语言模型具有明显的优势。因此,这项研究向我们展示了使用大型语言模型的另一种方式,以及我们距离日常临床应用有多近。

“我们没有直接测试大型语言模型在面向患者这一角色中的工作情况。然而,它可以被分诊护士、实习医生和初级保健医生使用,他们通常是第一个查看患者的人。”

研究人员在这三个大型语言模型里都没有发现任何明显的“幻觉”(貌似虚构的信息)实例。

“尽管在咱们的研究里,我们没瞧见大型语言模型产生幻觉的任何例子,不过我们得留意这种可能性,还要制定应对办法。”纳拉亚南博士补充说。

必应、巴德还有实习医生偶尔会给出被认定跟上下文不相关的答案。

纳拉亚南博士和他的同事们当下打算针对更资深的医生来测试聊天机器人,并且研究更新颖、更先进的大型语言模型。

希拉里·平诺克(Hilary Pinnock)是 ERS 教育委员会主席,也是英国爱丁堡大学初级保健呼吸医学教授,她未参与此项研究。她说:“这是一项饶有趣味的研究。看到像 ChatGPT 这样广泛可用的人工智能工具能够为儿童呼吸系统疾病的复杂病例提供解决方案,这令人鼓舞,但或许也有点让人害怕。它无疑为人工智能支持的护理的全新世界指明了方向。

“然而,正如研究人员所指出的,在我们开始将人工智能用于常规临床实践之前,我们需要确信它不会因‘幻想’虚假信息或因为它是基于不能公平代表我们所服务人群的数据进行训练而产生错误。正如研究人员所展示的那样,人工智能带来了新工作方式的希望,但在我们把这项技术融入常规护理之前,我们得对临床的准确性和安全性展开广泛测试,对组织效率进行切实评估,并探究其社会影响。”

由欧洲呼吸学会提供