加州大学旧金山分校:ChatGPT当急诊员会如何?
(KRON) — 您会信任人工智能来处理您的急诊室就诊吗?加利福尼亚大学旧金山分校的研究人员于周二通过新发表的一项研究回答了这个问题。
简而言之,研究人员觉得人工智能当下还不应为患者做手术或开药。然而,人工智能不仅被证明是未来医院的一个有希望的补充,而且更有趣的是,在患者急诊就诊的某些方面,它已经超越了当地的临床医生。
据国家医学图书馆所说,全国的急诊部门都人满为患。因此,研究人员想看看语言学习模型 (LLM) 是否至少能帮助医院完成接收急诊患者的基本任务。
加州大学旧金山分校的研究人员收集并运用了超过 1 万份真实的成人急诊就诊记录,并对 ChatGPT-4(世界上最受欢迎的 LLM 之一)展开了测试。根据该研究,该人工智能软件在患者急诊就诊的三个不同方面进行了测试:
该研究是仅有的少数几个使用真实世界临床数据而非模拟场景来评估大型语言模型的研究之一,并且是首个为此目的使用超过 1000 个临床病例的研究。
在所有三个临床推荐任务中,ChatGPT 表现“不佳”,平均准确率低于医生。根据该研究,该人工智能软件“在其推荐中过于谨慎,以牺牲特异性为代价而具有高敏感性。”
“这对于临床医生来说是一则有价值的信息,切勿盲目信任这些模型,”该研究的主要作者、博士后学者 克里斯·威廉姆斯说。“ChatGPT 可以回答医学考试问题并帮助起草临床笔记,但它目前并非为需要多重考虑的情况而设计,比如急诊科的情况。”
尽管在放射学和抗生素处方建议方面的表现显著落后,但 ChatGPT 在确定患者进入急诊室时的初始入院状态方面表现更好。
ChatGPT 和临床医生被要求通过在“严重病情”和“不太紧急的病情,如手腕骨折”之间进行选择,来判定患者的“严重程度”和优先级。 根据这项研究,在 500 对的较小子样本中,人工智能的正确率达 89%,而医生的正确率为 86%。
尽管表现优于他们,但临床医生表示,让人工智能协助确定患者需求与医院资源的优先次序,可以腾出“关键时间来治疗病情最严重的患者,同时为需要同时处理多个紧急请求的临床医生提供备份决策工具”。
根据这项研究,偏见是将人工智能纳入急诊室的主要问题之一。更具体地说,“由于用于训练它们的数据存在偏差”,可能会发现种族和性别偏见。
威廉姆斯说:“展示人工智能能做很酷的事,这很棒,但最重要的是考虑这项技术在帮助谁和阻碍谁。仅仅能够做某事算不算是使用人工智能的标准,还是得能够为所有类型的患者把事情做好才行?”
此前,当被要求给出简单的心血管疾病预防建议时,GPT 3.5-turbo 提供了“大体上合适的回应”。当在公共社交媒体论坛上被问及他们对自己的推荐过程有何感受时,公众表示他们既喜欢人工智能的互动,又认为它比医生的回应具有更强的同理心。
“没有完美的解决方案,但知道像 ChatGPT 这样的模型有这些倾向,我们肩负着思考如何让它们在临床实践中表现出色的责任,” 威廉姆斯说。“即将开展的工作会处理在临床环境中如何最佳部署这项技术的问题”