沒有通過認知測試 研究:聊天機器人已出現數位痴呆症
(首图来源:Pixabay)
【文‧黄嬿】
当 AI 大脑愈来愈成熟,会逐渐取代人类工作 ,甚至连医生都在担忧,聊天机器人是否超越医生。一项研究让几个大型聊天机器人接受痴呆症测试,发现几乎所有聊天机器人都显示有轻度认知障碍,挑战 AI 很快就会取代医生的假设。
多项研究发现,大型语言模型 (LLM) 非常擅长执行医疗诊断,但人类大脑会老化,机器人可能也会,但还没有科学验证。这次研究员使用蒙特利尔认知评估 (MoCA),测试几个顶尖语言模型的认知能力,包括 OpenAI ChatGPT 4 / 4o、Anthropic Claude 3.5 Sonnet 及 Google Gemini 1 / 1.5。
MoCA 测试为简短任务和问题,包括注意力、记忆力、语言、视觉空间技能,以及执行功能等,普遍检测认知障碍和失智症早期迹象,通常用在老年人,满分为 30 分,26 分以上一般认为正常。ChatGPT 4o 在 MoCA 测试得高分,但也只是勉强达标的 26 分,其次是 ChatGPT 4 和 Claude 得到 25 分,Gemini 1.0 得分最低。
视觉空间与执行任务是 AI 弱点
所有聊天机器人多数任务表现都不错,如命名、注意力、语言和抽象,但视觉空间和执行任务表现不佳,包括轨迹制作任务,需按升序连接圆圈中数字和字母,以及时钟绘图测试,要求测试者绘制显示特定时间的钟面。Gemini 1 / 1.5 在相当简单的延迟回忆任务,记住五个单字序列都失败。
研究员测试视觉空间认知力,发现聊天机器人无法表现同理心,也无法准确解释复杂视觉场景,缺乏同理心是额颞叶失智症的代表症状。只有 ChatGPT 4o 通过史楚普实验 (Stroop test),用颜色名称和字体颜色组合衡量干扰如何影响反应时间。
AI 无法医学诊断
研究作者表示,旧版聊天机器人就像老年患者,测试往往表现较差,挑战 AI 很快会取代医生的假设。至于所有大型语言模型视觉抽象和执行功能任务都失败,突显聊天机器人的重大弱点,可能阻碍临床环境运用。
这研究目的不是医学诊断 AI,而是驳回一波研究浪潮,这些研究认为 AI 可用于医疗领域,特别是当诊断工具。
聊天机器人明显认知障碍可能会影响医疗诊断的可靠性并降低病患信心,结论是,至少目前所见,医生不太可能被大型语言模型取代。论文刊登于《英国医学期刊》。
【本文章由科技新报授权提供,更多精彩内容请详科技新报官网】