哈佛研究警告:AI医生临床推理仍存缺陷,逾八成病例未能识别关键诊断|鉴别
当地时间4月13日,哈佛医学院附属机构在《JAMA Network Open》发表的一项最新研究显示,大型语言模型(LLM)在面对复杂临床推理任务时表现堪忧。研究人员利用21个主流模型对50个极具挑战性的医学病例进行测试,结果发现,模型在“鉴别诊断”环节表现薄弱,平均有超过80%的病例未能将正确诊断列入初步名单。
研究指出,虽然AI在获得完整检查结果后的最终诊断准确率表现尚可,但在病例早期、信息尚未完全明朗的推理阶段,其纠错和排除干扰项的能力明显不足。即使是目前最先进的模型,也常因无法有效处理临床细微差别而误诊。