牛津大学团队进行了一项关于AI在医学诊断中的应用研究★★✿,发现真实用户在与AI互动时★★✿,诊断准确率和处理方式选择正确率并不理想★★✿。
2.研究团队邀请了1298名英国普通人★★✿,设置了10个真实的就医场景★★✿,让他们自行判断症状的严重程度和处理方式★★✿。
4.然而★★✿,结果显示AI辅助诊断的效果并不理想★★✿,用户在34.5%的场景下能说出正确疾病名★★✿,选对处理方式的概率也不高于对照组尊龙人生就是博★★✿。
5.该研究提醒我们★★✿,AI医学的未来不仅仅是模型分数的竞赛s8sp直接进入路线★★✿,而是如何让普通人和AI好好说话的漫长修炼★★✿。
原本以为★★✿,大模型考过了医学考试★★✿,离成为“AI医生”也就差临门一脚s8sp直接进入路线尊龙人生就是博★★✿。没想到★★✿,牛津大学最新这项研究★★✿,却狠狠给了一记当头棒喝★★✿。
他们要像现实生活中那样判断★★✿:我现在的症状会不会很严重?该自己扛★★✿、去社区医院★★✿,还是得立刻冲急诊?有些人手里有大模型帮忙★★✿,有些人只能自己用Google查世界百大名校★★✿,★★✿。
这次拿来PK的★★✿,不是什么小模型★★✿,而是GPT-4o★★✿、Llama 3和Cohere的Command R+★★✿。理论上都是
★★✿:GPT-4o能正确识别94.7%的疾病★★✿,推荐的处理方式也有64.7%是对的★★✿,Llama 3和Command R+的数字也都不低★★✿。你以为AI只要上线★★✿,人人有救?
研究方案★★✿:(a) 3名医生编写了10个医疗案例★★✿,经反复修改后对处置方式(从自我护理到叫救护车共5级)达成一致★★✿。(b) 另4名医生提供鉴别诊断★★✿,汇总形成标准答案★★✿。(c) 招募1298人随机分4组★★✿,每组测试1个案例★★✿。实验组用大语言模型辅助判断★★✿,对照组可使用任意方法(多数用搜索引擎或自身知识)★★✿。(d) 受试者选择处置方式并说明相关病症★★✿。每人测试2个案例★★✿,每组最终收集600例数据★★✿,以标准答案评估结果s8sp直接进入路线★★✿。
如上图★★✿,在多个大语言模型(如 GPT-4o★★✿、LLaMA 3 70B 和 Command R+)在医学问答任务(MedQA)中的表现★★✿,并与人类用户进行了对比★★✿。结果表明★★✿,尽管模型在标准问答任务中普遍达到或超过人类通过标准(60%)★★✿,但在模拟临床场景中的判断任务(如确定最佳处理方式和相关疾病条件)上表现不稳定★★✿。此外★★✿,模拟用户的判断准确性与真实人类用户的表现高度相关★★✿,说明模拟用户在实验中可以有效代表人类行为★★✿。
这像不像我们生活里那些“明明有说明书还是装错了家具”“菜谱写得清清楚楚但最后炒糊了”的瞬间?技术好归好尊龙凯时人生就是博★★✿,★★✿,人用不明白尊龙人生就是博★★✿,一切白搭★★✿。你给爸妈买了最新旗舰手机★★✿,他们却只会用来打电话发微信★★✿;AI医生再牛s8sp直接进入路线★★✿,遇到现实生活的“碎片信息★★✿、临场慌乱★★✿、沟通误会”★★✿,一样抓瞎★★✿。
用考试题★★✿、模拟病人测AI★★✿,分数再高★★✿,不能代表它能搞定真实用户★★✿。AI会答题★★✿,但不懂得主动追问★★✿、不知道怎样引导患者补全信息——这才是最大短板★★✿。
更讽刺的是★★✿,模型测评用的MedQA等考试题★★✿,AI能刷满分★★✿,轮到和真人互动★★✿,反而“翻车”了学生会★★✿!★★✿。你让AI和模拟病人聊★★✿,结果也比和真实用户高★★✿。AI和AI之间的交流当然顺畅★★✿,可人类的表达★★✿、记忆★★✿、情绪尊龙人生就是博科学新知★★✿!★★✿、甚至敷衍★★✿,才是现实世界最大的bug尊龙人生就是博★★✿。
我们太习惯于相信“技术能一锤定音”★★✿,却忘了现实世界的混乱★★✿、粗糙和不确定★★✿。你以为AI医生上线就能解放一线医生?但在真正的就医现场★★✿,信息永远不全s8sp直接进入路线★★✿,沟通永远混乱★★✿,决策永远充满不确定s8sp直接进入路线★★✿。就像生活中那些手抖拍糊的照片★★✿,才是最接近真实的“医学场景”★★✿。
所以★★✿,AI医学的未来★★✿,绝不只是模型分数的竞赛★★✿,而是“如何让普通人和AI好好说话”的漫长修炼★★✿。