尊龙凯时-人生就是搏! 尊龙凯时

尊龙凯时官网新闻 学术动态 通知公告 媒体报道 学生之窗 学院概况 学院简介 现任领导 机构设置 师资队伍 师资力量 胡新荣 叶璐瑶 魏雄 教师风采 研究生导师 彭涛 向涛 尊龙凯时人生就是博 本科生 研究生 科学研究 科研成果 科研团队 科研平台 纺织服装智能化湖北省工程研究中心 湖北省服装信息化工程技术研究中心 招生就业 党建工作 教工党建 学生党建 尊龙凯时人生就是博官网登录 人才招聘

尊龙人生就是博|s8sp直接进入路线|AI 横扫医学问答赢麻了?牛津大学团队实锤

来源: 尊龙凯时人生就是博官网登录学院 发稿时间:2025-05-24

  牛津大学团队进行了一项关于AI在医学诊断中的应用研究★★✿,发现真实用户在与AI互动时★★✿,诊断准确率和处理方式选择正确率并不理想★★✿。

  2.研究团队邀请了1298名英国普通人★★✿,设置了10个真实的就医场景★★✿,让他们自行判断症状的严重程度和处理方式★★✿。

  4.然而★★✿,结果显示AI辅助诊断的效果并不理想★★✿,用户在34.5%的场景下能说出正确疾病名★★✿,选对处理方式的概率也不高于对照组尊龙人生就是博★★✿。

  5.该研究提醒我们★★✿,AI医学的未来不仅仅是模型分数的竞赛s8sp直接进入路线★★✿,而是如何让普通人和AI好好说话的漫长修炼★★✿。

  原本以为★★✿,大模型考过了医学考试★★✿,离成为“AI医生”也就差临门一脚s8sp直接进入路线尊龙人生就是博★★✿。没想到★★✿,牛津大学最新这项研究★★✿,却狠狠给了一记当头棒喝★★✿。

  他们要像现实生活中那样判断★★✿:我现在的症状会不会很严重?该自己扛★★✿、去社区医院★★✿,还是得立刻冲急诊?有些人手里有大模型帮忙★★✿,有些人只能自己用Google查世界百大名校★★✿,★★✿。

  这次拿来PK的★★✿,不是什么小模型★★✿,而是GPT-4o★★✿、Llama 3和Cohere的Command R+★★✿。理论上都是

  ★★✿:GPT-4o能正确识别94.7%的疾病★★✿,推荐的处理方式也有64.7%是对的★★✿,Llama 3和Command R+的数字也都不低★★✿。你以为AI只要上线★★✿,人人有救?

  研究方案★★✿:(a) 3名医生编写了10个医疗案例★★✿,经反复修改后对处置方式(从自我护理到叫救护车共5级)达成一致★★✿。(b) 另4名医生提供鉴别诊断★★✿,汇总形成标准答案★★✿。(c) 招募1298人随机分4组★★✿,每组测试1个案例★★✿。实验组用大语言模型辅助判断★★✿,对照组可使用任意方法(多数用搜索引擎或自身知识)★★✿。(d) 受试者选择处置方式并说明相关病症★★✿。每人测试2个案例★★✿,每组最终收集600例数据★★✿,以标准答案评估结果s8sp直接进入路线★★✿。

  如上图★★✿,在多个大语言模型(如 GPT-4o★★✿、LLaMA 3 70B 和 Command R+)在医学问答任务(MedQA)中的表现★★✿,并与人类用户进行了对比★★✿。结果表明★★✿,尽管模型在标准问答任务中普遍达到或超过人类通过标准(60%)★★✿,但在模拟临床场景中的判断任务(如确定最佳处理方式和相关疾病条件)上表现不稳定★★✿。此外★★✿,模拟用户的判断准确性与真实人类用户的表现高度相关★★✿,说明模拟用户在实验中可以有效代表人类行为★★✿。

  这像不像我们生活里那些“明明有说明书还是装错了家具”“菜谱写得清清楚楚但最后炒糊了”的瞬间?技术好归好尊龙凯时人生就是博★★✿,★★✿,人用不明白尊龙人生就是博★★✿,一切白搭★★✿。你给爸妈买了最新旗舰手机★★✿,他们却只会用来打电话发微信★★✿;AI医生再牛s8sp直接进入路线★★✿,遇到现实生活的“碎片信息★★✿、临场慌乱★★✿、沟通误会”★★✿,一样抓瞎★★✿。

  用考试题★★✿、模拟病人测AI★★✿,分数再高★★✿,不能代表它能搞定真实用户★★✿。AI会答题★★✿,但不懂得主动追问★★✿、不知道怎样引导患者补全信息——这才是最大短板★★✿。

  更讽刺的是★★✿,模型测评用的MedQA等考试题★★✿,AI能刷满分★★✿,轮到和真人互动★★✿,反而“翻车”了学生会★★✿!★★✿。你让AI和模拟病人聊★★✿,结果也比和真实用户高★★✿。AI和AI之间的交流当然顺畅★★✿,可人类的表达★★✿、记忆★★✿、情绪尊龙人生就是博科学新知★★✿!★★✿、甚至敷衍★★✿,才是现实世界最大的bug尊龙人生就是博★★✿。

  我们太习惯于相信“技术能一锤定音”★★✿,却忘了现实世界的混乱★★✿、粗糙和不确定★★✿。你以为AI医生上线就能解放一线医生?但在真正的就医现场★★✿,信息永远不全s8sp直接进入路线★★✿,沟通永远混乱★★✿,决策永远充满不确定s8sp直接进入路线★★✿。就像生活中那些手抖拍糊的照片★★✿,才是最接近真实的“医学场景”★★✿。

  所以★★✿,AI医学的未来★★✿,绝不只是模型分数的竞赛★★✿,而是“如何让普通人和AI好好说话”的漫长修炼★★✿。