ChatGPT高分通过美医疗执照考试,只需几秒可诊断出罕见疾病

Isaac Kohane 是一名医生和计算机科学家,专注于医学和人工智能的交叉领域。

随着以ChatGPT为代表的大型语言模型火遍全球,人工智能开始挑战人类职业。那么,AI在医学领域的表现又是怎样的呢?

Isaac Kohane 博士既是哈佛大学的计算机科学家,也是一名医生,他与两位同事合作测试了 GPT-4,其主要目标是:了解 OpenAI 的最新人工智能模型在医疗环境中的表现。

“我很震惊地说:比我观察过的许多医生都好,”他在即将出版的新书《医学中的 AI 革命》中说道,该书由独立记者 Carey Goldberg 和 Microsoft 研究副总裁 Peter Lee 合着. (作者说微软和 OpenAI 都不需要对这本书进行任何编辑监督,尽管微软已经投资了数十亿美元来开发 OpenAI 的技术。)

在书中,Kohane 说 GPT-4于 2023 年 3 月向付费订阅者发布,在超过 90% 的时间内正确回答了美国体检许可问题。它是比以前的 ChatGPT AI 模型 GPT-3 和 -3.5 更好的应试者,也 比一些有执照的医生更好。

不过,GPT-4不仅仅是一个好的应试者和事实发现者。这也是一个伟大的翻译。在书中,它能够为说葡萄牙语的患者翻译出院信息,并将不可靠的技术术语提炼成六年级学生可以轻松阅读的内容。

正如作者用生动的例子解释的那样,GPT-4 还可以为医生提供有关床边方式的有用建议,提供有关如何以富有同情心、清晰的语言与患者谈论他们的状况的提示,并且它可以阅读冗长的报告或研究并将它们总结为眨眼间。该技术甚至可以通过问题来解释其推理,这种方式需要对看起来像人类智能的东西进行某种测量。

但如果你问 GPT-4 它是如何做到这一切的,它可能会告诉你它的所有智能仍然“仅限于数据中的模式,并不涉及真正的理解或意图”。这就是 GPT-4 告诉这本书的作者的,当他们问它是否真的可以进行因果推理时。即使有这些限制,正如 Kohane 在书中发现的那样,GPT-4 也可以模仿医生诊断疾病的方式,并取得惊人的——尽管不完美——成功。

GPT-4 如何像医生一样进行诊断

Kohane 在书中使用GPT-4进行了临床思维实验,该实验基于一个真实案例,该案例涉及他几年前治疗的一名新生儿。给机器人一些关于他从体检中收集到的婴儿的关键细节,以及一些来自超声波和激素水平的信息,该机器能够正确诊断出 100,000 分之一的情况,称为先天性肾上腺增生“就像我多年的学习和经验一样,”小羽写道。

医生既感动又害怕。

“一方面,我正在与计算过程进行复杂的医学对话,”他写道,“另一方面,当我焦虑地意识到数百万家庭将很快获得这种令人印象深刻的医学专业知识时,我不知道我们如何保证或证明 GPT-4 的建议是安全或有效的”

GPT-4 并不总是正确的——而且它没有道德指南针 

GPT-4 并不总是可靠的,书中充满了其失误的例子。它们的范围很广,从简单的笔误,比如误报了机器人刚才正确计算的 BMI,到数学错误,比如不准确地“解决”了数独谜题,或者忘记计算方程式中的项的平方。错误通常是微妙的,系统倾向于断言它是正确的,即使在受到挑战时也是如此。不难想象一个错误的数字或错误的体重会如何导致严重的处方或诊断错误。

与之前的 GPT 一样,GPT-4 也可以“产生幻觉”——人工智能编造答案或不服从请求时的技术委婉说法。

当本书的作者问及这个问题时,GPT-4 说“我无意欺骗或误导任何人,但我有时会根据不完整或不准确的数据做出错误或假设。我也没有临床判断或人类医生或护士的道德责任。”

作者在书中建议的一个潜在的交叉检查是开始一个与 GPT-4 的新会话,并让它“阅读”并用“新的眼睛”“验证”它自己的工作。这种策略有时可以揭示错误——尽管 GPT-4 在出错时有点不愿承认。另一个捕捉错误的建议是命令机器人向您展示它的工作,这样您就可以像人类一样验证它。

作者写道,很明显,GPT-4有可能释放宝贵的临床时间和资源,使临床医生能够更多地陪伴患者,“而不是盯着他们的电脑屏幕”。但是,他们说,“我们必须强迫自己想象一个拥有越来越智能的机器的世界,最终可能在几乎所有方面都超越人类智能。然后认真思考我们希望这个世界如何运作。”