OpenAI AI模型急診診斷超越醫師《科學》研究凸顯醫療AI潛力

2026 年 5 月 1 日

圖／本報資料庫

商傳媒｜何映辰／台北報導

根據最新發表於《科學》（Science）期刊的一項研究，由哈佛醫學院（Harvard Medical School）和貝斯以色列女執事醫療中心（Beth Israel Deaconess Medical Center）的團隊發現，OpenAI 開發的一款人工智慧（AI）推理模型，在診斷病患和管理照護決策方面的表現，超越了經驗豐富的急診醫師，甚至優於先前的 GPT-4 模型。

這項研究使用 OpenAI o1-preview 大型語言模型（LLM），在多項實驗中評估其臨床推理能力。研究人員將電子病歷直接輸入 AI 模型，模擬真實世界急診室的運作情境。結果顯示，在急診初期檢傷（triage）階段，AI 模型在 67.1% 的案例中能找出確切或非常接近的診斷，明顯高於兩位急診醫師的 55.3% 和 50%。

除了急診案例，研究也採用了《新英格蘭醫學雜誌》（New England Journal of Medicine）的臨床案例進行測試。在鑑別診斷（differential diagnosis）方面，AI 模型在 78.3% 的案例中能將正確診斷納入考量，而其首次提出的診斷正確率則為 52%。若將「潛在有幫助」或「非常接近」的診斷納入，準確率更可達 97.9%。此外，在診斷測試的選擇上，AI 模型在 87.5% 的案例中選擇的測試計畫被評估為正確。

哈佛醫學院生物醫學資訊學系教授阿瓊·K·曼賴（Arjun K. Manrai）指出，這次研究證明了大型語言模型在鑑別診斷、臨床推理和管理推理方面取得了實質進展，超越了前一代模型，甚至在多個領域超越了人類臨床醫師。他強調：「這項研究最主要的結論是，AI 模型能處理急診室雜亂的真實世界數據，並在真實世界中做出診斷。」

然而，研究人員也謹慎指出，AI 不會取代人類醫師。史丹佛大學（Stanford）醫師暨研究作者 Jonathan Chan 表示，人類醫師的角色不可或缺，AI 應作為輔助工具，協助醫師進行雙重檢查與行政工作。他舉例，在管理文件和總結病歷方面，AI 應用已展現潛力；猶他州（Utah）等地區也已利用自動化系統處理藥物處方箋的續簽。Chan 預期，醫師、護理人員、藥劑師和心理諮詢師等臨床角色將經歷轉變，但對臨床專業人員的需求不會減少，反而可能更加強烈。

研究團隊也強調，目前的 AI 模型仍是預覽版本，且實驗主要基於文本，並未納入醫師在臨床上常使用的影像、聲音或非語言線索。他們認為，儘管研究成果令人振奮，但仍需透過更嚴格的臨床試驗，才能全面評估 AI 在醫療實踐中的實際影響。