訊息平台

AI醫生與健康教練也會編故事?幻覺頻傳恐壓垮醫療信任

圖片來源/本報資料庫

商傳媒|記者顏康寧/台北報導

這是一場關於人命與權限的警訊,加拿大安大略省審計長一份關於政府AI使用的特別報告,近日引發北美醫療圈關注。加國政府原本透過供應安大略省建立「供應商名錄」機制,讓醫師、家庭醫師、護理師、治療師與其他醫療專業人員,可向預先合格廠商採購AI醫療書記官系統,試圖減輕醫護行政負擔。

然而,審計報告卻指出,20家已核准供應商在採購階段測試中,全數出現一種以上不準確情形。這些系統在兩段模擬醫病對話測試中,被要求產生結構化醫療筆記;但「醫療筆記準確度」項目平均僅得12分,滿分為20分。更引發爭議的是,評分標準中,攸關診斷紀錄與病歷品質的「醫療筆記準確度」僅占總分4%,「在安大略省有國內據點」等行政條件卻占30%。這意味著,在地營運條件與採購行政要求,可能在評選中壓過醫療紀錄準確性,讓具高度風險的AI工具取得預先合格名單資格。

數據權力的傲慢與幻覺代價

當醫療行政系統在公領域面臨考驗時,消費級市場的AI健康服務也出現警訊。Google即將推出的旗艦級追蹤器Fitbit Air,雖以超輕量硬體設計受到科技媒體關注,但其月費9.99美元的AI健康教練,在媒體初期實測中已出現錯誤案例。

科技記者威爾·薩特爾伯格(Will Sattelberg)實測發現,AI教練曾憑空提到一場5.2英里的長跑紀錄,並在被指出後,反問使用者是否忘了輸入。公開資料尚不足以證明這類幻覺是否源於底層模型訓練、資料串接錯誤或產品初期整合問題;但可以確定的是,當AI開始定義使用者未曾完成的運動,甚至可能影響健康建議時,資訊真實性已成為不能被忽視的產品責任。

這種「黑箱整合」可能涉及後續法律風險。錯誤健康建議若被使用者採信,或在特定情境下被醫療端納入判讀依據,可能引發連鎖性的風險管理問題。

審核失靈下的全民實驗風險

這場爭議的深層核心,在於「監管缺位」與「責任分工」。安大略省審計報告指出,現行評選機制對部分關鍵項目權重偏低,包含系統安全、隱私文件、偏見控制與醫療筆記準確性。報告並指出,在第二階段評選中,即使廠商在系統安全、醫療筆記準確度或偏見控制等子項目拿到零分,仍可能因總分達標而進入供應商名錄。

審計報告進一步指出,9家系統曾出現幻覺或捏造資訊,包括加入醫師未提及的治療建議、轉介治療或抽血檢查;12家系統曾記錄與醫師處方不同的藥物;17家系統在至少一項測試中漏掉病患心理健康議題的關鍵細節。對具自殺風險或精神健康困擾的病患而言,這類漏失可能不是文書錯誤,而是醫療安全風險。

支持AI醫療書記官的技術供應商與部分醫療場域則認為,AI本質上是輔助工具,醫師複核本來就是流程標準,技術迭代也需要在安全框架下逐步修正。安大略省相關單位回應審計建議時,也表示將檢視未來AI採購流程,並考慮加入最低門檻與使用者確認機制。不過,供應安大略省對於是否提高安全、隱私、偏見與準確度等評分權重,仍未完全接受審計建議,顯示政策修正仍有討論空間。

當智慧淪為偽證:後真相醫療時代的終局

AI醫療的終局思辨,不在於技術能否超越人類,而在於醫療系統是否容許「隨機性」進入具高度信任基礎的診療流程。當政府與跨國企業將AI視為解決醫護短缺、降低行政負擔或擴大訂閱收入的工具時,容易忽略醫療核心仍是可追溯、可驗證、不可任意竄改的真實性。

如果一份自動生成的病歷摘要可以憑空增加檢查建議,或一個運動手環可以誤判使用者生理活動,那麼「數據」將不再只是健康管理的指引,也可能成為數位偽證的溫床。真正的寒蟬效應在於,當病患在診間面對AI螢幕時,信任不應只建立在政府推薦或品牌光環上,而必須建立在可驗證的準確度、責任歸屬與透明審核機制上。