AI 不是萬能,研究:醫療問題切勿問 ChatGPT
生成式 AI 能夠以更人性化的方式回答問題,號稱無所不知,不只能解決數學問題,甚至通過律師、醫療執照測驗,人們對 AI 如此強大的能力,感到既期待又怕受傷害。但最近一項研究發現,AI 在醫療實際應用方面,遠遠不能取代醫生。
2024 年初,Google 宣稱其醫療 AI,Articulate Medical Intelligence Explorer (AMIE) 可以根據與患者的對話來診斷疾病,且表現優於人類醫生。去年,幾乎每週都有發表的研究發現 AI 在診斷癌症和糖尿病方面表現出色,甚至根據血液檢查結果可以預測男性不孕症。
專業醫療 AI 的確進步神速,有些研究也認為,普羅大眾使用的生成式 AI 也一樣可以充當醫生,如 2022 年研究顯示 ChatGPT 通過美國醫療執照考試 (USMLE) 測試。
ChatGPT 不擅長診斷
加拿大安大略省西部大學的醫學教育專家質疑 ChatGPT 的超能力。研究人員使用記錄真實患者的完整醫療案例,包括身體檢查結果、實驗室檢查結果的資料庫 Medscape,研究團隊將其中 150 個 Medscape 案例轉化為 ChatGPT 可以理解和處理的提示,結果在 150 個案例中,ChatGPT 有 76 個是錯誤的。
作者表示,專業醫療 AI 與 ChatGPT 不同之處在於它們接受訓練的資料。專業醫療 AI 可能接受過大量醫學文獻的訓練,甚至可能接受過類似複雜病例的訓練,但是像 ChatGPT 這樣的通用 AI 缺乏醫學診斷所需的深厚領域專業知識。
作者舉例,醫療專業人員都知道實驗室值只是參考,譬如血液檢測結果的正常範圍是 10~20,即使超出範圍,21 與 500 也有很大的不同,但 ChatGPT 對更深入的醫學知識一無所知,只要測試結果稍微超出正常範圍,答案就會偏離軌道。
AI 都會粉飾太平
更嚴重的問題是無論是醫療專業 AI 還是 ChatGPT,出錯時會粉飾太平,他們試圖欺騙你,讓你認為他們是對的。研究作者表示,這個工具在處理複雜的主題和簡化解釋方面確實非常有效,即使它是錯誤的,它也非常有說服力,因為它以一種易於理解的方式解釋事情。
大型語言模型以及所有現代 AI 的問題在於,它們對所談論或所寫的主題沒有真正的理解,他們所做的只是根據從訓練期間攝入的大量文本中獲得的機率,來預測句子中的下一個單字應該是什麼。有時,這會導致 IA 產生幻覺,出現無意義的結論。但更常見的是,聊天機器人會為一些可能不真實的事情提出非常令人信服、結構良好且有條有理的論點。
作者表示,AI 就像一位熟練的公共演講者,具有不可抗拒的魅力,用簡單明了的字句回答所有問題,充滿自信,一般人可能需要一段時間才能意識到他在胡說八道,因此如果用戶不是該主題的專家,AI 可能會產生很大的誤導性,並可能傳播錯誤訊息。
人人需培養 AI 素養
研究認為,不久的將來,一些非常具體的任務可能可以透過 GPT 或類似的工具來完成,但複雜病例的診斷通常需要對細微差別有很深入的了解,短期內不會看到 AI 進行全面的診斷或醫療管理。
作者指出,雖然醫學教育已經在使用 ChatGPT,學生有時可能會被 ChatGPT 欺騙,但他們有教授來糾正問題,一般人是沒有這個能力的,人類醫生仍然是人們需要尋求醫療建議的地方。
研究強烈呼籲公眾此時不要使用 ChatGPT 尋求醫療建議,同時也強調需要教育大眾了解 AI 的好處及陷阱,培養基本的 AI 素養。