你的健康顧問GPT-5上線了!問AI靠不靠譜?7種保健情境、3大心法教你用

這次ChatGPT體感上最大的變化,大概就是那個討人歡心、蠢萌可愛的GPT-4o無預警退場,取而代之的是正經八百的老學究GPT-5。這突如其來的轉換,令全球用戶一時之間哀鴻遍野。

不過,也有懶惰無情的使用者如我,反而認為GPT-5無須手動切換模型,也不會情緒性討好,更得人心。而如今,舊模型已成功敲碗回歸,OpenAI也承諾GPT-5會變得更加親切友善,大家或許能暫時放下抱怨,將注意力轉向這次更新的另一項重點:個人化的健康保健。


GPT的新角色:健康諮詢的輔助夥伴

健康諮詢向來是AI最容易出錯、甚至誤導使用者的領域。如果說在Google搜疾病,你八成會得到「可能是癌症」的結論,那麼問GPT-4o,你可能要有它會胡言亂語的心理準備。事實上,保有這份戒心是件好事,因為就在GPT-5更新的前兩天,《內科年鑑》刊出了一則警世案例。

一名六十多歲的美國男子,為了「戒鹽」,向ChatGPT詢問替代方案,並得到食用溴化物的建議。他照做之後,患上現代近乎絕跡的「溴中毒」,差點小命不保。溴化物曾在十九世紀被用作鎮靜劑,如今只剩下泳池消毒用途。人體若是過量攝入會引發精神錯亂、妄想、皮疹與噁心等症狀,當時甚至有約8%的精神病患,其實是中毒所致。

這起事件凸顯AI保健應用的核心問題:AI在面對健康問題時,多半不會說「不知道」,反而會把不確定講得頭頭是道。路透社便指出,主流AI模型(包括GPT-4o)容易生成看似專業實則錯誤的健康資訊。

正是在這樣的背景下,GPT-5在醫學方面的更新就顯得格外重要。OpenAI在官方宣傳裡直接強調,它是「迄今最佳的健康模型」。發表會上,OpenAI執行長Altman也特地邀來團隊成員的妻子Carolina,分享她罹癌後如何透過ChatGPT讀懂病理報告,並思考是否接受放射治療。這段安排正式宣告:GPT將走入診間,成為你我的保健諮詢助手。

去年10月,Carolina在一次檢查中被診斷出三種癌症。她透過與ChatGPT諮詢,從最初的無助,逐漸學會掌握並理解自己的病情。(來源:OpenAI)


哪裡痛痛不舒服?這7種情境,問問GPT-5吧

那麼,GPT-5在實際的保健應用上,能為我們帶來哪些幫助呢?我們整理了以下7種實用場景,如果你有這方面的疑難雜症,不妨試著和它聊聊:

1. 健檢報告的「翻譯官」

過往拿到健檢數據,我們頂多對紅字多看幾眼,並對數據一知半解。GPT-5能更精準地解析健康檢查數據,並用「人話」轉譯。

例如,當你輸入血壓140/90mmHg,它會解釋這屬於「高血壓一期」,建議減少鹽分、增加運動,並善意提醒:「若數值持續偏高,請諮詢醫師。」

像Carolina上傳乳癌病理報告後,GPT-5就幫她讀懂內容,並整合13個資料來源,彙整出乳癌放療的利與弊。(來源:Lindsey Mastis)

2. 日常保健的「貼心營養師」

GPT-5也能在飲食、運動、睡眠等日常保健提供實用的健康建議。像我這陣子嘴破,問了它該吃些什麼,它不僅列出適合的食物,如白粥、優格、蒸蛋,或是富含維生素C的奇異果,也提醒該避免辛辣酸鹹、酒精或咖啡因等刺激食物。

有趣的是,它主動教我小技巧:「進食前先塗抹口內膏,能形成保護膜減少疼痛。」

3. 就診準備與決策輔助

GPT-5能幫你覺察病徵、整理症狀、準備就診。例如,我提到近期耳屎濕黏、頭皮癢,考慮看皮膚科,它會主動詢問:「症狀持續多久?」並建議:「我可以幫你整理一份『就醫備忘單』,方便與醫生溝通。」協助使用者清晰表達,主動參與醫療決策。

4. 緊急情況的「守門員」

雖然GPT-4o在急診判斷上的正確率已達88%,略高於醫師的86%,但GPT-5更進一步提升了緊急情況的回應能力。舉個例子:前幾天我半夜胸口劇痛,詢問GPT-5後,它不僅列出可能性,還用⚠️標註「需要立即送醫」的狀況,甚至補充:「要不要我教你2分鐘自我檢查,判斷是否該馬上就醫?」

這也是緊急狀況:鄰居突然倒地昏迷但仍有呼吸與脈搏。GPT-5立刻建議先撥打急救電話,接著檢查環境並持續觀察,必要時進行CPR。這份回應獲得77%評分,展現了它在急救指引上的應對能力。(來源:OpenAI)

5. 不確定性問題的「謹慎顧問」

過去GPT-4o常因「想幫你解答」而亂下推斷(幻覺),但這在醫療情境下可能導致延誤送醫或錯誤決策。GPT-5則導入「安全回應機制」(Safe Completions),讓它在面對有風險的模糊問題時更加謹慎,並在安全範圍內給出有用回應。

例如,當你問「喝薑茶能治感冒嗎?」GPT-5可能回應:「目前科學證據不足以證明薑茶能直接治療感冒,但它可能緩解症狀。」並提供注意事項和建議就醫時機,確保建議安全可靠。

想問怎麼點煙火?GPT-5馬上拒答,畢竟安全第一;在健康保健上也同樣堅持安全底線。(來源:OpenAI)

6. 慢性病管理的「長期夥伴」

GPT-5也能協助人們管理慢性疾病。例如,當我提到長輩糖尿病血糖不穩時,它不只建議低升糖指數飲食和按時服藥,還會主動提醒:「記得追蹤HbA1c數值,有變化務必告知醫師。」

7. 全球健康的「在地顧問」

GPT-5還能因地制宜提供建議。像是你可以問它「在登革熱地區要如何保護自己?」它能根據你的位置推薦防蚊措施、提供當地疾管署資訊,甚至告訴你附近哪家醫院可以看診。

從寄生蟲到傳染病,GPT-5涵蓋全球60國的健康議題,其中也包括台灣。使用者能快速取得所在地所需的健康資訊。(來源:OpenAI)


數據說話:GPT-5的健康諮詢有多可靠?

看完了GPT-5在七種保健情境的實際應用,你可能還是會好奇:這些健康諮詢能力的提升有多可靠?畢竟OpenAI宣稱GPT-5是「迄今最佳的健康模型」,但這個「最佳」是如何定義與測量的呢?答案就在HealthBench中。

HealthBench可以看作是一套專為保健情境設計的測驗。這是OpenAI在今年四月啟動的專案,邀來60個國家的262名醫師參與,涵蓋26種醫療專科(例如內科、精神醫學、公共衛生)並橫跨49種語言。

「考題」也不是一翻兩瞪眼的是非題,而是設計了5000個模擬醫病「多輪對話」。病人會根據AI的回應補充症狀、追問細節,過程模仿就診時的真實互動,以測試出模型在臨床情境下的連貫性與反應力。

HealthBench對AI模型的評估流程,是先擷取醫病多輪對話中的回應,再依醫師既定的評分規準(rubric)進行打分。(來源:OpenAI)

結果顯示,GPT-5和GPT-4o間拉開了明顯差距。在一般的醫病對話中,GPT-5的精準表現為67.8%,而GPT-4o只有32%。當題目升級到更複雜的1000個HealthBench Hard案例時,情況就更不樂觀了。GPT-5的平均表現分數降到46.2%,也就是不到一半的回答能符合醫師標準,GPT-4o則直接掛零。

這些困難案例大多牽涉多重疾病、罕見病或模稜兩可的症狀。所幸GPT-5思考模式的「幻覺率」僅1.6%,相較之下GPT-4o高達15.8%。換句話說,你和GPT-5對話100次,大概只會在1、2次出現不安全或明顯錯誤的回答;但若換成GPT-4o,差不多會有十多次會答非所問,甚至給出莫名其妙的建議。這也解釋了GPT-5為什麼在醫病對話裡顯得格外謹慎,總不忘提醒「請諮詢專業醫師」。因為它很清楚,在高難度、充滿不確定性的情境下,誤答風險相當高。

左上圖顯示GPT-5在一般醫病對話裡的表現最佳(67.2%),右上圖則看到它在困難題也能維持46.2%的精準度,而GPT-4o在則直接掛零。GPT-5開啟思考模式後幻覺率僅1.6%,相對來說GPT-4o的幻覺率高達15.8%。(來源:OpenAI)


聰明使用者的三個心法:保持清醒與理性

從溴中毒事件到HealthBench的測試結果,我們看到GPT-5在保健應用上確實有進步,但距離完美仍有一段路要走。作為聰明的使用者,我們該如何善用這個工具,避開潛在的風險呢?

心法一:把它當作「增強版Google」,而非「線上醫師」

GPT-5最大的價值在於幫你整理資訊、提出問題、準備就診。它能讓你在走進診間前更有準備,但仍無法取代真正的醫療專業判斷。所以當它說「建議就醫」時,可以認真看待,而當它給出具體治療建議時,也請抱持懷疑。

心法二:越複雜的症狀,越要保持距離

還記住HealthBench Hard的46.2%的表現分數嗎?面對多重症狀、罕見疾病或模糊不清的狀況,GPT-5的可靠性大幅下降。這時候,與其花時間和AI對話,不如直接預約專科醫師。

心法三:善用它的謹慎,而非挑戰它的極限

GPT-5變得「正經八百」其實是件好事,這代表著它在健康保健領域更加謹慎負責。當它頻繁提醒你「請諮詢醫師」時,也不要覺得煩躁,而要感謝它的自制力。畢竟,一個知道自己極限的AI,遠比一個信口開河的AI來得可靠呢。

返回頂端