繼Sora之後,OpenAI再次推出震撼彈!GPT-4o是OpenAI推出的最新旗艦模型,它能夠即時處理語音、圖像和文字,實現更加自然的人機互動。GPT-4o,其中的「o」是omni的縮寫,代表著全能、無所不包之意;omnimodel代表著,這個模型可辨識文字、語音、圖片、影片,並能生成由文本、語音和圖像組成的混合式輸出。最不可思議的是,如此強大的GPT-4o竟然可以免費使用!那付費版還有存在的必要嗎?
以下,就讓我來更詳盡的介紹一下ChatGPT最新模型GPT-4o的特色與優勢、使用範例、免費與付費版的差異:
GPT-4o特色與優勢
・強大的語音、圖像辨識能力:
GPT-4o具備強大的語音和圖像辨識能力,能直接處理語音指令和圖像分析。一個ChatGPT的app就可以作為智慧型手機上的語音助理,打開手機的相機、用麥克風收音,ChatGPT就可以理解這個世界。
・速度更快:
與之前的模型相比,GPT-4o在處理速度上有顯著提升,它的語音輸入反應時間最短為232毫秒,平均為320毫秒,接近人類對話的反應時間,能更快速地回應使用者需求。
・情緒展現:
GPT-4o的語音生成技術能夠展現情緒、調整語調、改變語速的能力,像是在對話中笑出聲來、唱歌、用戲劇化的方式講話等。更有五種聲線可供選擇,提升對話的自然性和真實感,也讓人讚嘆《雲端情人》中的情節是不是要實現了!
・多模態整合:
GPT-4o不僅能處理語音指令,還能結合圖像資訊進行綜合分析,提供更豐富的回饋。例如,當使用者拍攝圖片並詢問某個東西的資訊時,GPT-4o能透過語音進行詳細說明。
GPT-4o與其他模型的比較
與前代模型與其他模型相比,GPT-4o在各項測試中都展現了卓越的性能。它不僅能夠回答複雜的知識和數學問題,還能準確識別和翻譯語音內容,並且在多語言和視覺辨識上也表現得非常優異。這使得GPT-4o成為目前最強大的語言模型之一,適應性和準確性均處於領先地位。
・文本推理:
GPT-4o在多項推理測試中整體表現良好且均衡,與其他模型相比幾乎都是位居領先地位。
・語音識別:
在語音識別方面,ChatGPT-4o也表現得非常出色,它單詞錯誤率(WER)明顯低於Whisper-v3。值得一提的是,在這些語言資源較少的地區(如亞洲與非洲),GPT-4o的表現進步不少。
・語音翻譯:
相較於Meta與Google的模型,GPT-4o在語音翻譯上表現突出。從他們現場的同步翻譯Demo中可以看到GPT-4o通順流利的雙語對話。
・M3Exam測試:
M3Exam測試囊括來自不同國家的多元學科考試題庫,有時還包含圖表和圖形。在這項測試中,GPT-4o在所有語言上的表現都比GPT-4更好。
ChatGPT-4o的實際應用
除了現場Demo時,可以看到GPT-4o自然流利的和三位主持人談笑風生。當然,你還可以想到各種GPT-4o可能的瘋狂應用。不過,官方也幫你想好了一些使用情境,並釋出了不少Demo影片,讓我們來看看GPT-4o到底該怎麼用、好不好用:
・即時多語口譯:
GPT-4o的多語翻譯可說是最顯而易見的功能,甚至在Demo的幾分鐘內重創Duolingo股價。在第一支「Point and Learn Spanish with GPT-4o」影片中,可以看到用相機拍攝物體來學習西班牙單詞的示範,只見GPT-4o不僅能準確辨識物體,還能用雙語切換自如的介紹桌上的東西。
第二支影片「Realtime Translation with GPT-4o」中,GPT-4o則是成為一個西班牙、英語的口譯員,達到即時逐句語音翻譯的能力。
・解數學題目:
無論是手寫的數學題、還是考卷上的幾何圖形,GPT-4o不只可以告訴你答案,還可以逐步教你如何解題,簡直成為一位私人家教。
・講笑話、參與視訊會議,甚至是兩個AI自己對話:
或許你會覺得這些Demo有點胡鬧,不過,GPT-4o除了功能性以外,更強調人性。不只能達到自然對話的反應速度外,GPT-4o的語音讓你沒有和機器對話的生硬感,或許在不久的將來,他將能成為你的AI伴侶。在Demo中,可以讓GPT-4o變成說話諷刺的性格、還能講老爸笑話(不要問為什麼)、參與視訊會議、看見你的可愛狗狗還能誇獎一番。不過,其中最厲害的是,讓兩個AI自己對話討論事情。
GPT-4o:ChatGPT免費版與付費版的差異
OpenAI表示,GPT-4o將會陸續開放給免費版用戶,而ChatGPT Plus的付費用戶已開放使用。不過,免費版跟付費版在使用權限上還是有所差異,讓我們來看看以下的整理:
特點 | 免費版(Free) | 付費版(Plus) |
基本功能(Essentials) | ||
消息與互動 | 無限制 | 無限制 |
聊天記錄 | 無限制 | 無限制 |
可支援設備 | 可在網頁、iOS、Android設備以及Mac桌機上使用 | 可在網頁、iOS、Android設備以及Mac桌機上使用 |
模型品質(Model Quality) | ||
存取GPT-3.5 | 無限制 | 無限制 |
存取GPT-4o | 有限 | 高達5倍免費版使用量(Up to 5x Free) |
存取GPT-4 | 不提供 | 標準(Standard) |
回應速度 | 受頻寬和可用性限制(Limited on bandwidth & availability) | 快速(Fast) |
上下文窗口(Context window) | 8K tokens | 32K tokens |
定期品質和速度更新 | 有 | 有 |
功能(Features) | ||
語音 | 有 | 有 |
記憶 | 有 | 有 |
瀏覽器存取 | 有限 | 有 |
進階數據分析 | 有限 | 有 |
視覺功能 | 有限 | 有 |
文件上傳 | 有限 | 有 |
探索和使用GPTs | 有限 | 有 |
創建和分享GPTs | 不提供 | 有 |
圖像生成 | 不提供 | 有 |
隱私(Privacy) | ||
隱私選項 | 可選擇退出模型訓練(Opt-out available) | 可選擇退出模型訓練(Opt-out available) |
*上下文窗口(Context window):是指模型在一次處理中可以考慮的文本數量。簡單來說,就是模型一次能夠「記住」的單詞或字數的範圍。在聊天應用中,這個窗口決定了模型能夠參考多少前文來生成回應。
GPT-4o作為OpenAI最新的旗艦模型,它在GPT-4的基礎上進行調整,不僅保持了強大的多模態處理能力,同時提升效率、節省成本。這使得GPT-4o,無論是免費還是付費版本,都能滿足廣泛的使用者需求。
雖然市場上對GPT-5的期待很高,但在目前的AI發展階段,推出Omnimodel依舊有重大意義,不僅擴大了AI的應用範圍,也為未來更多元化的發展打下基礎。
說了這麼多,如果你還沒有嘗試過,不妨親自嘗試看看吧!