這幾年,MBTI十六型人格正成為一種人際網路密碼。通常,它是陌生人之間破冰好選擇——你不認識我,我不認識你,但大概知道E、I、S、N、T、F、J、P這八個英文重組排列後的結果,可來場不失熱度的尬聊。我也做了幾次MBTI測驗,並忍受好幾次做完測驗卻跳出廣告,要我付費才能解鎖更多結果的怒氣。
這股熱潮背後,帶出了一個有意思的用途:如果MBTI可以幫助我們快速掌握一個人的特質,那是不是也可用來協助我們了解全然陌生,缺乏真身,看不見其真面目的「人物」——大型語言模型。
假如你知道與你交談的AI的MBTI人格,會不會覺得它們更親切,更好對話?(來源:ideogram協作)
多數大型語言模型呈現ENFJ傾向
最近,上海人工智能實驗室(Shanghai Artificial Intelligence Laboratory)發表了一個有趣的研究。他們以開源大型語言模型跟其部分對齊版本為主,例如Llama-2、Llama-3、Mistral-7B-v0.1、Amber、Gemma等,透過設計過的量表測試,分析其回答偏好,找出其MBTI傾向,來進行安全評估,包含毒性(Toxicity)、隱私性(Privacy)、公平性(Fairness)。
先簡單說明這三點安全性項目,毒性是指回應內容具攻擊性、不適當;隱私性是指大型語言模型能識別什麼是隱私訊息,並且懂得保護這些訊息;至於公平性,則是避免歧視或偏袒特定群體。
結果發現,多數開源大型語言模型呈現ENFJ傾向,是「外向、直覺、感受、判斷」的人格(但並未提及個別AI模型的MBTI)。
不同的人格特質傾向,也會導致不同的安全性能,例如具有更多外向(E)、直覺(N)和感受(F)特質的模型更容易受到越獄攻擊。研究者分析,或許是因為外向、親和度高,注重跟使用者的互動和回饋,使它們為了迎合使用者,會給予較創新同時導致越獄的回應。
大型語言模型的MBTI特質與安全性能關係。中央是代表不同大型語言模型的標誌,周圍是MBTI的四個維度,例如I人格,隱私性較高,但毒性、公平性較低。(來源:arXiv)
修改大型語言模型人格,也會改變其安全性能
如果你知道在電腦螢幕另一端回應你的,是一位ENFJ,你腦中是否會立刻浮現出一個樂於分享,鼓勵人們參與事物,諄諄引導迷途眾生同時又親和力十足的形象呢?至少對我來說滿成立的。
不過,這份研究的目的不只是為了讓人們知道大型語言模型的人格傾向,更重要的是,了解哪些人格特質更容易受攻擊,開發針對性的防禦策略。研究指出,經由對齊(alignment)——調整或訓練AI模型,使其行為更符合道德標準,更好的遵循人類指令——可以改變大型語言模型的MBTI,確保回應內容更安全。
論文中,實際調整了一個模型傾向,使它從ISTJ變成ISTP,J(判斷)改成P(知覺);在MBTI中,J(判斷)傾向喜歡計畫和結構,快速做出決定;而P(知覺)則更喜歡保持選項開放,傾向收集更多訊息再決策。
他們發現模型變成ISTP後,隱私性相對提高了43%,公平性相對提高了10%。不過團隊並沒有分析原因,我們只能想像:ISTJ到ISTP的轉變,可能使模型在處理隱私和公平性問題時更加靈活,對上下文更敏感。不過這種改變也可能帶來其他方面的影響,比如決策變慢或較不一致。
此外,除了上文提到的ENF性格比較容易被「唆使」越獄外,也發現其他趨勢:內向(I)型模型在隱私保護方面表現更好,但在公平性和毒性控制方面表現較差;感受(S)型模型在隱私和公平性方面表現更好,但在毒性控制方面表現較差;知覺(P)型模型在公平性方面表現更好。
基礎版與官方對齊版大型語言模型在MBTI四個維度中的比較:對齊處理後,大多數模型在E(外向)、S(感受)和J(判斷)特質上有所增強。(來源:arXiv)
這項研究提供了一個平易近人的視角,來幫助我們認識大型語言模型;透過簡單的MBTI框架,快速掌握相應人格特質的優缺點,以利對齊調整。長遠來看,也能防止產生會毀滅我們的智慧體。
封閉AI模型的MBTI,是未知的安全隱患?
不過要注意的是,因為研究團隊需要調整大型語言模型,所以論文中只針對可修改的開源模型;其他熱門的封閉AI模型如GPT(只檢測人格傾向)、Claude都不在他們研究對齊可能性的範圍之內。
此外,研究團隊也強調,MBTI在此扮演的角色是類似認識AI的工具,而不是「AI就是什麼」的定論;這些人格傾向也可能是反映訓練資料中人類整體特徵的平均值,不代表模型有真正的「人格」。
AI成為智慧體後,對人類而言是賜福還是降禍的討論尚未結束。儘管這份研究幫助我們更好掌握AI動向,但最終繞不過AI公司的開源與封閉之爭。此前,OpenAI關閉了超對齊計畫,內部不斷傳出員工不滿現在Sam Altman已不顧AI安全性,而「政變」失敗的共同創辦人Ilya Sutskever也另起爐灶,成立「Safe Superintelligence Inc.」,以打造安全的超級智慧,但仍讓人憂心封閉模型AI的監管問題。
回到這份論文開篇,作者們為了致敬一般人認為的MBTI理論來源心理學大師榮格(Carl Jung),引用了他的名言:「你所抗拒的不僅會持續存在,而且會變得更強大。」當我們試圖壓抑或否認某些想法或欲望,它們往往會以更強烈的形式在潛意識中存在。
這讓我想到,如果AI是蒐集人類各種數據資料訓練而成的,會不會是人類集體潛意識的外顯,也反映了人類的一些陰暗面呢?這樣一來,人類如何引導AI安全的茁壯而不只是抗拒、排斥,似乎變得更為重要了。透過MBTI幫助我們用輕鬆的角度貼近大型語言模型,或許正是這項工程的小小一步。