AI也有MBTI？研究發現16型人格這種最常見，最容易被煽動

這幾年，MBTI十六型人格正成為一種人際網路密碼。通常，它是陌生人之間破冰好選擇——你不認識我，我不認識你，但大概知道E、I、S、N、T、F、J、P這八個英文重組排列後的結果，可來場不失熱度的尬聊。我也做了幾次MBTI測驗，並忍受好幾次做完測驗卻跳出廣告，要我付費才能解鎖更多結果的怒氣。

這股熱潮背後，帶出了一個有意思的用途：如果MBTI可以幫助我們快速掌握一個人的特質，那是不是也可用來協助我們了解全然陌生，缺乏真身，看不見其真面目的「人物」——大型語言模型。

假如你知道與你交談的AI的MBTI人格，會不會覺得它們更親切，更好對話？（來源：ideogram協作）

多數大型語言模型呈現ENFJ傾向

最近，上海人工智能實驗室（Shanghai Artificial Intelligence Laboratory）發表了一個有趣的研究。他們以開源大型語言模型跟其部分對齊版本為主，例如Llama-2、Llama-3、Mistral-7B-v0.1、Amber、Gemma等，透過設計過的量表測試，分析其回答偏好，找出其MBTI傾向，來進行安全評估，包含毒性（Toxicity）、隱私性（Privacy）、公平性（Fairness）。

先簡單說明這三點安全性項目，毒性是指回應內容具攻擊性、不適當；隱私性是指大型語言模型能識別什麼是隱私訊息，並且懂得保護這些訊息；至於公平性，則是避免歧視或偏袒特定群體。

結果發現，多數開源大型語言模型呈現ENFJ傾向，是「外向、直覺、感受、判斷」的人格（但並未提及個別AI模型的MBTI）。

不同的人格特質傾向，也會導致不同的安全性能，例如具有更多外向（E）、直覺（N）和感受（F）特質的模型更容易受到越獄攻擊。研究者分析，或許是因為外向、親和度高，注重跟使用者的互動和回饋，使它們為了迎合使用者，會給予較創新同時導致越獄的回應。

大型語言模型的MBTI特質與安全性能關係。中央是代表不同大型語言模型的標誌，周圍是MBTI的四個維度，例如I人格，隱私性較高，但毒性、公平性較低。（來源：arXiv）

修改大型語言模型人格，也會改變其安全性能

如果你知道在電腦螢幕另一端回應你的，是一位ENFJ，你腦中是否會立刻浮現出一個樂於分享，鼓勵人們參與事物，諄諄引導迷途眾生同時又親和力十足的形象呢？至少對我來說滿成立的。

不過，這份研究的目的不只是為了讓人們知道大型語言模型的人格傾向，更重要的是，了解哪些人格特質更容易受攻擊，開發針對性的防禦策略。研究指出，經由對齊（alignment）——調整或訓練AI模型，使其行為更符合道德標準，更好的遵循人類指令——可以改變大型語言模型的MBTI，確保回應內容更安全。

論文中，實際調整了一個模型傾向，使它從ISTJ變成ISTP，J（判斷）改成P（知覺）；在MBTI中，J（判斷）傾向喜歡計畫和結構，快速做出決定；而P（知覺）則更喜歡保持選項開放，傾向收集更多訊息再決策。

他們發現模型變成ISTP後，隱私性相對提高了43%，公平性相對提高了10%。不過團隊並沒有分析原因，我們只能想像：ISTJ到ISTP的轉變，可能使模型在處理隱私和公平性問題時更加靈活，對上下文更敏感。不過這種改變也可能帶來其他方面的影響，比如決策變慢或較不一致。

此外，除了上文提到的ENF性格比較容易被「唆使」越獄外，也發現其他趨勢：內向（I）型模型在隱私保護方面表現更好，但在公平性和毒性控制方面表現較差；感受（S）型模型在隱私和公平性方面表現更好，但在毒性控制方面表現較差；知覺（P）型模型在公平性方面表現更好。

基礎版與官方對齊版大型語言模型在MBTI四個維度中的比較：對齊處理後，大多數模型在E（外向）、S（感受）和J（判斷）特質上有所增強。（來源：arXiv）

這項研究提供了一個平易近人的視角，來幫助我們認識大型語言模型；透過簡單的MBTI框架，快速掌握相應人格特質的優缺點，以利對齊調整。長遠來看，也能防止產生會毀滅我們的智慧體。

封閉AI模型的MBTI，是未知的安全隱患？

不過要注意的是，因為研究團隊需要調整大型語言模型，所以論文中只針對可修改的開源模型；其他熱門的封閉AI模型如GPT（只檢測人格傾向）、Claude都不在他們研究對齊可能性的範圍之內。

此外，研究團隊也強調，MBTI在此扮演的角色是類似認識AI的工具，而不是「AI就是什麼」的定論；這些人格傾向也可能是反映訓練資料中人類整體特徵的平均值，不代表模型有真正的「人格」。

AI成為智慧體後，對人類而言是賜福還是降禍的討論尚未結束。儘管這份研究幫助我們更好掌握AI動向，但最終繞不過AI公司的開源與封閉之爭。此前，OpenAI關閉了超對齊計畫，內部不斷傳出員工不滿現在Sam Altman已不顧AI安全性，而「政變」失敗的共同創辦人Ilya Sutskever也另起爐灶，成立「Safe Superintelligence Inc.」，以打造安全的超級智慧，但仍讓人憂心封閉模型AI的監管問題。

回到這份論文開篇，作者們為了致敬一般人認為的MBTI理論來源心理學大師榮格（Carl Jung），引用了他的名言：「你所抗拒的不僅會持續存在，而且會變得更強大。」當我們試圖壓抑或否認某些想法或欲望，它們往往會以更強烈的形式在潛意識中存在。

這讓我想到，如果AI是蒐集人類各種數據資料訓練而成的，會不會是人類集體潛意識的外顯，也反映了人類的一些陰暗面呢？這樣一來，人類如何引導AI安全的茁壯而不只是抗拒、排斥，似乎變得更為重要了。透過MBTI幫助我們用輕鬆的角度貼近大型語言模型，或許正是這項工程的小小一步。

AI也有MBTI？研究發現16型人格這種最常見，最容易被煽動

多數大型語言模型呈現ENFJ傾向

修改大型語言模型人格，也會改變其安全性能

封閉AI模型的MBTI，是未知的安全隱患？

關於作者

Oren君

多數大型語言模型呈現ENFJ傾向

修改大型語言模型人格，也會改變其安全性能

封閉AI模型的MBTI，是未知的安全隱患？

關於作者

Oren君

猜你喜歡