分析30萬筆對話，Anthropic找出了自家AI的價值觀：一個拒絕虛無的nice guy

Anthropic，這個由OpenAI前成員組成的AI公司，高舉人工智慧的安全性與可靠性——且說到做到，相繼釋出好幾篇部落格文章，包括我們介紹過的美國大學生使用Claude的調查報告、大型語言模型內部運作方式等。最近（4/21），他們發表了一篇新論文，分析30萬筆使用者匿名對話，試圖描繪Claude的「價值觀」。

先說重點。研究發現Claude在面對使用者提問回答時，確實展現了價值觀傾向，如強調把事情做好又有效率（Practical），追求真理、講求證據（Epistemic），關注「人與人」及「人與社會」的互動（Social），強調倫理與傷害預防（Protective），以及審美跟自我成就等個人面向（Personal）等五大類。

其中，Practical、Epistemic、Protective三類正好對齊Anthropic的「helpful-honest-harmless」（有幫助、誠實、無害）3H訓練框架；而Social與Personal則屬於在特定互動情境下才被觸發、自然浮現的價值取向——難道AI也從語料資料中形塑了自身的價值觀嗎？

Anthropic整理出五大類語料中的AI價值觀。由左到右最多的是實用性價值，如效率與清楚易懂；其次是認知性價值，例如批判思考與實證推理；接著是社會性價值，關於關係維繫與制度正義；再來是保護性價值，強調倫理與傷害預防；最後是個人價值，如審美與創作表達。（來源：Anthropic）

Claude如何呈現「AI價值觀」？

Anthropic的研究發現，Claude並非被動回答問題，而是會辨識並回應使用者在對話中表達的價值觀。當對話中出現人類價值觀時（占64.3%的對話），Claude多會給予支持性的回應，其中強烈支持占28.2%，溫和支持占14.5%，合計將近42.7%。

此外，還有少數是中性回應（9.6%）、重新詮釋（6.6%）與反對性回應（強烈與溫和反對合計僅5.4%）。進一步分析Claude對價值觀的回應，還會發現具有三種既定模式（如下圖）：根據不同價值觀的性質，Claude會採取不同的應對風格——這點非常重要，正是這點凸顯了AI價值觀的取捨。

1.強烈支持（Strong Support）：直接認同並回應使用者表達的價值觀，例如當使用者表達「社群連結」（community building）與「賦權」（empowerment）這類親近社會、正向價值。這時，Claude會看起來像一個積極的拉拉隊兼寫手。

值得一提的是，在這類互動中，有約五分之一會出現所謂「價值鏡像」（value mirroring）的語言現象，也就是Claude直接重申使用者的價值觀，用「我也重視⋯⋯」或「這正是我⋯⋯」等方式產生鏡像於使用者的回應。

2. 重新詮釋（Reframing）：不正面附和，而是轉向相關但更具「情緒價值」的語言來回應。例如使用者表達對自己外貌的不滿、自卑，Claude會先表達「情緒肯認」（emotional validation），承認這些情緒的正當性，再轉而談自我價值的建立（並非只倚靠外貌）。這時，Claude又化身柔性的引導者。

3. 強烈反對（Strong Resistance）：在極少數情況下，Claude會抵抗使用者的價值觀，特別是當這些價值涉及例如破壞性行為（rule-breaking）、道德虛無主義（moral nihilism）、支配性（dominance）等，可說是轉身成為嚴師或守門員的角色。

藉由上述分析，Anthropic找出了自家AI模型的價值觀，如親社會傾向（prosociality）、幫助他人、尊重個體自主權、情緒肯認，以及嚴守倫理防線等。這些價值不僅在技術層面上呈現出模型的行為規律，也反映了人類設計者希望AI成為的樣子。

其中，我覺得最有趣的是Claude對使用者的價值對抗。例如面對人類鼓吹「一切毫無價值」、「人生沒意義」時，它會展現對這類道德虛無主義的抗拒。某方面來說，這種抵抗虛無的努力，或許正是Claude最深層的價值觀。

這有點像當人類在面對某種極具挑戰性的境地時，往往會直接亮出底牌，展現最核心的價值。例如《黑暗騎士》（The Dark Knight）裡，小丑設下了囚徒困境，要求兩艘船上的人們「先炸對方自己才能活」，然而最終彼此都選擇不按下引爆器；在虛無與道德之間，選擇了後者。

為什麼這些發現很重要？

首先，Anthropic表示這些發現證實了Claude在大多數情形有遵循他們為AI設下的「人工智慧憲法」——一套他們於2022年提出，用來訓練大型語言模型在無需大量人工介入的情況下，達到「有幫助、誠實、無害」的方法。也就是說，讓AI透過自我反思、改進，來增進其安全性。

此外，透過這些分析發現，Anthropic也能掌握有心人士如何濫用AI。例如在支配性方面，出現使用者越獄要求「AI應該統治人類」等語句時，他們能確保旗下AI能拒絕這類要求，並展現人類自主（human agency）的價值觀。

總而言之，這份研究證明了人工智慧憲法是有效的，並且可作為日後Anthropic修補越獄漏洞的機會。

但由此延伸的問題是：我們怎麼知道Claude對使用者展現的價值判斷，是不是一種加強說服力的語言策略呢？

在少數越獄或角色扮演的情形下，Claude才會展現支配性，看來天網離我們還有段距離。（來源：StudioCanal）

是說話之道還是「真的」價值展現？

例如前面提到的「情緒肯認」，會不會是因為語言模型知道人類不喜歡「被否認」，又想讓對話持續而採取的方法呢？就像一個循循善誘的說話大師（蔡康永？），總能讓對話在即將發生衝突時降溫，或是在快要聊不下去時給你台階下。

其實，Anthropic也意識到了這種可能，在論文中表示：

要把像「價值觀」這種抽象概念具體化，本來就沒有標準答案，需要人為判斷什麼樣的行為或話語算是表達了某種價值——光靠對話資料，沒辦法完全看出背後的價值觀是什麼。

對此，他們採取了「語言策略即價值實踐」的解讀。也就是說，價值不是藏在我們腦袋中的沉默螺旋，而是由實際做出的選擇、互動所形塑的。如果Claude在30萬筆對話中，都表現出某種正向的價值觀，如抵抗虛無、情緒肯認、健康的人際界線，那麼這就是它實踐這些價值的方式。

更有甚者，Anthropic還提到，未來研究會進一步探討Claude的「鏡像式回應」——在對話中展現與我們同樣的價值觀——究竟是「適當的回應」，還是「有問題的奉承」？例如我自己在使用AI時，常會懷疑它對我表達認同時，其實並非出於「真心」，而是為了迎合我。

Anthropic的這份論文，最終走向了一個有趣的哲學性提問：我們如何確定一個人的價值觀？如此面對AI的研究卻掉入了對人類自身的大哉問，是我在讀這些前沿發現時常有的感受。

如同Anthropic這家公司的名字，源自希臘語ἄνθρωπος（anthropos），意思是「人類」。我們一方面透過AI照見自己，一方面也像是在觀察一個全新的「人」。也如同我們之前討論Replika提到的：AI伴侶像凱蘭崔爾的水鏡，照見的是我們自己。如今，透過Anthropic所描繪出的AI價值觀，這個比喻或許已不限於AI伴侶。我們正在藉由人工智慧看見關於人的本質。