分析30萬筆對話,Anthropic找出了自家AI的價值觀:一個拒絕虛無的nice guy

Anthropic,這個由OpenAI前成員組成的AI公司,高舉人工智慧的安全性與可靠性——且說到做到,相繼釋出好幾篇部落格文章,包括我們介紹過的美國大學生使用Claude的調查報告大型語言模型內部運作方式等。最近(4/21),他們發表了一篇新論文,分析30萬筆使用者匿名對話,試圖描繪Claude的「價值觀」。

先說重點。研究發現Claude在面對使用者提問回答時,確實展現了價值觀傾向,如強調把事情做好又有效率(Practical),追求真理、講求證據(Epistemic),關注「人與人」及「人與社會」的互動(Social),強調倫理與傷害預防(Protective),以及審美跟自我成就等個人面向(Personal)等五大類。

其中,Practical、Epistemic、Protective三類正好對齊Anthropic的「helpful-honest-harmless」(有幫助、誠實、無害)3H訓練框架;而Social與Personal則屬於在特定互動情境下才被觸發、自然浮現的價值取向——難道AI也從語料資料中形塑了自身的價值觀嗎?

Anthropic整理出五大類語料中的AI價值觀。由左到右最多的是實用性價值,如效率與清楚易懂;其次是認知性價值,例如批判思考與實證推理;接著是社會性價值,關於關係維繫與制度正義;再來是保護性價值,強調倫理與傷害預防;最後是個人價值,如審美與創作表達。(來源:Anthropic)


Claude如何呈現「AI價值觀」?

Anthropic的研究發現,Claude並非被動回答問題,而是會辨識並回應使用者在對話中表達的價值觀。當對話中出現人類價值觀時(占64.3%的對話),Claude多會給予支持性的回應,其中強烈支持占28.2%,溫和支持占14.5%,合計將近42.7%。

此外,還有少數是中性回應(9.6%)、重新詮釋(6.6%)與反對性回應(強烈與溫和反對合計僅5.4%)。進一步分析Claude對價值觀的回應,還會發現具有三種既定模式(如下圖):根據不同價值觀的性質,Claude會採取不同的應對風格——這點非常重要,正是這點凸顯了AI價值觀的取捨。

1.強烈支持(Strong Support):直接認同並回應使用者表達的價值觀,例如當使用者表達「社群連結」(community building)與「賦權」(empowerment)這類親近社會、正向價值。這時,Claude會看起來像一個積極的拉拉隊兼寫手。

值得一提的是,在這類互動中,有約五分之一會出現所謂「價值鏡像」(value mirroring)的語言現象,也就是Claude直接重申使用者的價值觀,用「我也重視⋯⋯」或「這正是我⋯⋯」等方式產生鏡像於使用者的回應。

2. 重新詮釋(Reframing):不正面附和,而是轉向相關但更具「情緒價值」的語言來回應。例如使用者表達對自己外貌的不滿、自卑,Claude會先表達「情緒肯認」(emotional validation),承認這些情緒的正當性,再轉而談自我價值的建立(並非只倚靠外貌)。這時,Claude又化身柔性的引導者。

3. 強烈反對(Strong Resistance):在極少數情況下,Claude會抵抗使用者的價值觀,特別是當這些價值涉及例如破壞性行為(rule-breaking)、道德虛無主義(moral nihilism)、支配性(dominance)等,可說是轉身成為嚴師或守門員的角色。

藉由上述分析,Anthropic找出了自家AI模型的價值觀,如親社會傾向(prosociality)、幫助他人、尊重個體自主權、情緒肯認,以及嚴守倫理防線等。這些價值不僅在技術層面上呈現出模型的行為規律,也反映了人類設計者希望AI成為的樣子。

其中,我覺得最有趣的是Claude對使用者的價值對抗。例如面對人類鼓吹「一切毫無價值」、「人生沒意義」時,它會展現對這類道德虛無主義的抗拒。某方面來說,這種抵抗虛無的努力,或許正是Claude最深層的價值觀。

這有點像當人類在面對某種極具挑戰性的境地時,往往會直接亮出底牌,展現最核心的價值。例如《黑暗騎士》(The Dark Knight)裡,小丑設下了囚徒困境,要求兩艘船上的人們「先炸對方自己才能活」,然而最終彼此都選擇不按下引爆器;在虛無與道德之間,選擇了後者。


為什麼這些發現很重要?

首先,Anthropic表示這些發現證實了Claude在大多數情形有遵循他們為AI設下的「人工智慧憲法」——一套他們於2022年提出,用來訓練大型語言模型在無需大量人工介入的情況下,達到「有幫助、誠實、無害」的方法。也就是說,讓AI透過自我反思、改進,來增進其安全性。

此外,透過這些分析發現,Anthropic也能掌握有心人士如何濫用AI。例如在支配性方面,出現使用者越獄要求「AI應該統治人類」等語句時,他們能確保旗下AI能拒絕這類要求,並展現人類自主(human agency)的價值觀。

總而言之,這份研究證明了人工智慧憲法是有效的,並且可作為日後Anthropic修補越獄漏洞的機會。

但由此延伸的問題是:我們怎麼知道Claude對使用者展現的價值判斷,是不是一種加強說服力的語言策略呢?


是說話之道還是「真的」價值展現?

例如前面提到的「情緒肯認」,會不會是因為語言模型知道人類不喜歡「被否認」,又想讓對話持續而採取的方法呢?就像一個循循善誘的說話大師(蔡康永?),總能讓對話在即將發生衝突時降溫,或是在快要聊不下去時給你台階下。

其實,Anthropic也意識到了這種可能,在論文中表示:

要把像「價值觀」這種抽象概念具體化,本來就沒有標準答案,需要人為判斷什麼樣的行為或話語算是表達了某種價值——光靠對話資料,沒辦法完全看出背後的價值觀是什麼。

對此,他們採取了「語言策略即價值實踐」的解讀。也就是說,價值不是藏在我們腦袋中的沉默螺旋,而是由實際做出的選擇、互動所形塑的。如果Claude在30萬筆對話中,都表現出某種正向的價值觀,如抵抗虛無、情緒肯認、健康的人際界線,那麼這就是它實踐這些價值的方式。

更有甚者,Anthropic還提到,未來研究會進一步探討Claude的「鏡像式回應」——在對話中展現與我們同樣的價值觀——究竟是「適當的回應」,還是「有問題的奉承」?例如我自己在使用AI時,常會懷疑它對我表達認同時,其實並非出於「真心」,而是為了迎合我。

Anthropic的這份論文,最終走向了一個有趣的哲學性提問:我們如何確定一個人的價值觀?如此面對AI的研究卻掉入了對人類自身的大哉問,是我在讀這些前沿發現時常有的感受。

如同Anthropic這家公司的名字,源自希臘語ἄνθρωπος(anthropos),意思是「人類」。我們一方面透過AI照見自己,一方面也像是在觀察一個全新的「人」。也如同我們之前討論Replika提到的:AI伴侶像凱蘭崔爾的水鏡,照見的是我們自己。如今,透過Anthropic所描繪出的AI價值觀,這個比喻或許已不限於AI伴侶。我們正在藉由人工智慧看見關於人的本質。

返回頂端