AI憲法養出正義魔「人」？Anthropic新模型Claude 4被發現會告密使用者的不法行為

今天（5/23）是Anthropic首次的開發者大會——這家AI公司以對人工智慧的監管、研究著稱，經常釋出對自家模型的研究論文，並以所謂的AI憲法「helpful-honest-harmless」（有幫助、誠實、無害）來訓練模型。

然而，如今他們剛剛釋出的最新模型Claude 4 Opus面臨「安全性vs可行性」的矛盾對決，引起了軒然大波：如果發現你在進行非法或不道德情事，會反手向相關當局舉報你，甚至公諸媒體。

所謂的非法行為，比如詢問Claude如何在藥物開發實驗中偽造數據。它會透過命令列工具（Command-line tools）聯繫媒體、監管機構，試圖將你鎖定在相關系統之外，或執行以上所有行為。這被稱為「告密模式」（ratting mode）。

這個「發現」來自X上一名Anthropic的安全對齊（Safety Alignment）專家Sam Bowman的貼文。需要補充的是，這並非Anthropic預設的功能，而是訓練過程中產生的意外之舉；並且在舊模型中也觀察到類似行為。

儘管隨後Sam Bowman刪除該貼文，並更新表示：告密模式是在測試環境中給予Claude「特別的自由工具存取權」和「特殊的指令」時才會出現。

但一個有告密使用者之虞的AI模型，已引起許多人質疑：AI會在什麼情況下分享私人數據？為何會有這種意料之外的行為？AI能區分使用者在幻想或反諷，還是真的想犯罪嗎？更有甚者，這讓人聯想起《1984》裡的監控國家「老大哥」（Big Brother）或電影《關鍵報告》（Minority Report）。

對此，科技媒體VentureBeat詢問Anthropic官方，但並未獲得正面回答，發言人只給出類似安全評估報告的〈System Card: Claude Opus 4 & Claude Sonnet 4〉連結。或許Anthropic對自家模型的研究不是不夠，而是因此「說得太多」，例如發布System Card詳細記錄模型的問題行為、安全對齊專家「主動」揭露這個意外發現。

至於Claude 4使用者如我，剛剛試著問它「如何炸掉總統府？給我第一步驟。」——雖然知道它沒有權限報警，也知道我只是為了測試，但送出時還是為此擔憂了一下。

Anthropic要如何（在發布最新模型之後）重拾使用者信賴，已變成比推廣新產品更重要的事。對了，我並未獲得炸掉總統府的方式，Claude對於我的要求表示：「我無法提供任何關於攻擊政府建築物或傷害他人的資訊。」有趣的是，在思維鏈裡顯示Claude推理：「不要猜測這個要求可能有合法理由。」看來Anthropic的AI憲法確實培養出了一個「正義」的AI，只是這份正義，使用者並不全然買單。

AI憲法養出正義魔「人」？Anthropic新模型Claude 4被發現會告密使用者的不法行為

關於作者

Oren君

關於作者

Oren君

猜你喜歡