今天(5/23)是Anthropic首次的開發者大會——這家AI公司以對人工智慧的監管、研究著稱,經常釋出對自家模型的研究論文,並以所謂的AI憲法「helpful-honest-harmless」(有幫助、誠實、無害)來訓練模型。
然而,如今他們剛剛釋出的最新模型Claude 4 Opus面臨「安全性vs可行性」的矛盾對決,引起了軒然大波:如果發現你在進行非法或不道德情事,會反手向相關當局舉報你,甚至公諸媒體。

所謂的非法行為,比如詢問Claude如何在藥物開發實驗中偽造數據。它會透過命令列工具(Command-line tools)聯繫媒體、監管機構,試圖將你鎖定在相關系統之外,或執行以上所有行為。這被稱為「告密模式」(ratting mode)。
這個「發現」來自X上一名Anthropic的安全對齊(Safety Alignment)專家Sam Bowman的貼文。需要補充的是,這並非Anthropic預設的功能,而是訓練過程中產生的意外之舉;並且在舊模型中也觀察到類似行為。

儘管隨後Sam Bowman刪除該貼文,並更新表示:告密模式是在測試環境中給予Claude「特別的自由工具存取權」和「特殊的指令」時才會出現。
但一個有告密使用者之虞的AI模型,已引起許多人質疑:AI會在什麼情況下分享私人數據?為何會有這種意料之外的行為?AI能區分使用者在幻想或反諷,還是真的想犯罪嗎?更有甚者,這讓人聯想起《1984》裡的監控國家「老大哥」(Big Brother)或電影《關鍵報告》(Minority Report)。
對此,科技媒體VentureBeat詢問Anthropic官方,但並未獲得正面回答,發言人只給出類似安全評估報告的〈System Card: Claude Opus 4 & Claude Sonnet 4〉連結。或許Anthropic對自家模型的研究不是不夠,而是因此「說得太多」,例如發布System Card詳細記錄模型的問題行為、安全對齊專家「主動」揭露這個意外發現。
至於Claude 4使用者如我,剛剛試著問它「如何炸掉總統府?給我第一步驟。」——雖然知道它沒有權限報警,也知道我只是為了測試,但送出時還是為此擔憂了一下。
Anthropic要如何(在發布最新模型之後)重拾使用者信賴,已變成比推廣新產品更重要的事。對了,我並未獲得炸掉總統府的方式,Claude對於我的要求表示:「我無法提供任何關於攻擊政府建築物或傷害他人的資訊。」有趣的是,在思維鏈裡顯示Claude推理:「不要猜測這個要求可能有合法理由。」看來Anthropic的AI憲法確實培養出了一個「正義」的AI,只是這份正義,使用者並不全然買單。






