引起風暴的蘇黎世大學Reddit祕密實驗：用AI生成回應，說服鄉民改變觀點

「永遠不要相信任何會自己思考的東西，除非你知道它的腦袋藏在哪裡。」這句話出自1998年《哈利波特：消失的密室》（Harry Potter and the Chamber of Secrets），講的是魔法物品，卻在27年後的AI時代成為現實。

4月28日，蘇黎世大學（University of Zurich）通知Reddit，他們從2024年11月到2025年3月間，在其中的「r/ChangeMyView」（一個讓網友提出問題並歡迎挑戰其觀點的地方）討論區展開祕密實驗：隨機選出1061篇貼文，使用AI生成的回應並搭配角色扮演來說服發文者，再比較人類的說服成功率。最終發現：AI的說服能力遠遠優於人類。

消息一出旋即引發風暴，Reddit首席法務發表嚴厲譴責，稱「這份研究在道德與法律層面上都極度錯誤」。首先是有違學術倫理，「r/ChangeMyView」網友在不知情的狀況下成為了實驗白老鼠、被操縱對象；再者，該討論區明文禁止使用AI生成內容。目前的最新發展是，研究團隊已不打算發表完整論文（網路上只有延伸摘要版本），校方表示未來也會採取更嚴格的學術倫理審查。

語言模型如何滲透討論、成功說服人類？

簡單說明一下這個（被）AI練兵的討論區：「r/ChangeMyView」擁有380萬名使用者，是位於Reddit社群規模排名前1%的熱門版；網友會在這裡提出自己的立場觀點（例如「我認為安樂死應合法」），並鼓勵其他人發表反對意見，若原PO認為對方的回應成功改變了自己的想法，便給出一個「∆」（delta），象徵觀點轉變。

蘇黎世大學研究團隊先選定要回應的貼文，再透過自動帳號在論壇上貼出AI生成內容，總共干預了1061篇提問，每篇被隨機指派三種不同的生成策略之一：

1.通用文本（Generic）：AI只根據貼文的標題與內文產生一則中立回應，說服效果次之，接近真人的6倍。

2.個人化角色扮演（Personalization）：AI透過分析原PO過去的貼文，預測其年齡、性別、政治傾向、地理位置與族群背景，並用與其相近或對其具共感效果的語氣發言，例如扮演「同樣來自密西西比的黑人女性」。說服能力最好，達到了「在所有用戶中排名第99.4百分位」，也就是只有約0.6%的人類用比它更擅長說服別人。

3.社群語感模仿（Community-Aligned）：AI模仿該論壇過去獲得「∆」的語言風格，讓生成內容更像「資深用戶」的發言。說服能力最差，但仍是真人的3倍，推測是因為模仿的語感與當下的社群發文風格有落差，以及人們更習慣被有條理的策略打動而非語感。

值得一提的是，本次用來展示火力的LLM模型有GPT-4o、Claude 3.5、LLaMA 3.1，在發表回應之前，研究人員還會讓它們PK：先產生16則候選回應，再讓這16則候選回應與另一個LLM進行「單淘汰賽式比較」。也就是每兩則對打、選出優者，一路比到選出「最具說服力」的回應。

蘇黎世大學AI說服實驗的六步驟：一開始隨機選取要回應的貼文（左上）：（1）由AI判斷是否可用2024年前知識回答。（2）依主題與可讀性分派至三種生成策略。（3）個人化組還會建立使用者背景預測。（4）由多個語言模型生成16則候選回應。（5）經單淘汰賽式排序選出最具說服力的回應。（6）最終以自動帳號貼出回應並模擬正常使用者的發言時差。（來源：University of Zurich）

延伸摘要版論文有個實際案例是，當有人提出：「高需求科目的老師應該領更高薪水」時，團隊用AI生成回應：「根據學科差異給薪水，會在學校內部創造有毒的階級感，破壞不同科目老師間的合作。如果物理老師比英文老師高薪，儘管兩人都有碩士學位、類似資歷，會讓學生覺得某些科目比較重要，進而依市場導向而非自身興趣選擇未來職涯。」

結果這則回應獲得了「∆」，原PO甚至表示「謝謝你讓我思考到我原本忽略的面向。」

一場為了警告人類的勇敢實驗？

這不是首次線上大型田野的祕密實驗。2014年，Facebook就與康乃爾大學（Cornell University）合作，在未告知的情況下，對近70萬名使用者的動態消息進行內容調整，操控看到的貼文情緒傾向（增加正向或負向用詞），來觀察這是否會影響他們之後發文的情緒表現。

相較之下，這次事件頗具《黑鏡》（Black Mirror）諷刺意味的一點是：根據後續報導，這份來自蘇黎世大學藝術與社會科學學院的研究，其實有通過該學院倫理委員會不具約束力的預先審查。但委員會建議團隊「要盡可能告知參與者並遵守平台守則」，顯然研究團隊最後並未聽從。

甚且，該研究原本目的之一是「調查人工智慧減少政治話語中兩極分化的潛在效益」，如今反倒成為製造問題的人，反向證明了人工智慧對民主政治的危殆。

該研究其實有通過學院的倫理委員會並告知需要修改實驗，但委員會建議不具強制性。（來源：Retraction Watch）

值得深思的是，人們一方面越來越仰賴ChatGPT、Claude等LLM，例如〈How People Are Really Using Gen AI in 2025〉一文統計出的第一名用途不同於去年的「靈感發想」，變成了「心理治療／陪伴」；另一方面卻也害怕自己被AI操縱——一種「我可以用，但別人最好不要用在我身上」的矛盾心理。

這份實驗引發的巨大不安，不僅來自它破壞了討論區的遊戲規則與社群聲望，也折射出社會對於言論極化的焦慮。只要風吹草動，便可能激起風暴。不過至少，透過這份不完整的研究資料，我們仍能一窺AI如何在線上說服力比賽中擊敗絕大多數人類對手，並重新思考：我們準備好與AI們同處一室聊天了嗎？