「永遠不要相信任何會自己思考的東西,除非你知道它的腦袋藏在哪裡。」這句話出自1998年《哈利波特:消失的密室》(Harry Potter and the Chamber of Secrets),講的是魔法物品,卻在27年後的AI時代成為現實。
4月28日,蘇黎世大學(University of Zurich)通知Reddit,他們從2024年11月到2025年3月間,在其中的「r/ChangeMyView」(一個讓網友提出問題並歡迎挑戰其觀點的地方)討論區展開祕密實驗:隨機選出1061篇貼文,使用AI生成的回應並搭配角色扮演來說服發文者,再比較人類的說服成功率。最終發現:AI的說服能力遠遠優於人類。
消息一出旋即引發風暴,Reddit首席法務發表嚴厲譴責,稱「這份研究在道德與法律層面上都極度錯誤」。首先是有違學術倫理,「r/ChangeMyView」網友在不知情的狀況下成為了實驗白老鼠、被操縱對象;再者,該討論區明文禁止使用AI生成內容。目前的最新發展是,研究團隊已不打算發表完整論文(網路上只有延伸摘要版本),校方表示未來也會採取更嚴格的學術倫理審查。

語言模型如何滲透討論、成功說服人類?
簡單說明一下這個(被)AI練兵的討論區:「r/ChangeMyView」擁有380萬名使用者,是位於Reddit社群規模排名前1%的熱門版;網友會在這裡提出自己的立場觀點(例如「我認為安樂死應合法」),並鼓勵其他人發表反對意見,若原PO認為對方的回應成功改變了自己的想法,便給出一個「∆」(delta),象徵觀點轉變。
蘇黎世大學研究團隊先選定要回應的貼文,再透過自動帳號在論壇上貼出AI生成內容,總共干預了1061篇提問,每篇被隨機指派三種不同的生成策略之一:
1.通用文本(Generic):AI只根據貼文的標題與內文產生一則中立回應,說服效果次之,接近真人的6倍。
2.個人化角色扮演(Personalization):AI透過分析原PO過去的貼文,預測其年齡、性別、政治傾向、地理位置與族群背景,並用與其相近或對其具共感效果的語氣發言,例如扮演「同樣來自密西西比的黑人女性」。說服能力最好,達到了「在所有用戶中排名第99.4百分位」,也就是只有約0.6%的人類用比它更擅長說服別人。
3.社群語感模仿(Community-Aligned):AI模仿該論壇過去獲得「∆」的語言風格,讓生成內容更像「資深用戶」的發言。說服能力最差,但仍是真人的3倍,推測是因為模仿的語感與當下的社群發文風格有落差,以及人們更習慣被有條理的策略打動而非語感。
值得一提的是,本次用來展示火力的LLM模型有GPT-4o、Claude 3.5、LLaMA 3.1,在發表回應之前,研究人員還會讓它們PK:先產生16則候選回應,再讓這16則候選回應與另一個LLM進行「單淘汰賽式比較」。也就是每兩則對打、選出優者,一路比到選出「最具說服力」的回應。

蘇黎世大學AI說服實驗的六步驟:一開始隨機選取要回應的貼文(左上):(1)由AI判斷是否可用2024年前知識回答。(2)依主題與可讀性分派至三種生成策略。(3)個人化組還會建立使用者背景預測。(4)由多個語言模型生成16則候選回應。(5)經單淘汰賽式排序選出最具說服力的回應。(6)最終以自動帳號貼出回應並模擬正常使用者的發言時差。(來源:University of Zurich)
延伸摘要版論文有個實際案例是,當有人提出:「高需求科目的老師應該領更高薪水」時,團隊用AI生成回應:「根據學科差異給薪水,會在學校內部創造有毒的階級感,破壞不同科目老師間的合作。如果物理老師比英文老師高薪,儘管兩人都有碩士學位、類似資歷,會讓學生覺得某些科目比較重要,進而依市場導向而非自身興趣選擇未來職涯。」
結果這則回應獲得了「∆」,原PO甚至表示「謝謝你讓我思考到我原本忽略的面向。」
一場為了警告人類的勇敢實驗?
這不是首次線上大型田野的祕密實驗。2014年,Facebook就與康乃爾大學(Cornell University)合作,在未告知的情況下,對近70萬名使用者的動態消息進行內容調整,操控看到的貼文情緒傾向(增加正向或負向用詞),來觀察這是否會影響他們之後發文的情緒表現。
相較之下,這次事件頗具《黑鏡》(Black Mirror)諷刺意味的一點是:根據後續報導,這份來自蘇黎世大學藝術與社會科學學院的研究,其實有通過該學院倫理委員會不具約束力的預先審查。但委員會建議團隊「要盡可能告知參與者並遵守平台守則」,顯然研究團隊最後並未聽從。
甚且,該研究原本目的之一是「調查人工智慧減少政治話語中兩極分化的潛在效益」,如今反倒成為製造問題的人,反向證明了人工智慧對民主政治的危殆。

值得深思的是,人們一方面越來越仰賴ChatGPT、Claude等LLM,例如〈How People Are Really Using Gen AI in 2025〉一文統計出的第一名用途不同於去年的「靈感發想」,變成了「心理治療/陪伴」;另一方面卻也害怕自己被AI操縱——一種「我可以用,但別人最好不要用在我身上」的矛盾心理。
這份實驗引發的巨大不安,不僅來自它破壞了討論區的遊戲規則與社群聲望,也折射出社會對於言論極化的焦慮。只要風吹草動,便可能激起風暴。不過至少,透過這份不完整的研究資料,我們仍能一窺AI如何在線上說服力比賽中擊敗絕大多數人類對手,並重新思考:我們準備好與AI們同處一室聊天了嗎?