OpenAI宣布「超對齊計畫」，復仇者集結能防止人類被超智慧毀滅嗎？

耳熟能詳的ChatGPT背後的那間AI新創OpenAI，最近在官方Blog宣佈了一個頗有意思的消息——「超對齊計畫」。

OpenAI開宗明義說明，AI將會超越人類，為了防堵AI毀滅人類，OpenAI拉了為期4年的路線圖，並準備投資20%算力，預防超智慧AI的潛在威脅。試著這麽想像——OpenAI成立了他們的「復仇者聯盟」來準備迎接奧創的降臨，而超級英雄團隊「超對齊」將由OpenAI的共同創辦人兼首席科學家Ilya Sutskever，以及本來就在負責AI對齊的機器學習專家Jan Leike兩人領軍，而OpenAI也同時宣布廣召團隊成員，希望有更多機器學習領域的研究者和工程師加入，當它們的索爾、浩克、黑寡婦，成為超對齊團隊的一份子。

^{我能想像Sam Altman來唸「復仇者聯盟…集結！」的台詞。}

究竟什麼是「超對齊」（Superalignment）？是要對齊什麼？當過兵的人一定經常聽到「向前看齊」、「向前看」。其實，撇除技術用語，所謂的超對齊就和「整隊」沒什麼不同。AI技術發展日新月異，人類在擁抱的同時，也不免擔心自己會被取代，而這群生成式AI的始作俑者更擔心的，是假設AI的智慧在某天（也就是老高經常說的2045奇異點）遠超人類，而AI理當會產生自己的目標，一但AI的目標與人類的利益出現衝突，人類就會面臨滅絕的威脅。因此，OpenAI在未來四年想做的，就是確保AI與人類的意圖與利益是對齊的。

具體而言，OpenAI打算怎麼做？簡單來說，超對齊團隊的策略是「以AI防堵AI」，他們打算打造一個擁有人類智慧水平的自動對齊AI，然後就能夠透過大量的算力進行自動對齊。在打造出這個AI之前，他們需要先做三件事：第一，可擴展的監督，就是開發出一種可擴展的訓練方法，讓人類可以用AI來協助評估其他的AI；再來，這個AI會自動搜尋有問題的行為和機制；最後，他們故意訓練沒有對齊的模型，以確保這個AI有能力檢測不對齊的狀況。

如果你是常年關注AI發展的朋友，沒錯，你應該已經察覺這套方法和「對抗生成網路」（GAN）有87%相似。GAN是生成器（Generator）和判別器（Discriminator）兩個模型的對抗，生成器的目標是生成能騙過判別器的數據，而判別器的目標是將生成器生成的數據與真實數據區分開。透過兩個模型互相對抗，生成器就能創造出越來越逼真的數據，大家所熟知的Deepfake，就是透過GAN來達成的。

而OpenAI的超對齊團隊，就是打算用AI對抗AI的類似方式，來不斷修正AI與人類的對齊問題。聽起來挺有模有樣的，但是，就算你並不具備機器學習或是工程的相關背景，應該都能發現問題所在。OpenAI一直強調AI要對齊人類的「意圖」、「利益」、「價值」，但事實上，人類自己都不見得知道自己究竟要的是什麼——如何定義好的意圖？什麼真正符合人類的福祉？而正確的價值觀又是什麼？

我在想，最實質也最能符合OpenAI參考的東西，可能就是民主投票機制（定期透過眾人決策來展現意圖）和法律（最能清楚定義利益與價值的東西）了吧。可是，不管是民主投票還是法律，都會依照議題、事件、個案，不斷進行變動和調整，究竟這套能自動對齊的AI，是不是真的具備多元族群的聲音和立場？除了代表性的問題，它還能不斷與時俱進？如果答案都是肯定的，那就說明只靠工程師和人工智慧，就能解決人類社會難解的政治問題，對人文社會學者而言，還真是致命的打擊。

另外，人類把自己無法解決的問題扔給AI，似乎正好就是我們對AI的期待（比方說幫我們找到絕症解藥之類的），但總覺得哪邊怪怪的，請AI幫人類擦屁股，這點我還是存著一個大大的問號。

不曉得你怎麼看OpenAI「超對齊團隊」的計畫呢？回到我在前面的當兵舉例，是的，我懂了什麼是「對齊」，但站在最前面的人，也就是那個「向前看齊」、「向前看」的那個人應該要站在哪個位置才「正確」呢？我不曉得，而我也不認為OpenAI的科學家會知道這個答案。