OpenAI宣布「超對齊計畫」,復仇者集結能防止人類被超智慧毀滅嗎?

耳熟能詳的ChatGPT背後的那間AI新創OpenAI,最近在官方Blog宣佈了一個頗有意思的消息——「超對齊計畫」。

OpenAI開宗明義說明,AI將會超越人類,為了防堵AI毀滅人類,OpenAI拉了為期4年的路線圖,並準備投資20%算力,預防超智慧AI的潛在威脅。試著這麽想像——OpenAI成立了他們的「復仇者聯盟」來準備迎接奧創的降臨,而超級英雄團隊「超對齊」將由OpenAI的共同創辦人兼首席科學家Ilya Sutskever,以及本來就在負責AI對齊的機器學習專家Jan Leike兩人領軍,而OpenAI也同時宣布廣召團隊成員,希望有更多機器學習領域的研究者和工程師加入,當它們的索爾、浩克、黑寡婦,成為超對齊團隊的一份子。

我能想像Sam Altman來唸「復仇者聯盟…集結!」的台詞。

究竟什麼是「超對齊」(Superalignment)?是要對齊什麼?當過兵的人一定經常聽到「向前看齊」、「向前看」。其實,撇除技術用語,所謂的超對齊就和「整隊」沒什麼不同。AI技術發展日新月異,人類在擁抱的同時,也不免擔心自己會被取代,而這群生成式AI的始作俑者更擔心的,是假設AI的智慧在某天(也就是老高經常說的2045奇異點)遠超人類,而AI理當會產生自己的目標,一但AI的目標與人類的利益出現衝突,人類就會面臨滅絕的威脅。因此,OpenAI在未來四年想做的,就是確保AI與人類的意圖與利益是對齊的。

具體而言,OpenAI打算怎麼做?簡單來說,超對齊團隊的策略是「以AI防堵AI」,他們打算打造一個擁有人類智慧水平的自動對齊AI,然後就能夠透過大量的算力進行自動對齊。在打造出這個AI之前,他們需要先做三件事:第一,可擴展的監督,就是開發出一種可擴展的訓練方法,讓人類可以用AI來協助評估其他的AI;再來,這個AI會自動搜尋有問題的行為和機制;最後,他們故意訓練沒有對齊的模型,以確保這個AI有能力檢測不對齊的狀況。

如果你是常年關注AI發展的朋友,沒錯,你應該已經察覺這套方法和「對抗生成網路」(GAN)有87%相似。GAN是生成器(Generator)和判別器(Discriminator)兩個模型的對抗,生成器的目標是生成能騙過判別器的數據,而判別器的目標是將生成器生成的數據與真實數據區分開。透過兩個模型互相對抗,生成器就能創造出越來越逼真的數據,大家所熟知的Deepfake,就是透過GAN來達成的。

而OpenAI的超對齊團隊,就是打算用AI對抗AI的類似方式,來不斷修正AI與人類的對齊問題。聽起來挺有模有樣的,但是,就算你並不具備機器學習或是工程的相關背景,應該都能發現問題所在。OpenAI一直強調AI要對齊人類的「意圖」、「利益」、「價值」,但事實上,人類自己都不見得知道自己究竟要的是什麼——如何定義好的意圖?什麼真正符合人類的福祉?而正確的價值觀又是什麼?

我在想,最實質也最能符合OpenAI參考的東西,可能就是民主投票機制(定期透過眾人決策來展現意圖)和法律(最能清楚定義利益與價值的東西)了吧。可是,不管是民主投票還是法律,都會依照議題、事件、個案,不斷進行變動和調整,究竟這套能自動對齊的AI,是不是真的具備多元族群的聲音和立場?除了代表性的問題,它還能不斷與時俱進?如果答案都是肯定的,那就說明只靠工程師和人工智慧,就能解決人類社會難解的政治問題,對人文社會學者而言,還真是致命的打擊。

另外,人類把自己無法解決的問題扔給AI,似乎正好就是我們對AI的期待(比方說幫我們找到絕症解藥之類的),但總覺得哪邊怪怪的,請AI幫人類擦屁股,這點我還是存著一個大大的問號。

不曉得你怎麼看OpenAI「超對齊團隊」的計畫呢?回到我在前面的當兵舉例,是的,我懂了什麼是「對齊」,但站在最前面的人,也就是那個「向前看齊」、「向前看」的那個人應該要站在哪個位置才「正確」呢?我不曉得,而我也不認為OpenAI的科學家會知道這個答案。

訂閱電子報

返回頂端