原文作者:Vitalik Buterin
原文編譯:Luffy,Foresight News
今年4 月,Daniel Kokotajlo、Scott Alexander 等人發布了一份報告《 AI 2027 》,描繪了「我們對未來5 年超人類AI 影響的最佳猜測」。他們預測,到2027 年,超人類AI 將誕生,而整個人類文明的未來將取決於類AI 的發展結果:到2030 年,我們要么迎來烏托邦(從美國視角看),要么走向徹底毀滅(從全人類視角看)。
此後幾個月,針對這一幕的可能性,出現了大量觀點各異的回應。在批判性回應中,多數聚焦於「時間線過快」 的問題:AI 的發展真的會如Kokotajlo 等人所說的那樣持續加速,甚至愈演愈烈嗎?這場辯論在AI 領域已持續數年,許多人對超人類AI 會如此迅速地到來深表懷疑。近年來,AI 能夠自主完成的任務時長大約每7 個月翻倍。若這一趨勢延續下去,AI 要能自主完成相當於整個人類職業生涯的任務,得等到2030 年代中期。這項進展雖然也很快,但遠晚於2027 年。
那些持有更長時間線觀點的人傾向於認為,“插值/ 模式匹配”(當前大語言模型所做的工作)與“外推/ 真正的原創思維”(目前仍只有人類能做到)存在本質區別。要實現後者的自動化,可能需要我們尚未掌握甚至無從入手的技術。或許,我們只是在重蹈計算器大規模應用時的覆轍:錯誤地認為,既然我們已快速實現某類重要認知的自動化,其他一切也將很快跟進。
這篇文章不會直接介入時間線之爭,也不會涉及「超級AI 是否默認具有危險性」 這一(非常重要的)爭論。但要說明的是,我個人認為時間線會比2027 年更長,而且時間線越長,我在這篇文章中提出的論點就越有說服力。整體而言,本文將從另一個角度提出批判:
《AI 2027 》場景隱含一個假設:領先AI(「Agent-5 」 及後續的「Consensus-1 」)的能力會迅速提升,直至擁有神一般的經濟與破壞力量,而其他所有人的(經濟與防禦)能力則基本停滯不前。這與情景本身「即便是在悲觀世界裡,到2029 年我們也有望治癒癌症、延緩衰老,甚至實現意識上傳」 的說法自相矛盾。
我將在本文中描述的一些對策,讀者或許會覺得技術上可行,但在短時間內部署到現實世界卻不切實際。多數情況下,我同意這一點。然而,《AI 2027 》場景並非基於當下的現實世界,而是假設在4 年內(或任何可能帶來毀滅的時間線內),科技將發展到讓人類擁有遠超當前的能力。因此,我們來探討一下:若不僅有一方擁有AI 超能力,而是雙方都擁有,會發生什麼事?
生物末日遠非場景描述的那麼簡單
讓我們放大到「種族」場景(即所有人都死於美國過度執著於擊敗中國,而忽視人類安全的場景)。以下是所有人死亡的情節:
「約三個月裡,Consensus-1 在人類周圍擴張,將草原與冰原改造成工廠與太陽能板。最終,它認為剩餘人類過於礙事: 2030 年中期,AI在主要城市釋放了十餘種悄然傳播的生物武器,讓它們無聲地感染幾乎所有人,再用化學噴霧觸發致命效果。
我們來剖析這一幕。即便是現在,也有一些正在研發的技術能讓AI 的這種「乾淨俐落的勝利」變得不那麼現實:
空氣過濾、通風系統與紫外線燈,可大幅降低空氣傳播疾病的傳染率;
兩種即時被動檢測技術:幾小時內被動檢測出人體感染並發出通知,快速檢測環境中未知的新病毒序列;
多種增強和活化免疫系統的方法,比新冠疫苗更有效、安全、通用,且易於本地生產,使人體能抵抗自然及人工設計的流行病。人類進化於全球人口僅有800 萬、大部分時間都在戶外度過的環境中,因此直覺上,我們應該能夠輕鬆適應當今威脅更大的世界。
這些方法結合起來,或許能將空氣傳播疾病的基本傳染數(R 0)降低10-20 倍(例如:更好的空氣過濾減少4 倍傳播,感染者立即隔離減少3 倍,簡單增強呼吸道免疫減少1.5 倍),甚至更多。這足以讓所有現存空氣傳播疾病(包括麻疹)無法傳播,而這一數字遠未達到理論最優。
若能廣泛應用即時病毒定序進行早期檢測,「悄悄傳播的生物武器能感染全球人口而不觸發警報」 的想法就非常可疑了。值得注意的是,即便採用「釋放多種流行病及僅在組合後才具危險性的化學物質」 等高級手段,也能被檢測到。
別忘了,我們討論的是《AI 2027 》的假設:到2030 年,奈米機器人和戴森球被列為「新興技術」。這意味著效率將大幅提升,也讓上述因應措施的廣泛部署更值得期待。 儘管在2025 年的今天,人類行動遲緩、惰性十足,大量政府服務仍依賴紙本辦公。如果世界上最強大的AI 能在2030 年前將森林與田野改造成工廠和太陽能農場,那麼世界上第二強大的AI 也能在2030 年前為我們的建築安裝大量感測器、燈具和過濾器。
但我們不妨進一步沿用《AI 2027 》的假設,進入純粹的科幻場景:
體內(鼻子、口腔、肺部)的微觀空氣過濾;
從發現新病原體到微調免疫系統抵禦它的自動化流程,可立即應用;
若「意識上傳」 可行,只需將整個身體替換為特斯拉Optimus 或Unitree 機器人;
各種新製造技術(在機器人經濟中很可能會超級優化)將能在本地生產遠多於當前的防護設備,無需依賴全球供應鏈。
在這個癌症和衰老問題將在2029 年1 月得到治愈,且技術進步持續加速的世界裡,到2030 年中期,如果說我們沒有能實時生物打印並注射物質以保護人體免受任意感染(及毒物)的可穿戴設備,這實在令人難以置信。
上述生物防禦論點未涵蓋「鏡像生命」 和「蚊子大小的殺人無人機」(《AI 2027 》場景預測2029 年開始出現)。但這些手段無法實現《AI 2027 》所描述的那種突然的「乾淨利落的勝利」,且直觀來看,針對它們的對稱防禦要容易得多。
因此,生物武器實際上不太可能以《AI 2027 》場景所描述的方式徹底毀滅人類。當然,我所描述的所有結果也遠非人類的「乾淨的勝利」。無論我們做什麼(或許「將意識上傳至機器人」 除外),全面的AI 生物戰爭仍將極度危險。然而,達到「人類乾淨俐落勝利」 的標準並非必需:只要攻擊有較高機率部分失敗,就足以對已在世界佔據強勢地位的AI 形成有力威懾,阻止其嘗試任何攻擊。當然,AI 發展的時間線越長,這類防禦手段就越有可能充分發揮作用。
結合生物武器與其他攻擊手段呢?
上述因應措施要成功,需滿足三個前提:
世界物理安全(包括生物與反無人機安全)由地方當局(人類或AI)管理,且並非全是Consensus-1 (《AI 2027 》場景中最終控制世界並毀滅人類的AI 名稱)的傀儡;
Consensus-1 無法入侵其他國家(或城市、其他安全區域)的防禦系統並立即使其失效;
Consensus-1 未控制全球資訊領域到無人願意嘗試自衛的程度。
直觀來看,前提(1)的結果可能走向兩個極端。如今,有些警察部隊高度集中,擁有強大的國家指揮體系,有些則是地方化的。如果實體安全必須快速轉型以適應AI 時代的需求,格局將徹底重置,新結果將取決於未來幾年的選擇。各國政府可能會偷懶,都依賴Palantir;也可能主動選擇結合本地開發與開源技術的方案。在此,我認為我們需要做出正確選擇。
許多關於這些主題的悲觀論述假設(2)和(3)已無藥可救。因此,我們來詳細分析這兩點。
網路安全的末日遠未到來
公眾與專業人士普遍認為,真正的網路安全不可能實現,我們最多只能在漏洞被發現後迅速修補,並透過囤積已發現的漏洞來威懾網路攻擊者。或許,我們能做的最好情況是《太空堡壘卡拉狄加》式的場景:幾乎所有人類飛船都被賽昂人的網路攻擊同時癱瘓,僅存的飛船因未使用任何連網技術而倖免於難。我不認同這個觀點。相反,我認為網路安全的「終局」 是對防禦方有利的,且在《AI 2027 》所假設的技術快速發展下,我們能實現這一終局。
一種理解方式是採用AI 研究人員最喜歡的技術:趨勢外推。以下是基於GPT 深度研究調查的趨勢線,假設採用頂級安全技術,每千行程式碼的漏洞率隨時間變化如下。
此外,我們已看到沙盒技術及其他隔離和最小化可信任程式碼庫的技術在開發和消費者普及方面取得顯著進步。短期內,攻擊者獨有的超級智慧漏洞發現工具能找到大量漏洞。但如果用於發現漏洞或形式化驗證程式碼的高度智慧代理是公開可用的,那麼自然的最終平衡將是:軟體開發人員在發布程式碼前,透過持續整合流程發現所有漏洞。
我可以看到兩個令人信服的理由,說明為什麼即使在這個世界上,漏洞也無法完全消除:
缺陷源自於人類意圖本身的複雜性,因此主要困難在於建構足夠準確的意圖模型,而非程式碼本身;
非安全關鍵組件,我們可能會延續消費科技領域的既有趨勢:透過編寫更多程式碼來處理更多任務(或降低開發預算),而不是以不斷提高的安全標準完成相同數量的任務。
然而,這些類別都不適用於「攻擊者能否取得維持我們生命的系統的root 權限」 這類情況,而這正是我們所討論的核心。
我承認,我的觀點比當前網路安全領域的聰明人所持的主流觀點更樂觀。但即便你在當今世界的背景下不同意我的觀點,也值得記住:《AI 2027 》場景假設存在超級智慧。至少,如果「 1 億個超級智慧副本以2400 倍人類速度思考」 都無法讓我們獲得沒有這類缺陷的程式碼,那麼我們絕對應該重新評估超級智慧是否如作者想像的那樣強大。
某種程度上,我們不僅需要大幅提高軟體安全標準,還需要提升硬體安全標準。 IRIS 是目前改善硬體可驗證性的一項努力。我們可以以IRIS 為起點,或創造出更好的技術。實際上,這可能涉及“構造正確” 的方法:關鍵組件的硬體製造流程特意設計了特定的驗證環節。這些都是AI 自動化會大幅簡化的工作。
超級說服力的末日也遠未到來
如前所述,防禦能力大幅提升可能仍無濟於事的另一種情況是:AI 說服了足夠多的人,讓他們認為無需防禦超級智能AI 的威脅,且任何試圖為自己或社區尋找防御手段的人都是罪犯。
我一直認為,有兩件事能提升我們抵抗超級說服力的能力:
一個不那麼單一的資訊生態系。可以說,我們已逐漸進入後推特時代,網路正變得更加碎片化。這是好事(即便碎片化過程是混亂的),我們總體上需要更多的資訊多極化。
防禦性AI。個人需要配備本地運作的、明確忠於自己的AI,以平衡他們在網路上看到的黑暗模式和威脅。這類想法已有零星試點(如台灣的「訊息檢查器」 應用,在手機上進行本地掃描),且有自然市場可進一步測試這些想法(如保護人們免受詐騙),但這方面需要更多努力。
由上至下:URL 檢查、加密貨幣地址檢查、謠言檢查。這類應用可以變得更個人化、使用者自主且功能更強大。
這場較量不應是超級智慧的超級說服者與你的對抗,而應是超級智慧的超級說服者對抗你加上一個稍弱但仍屬超級智慧的、為你服務的分析器。
這是應該發生的情況。但它真的會發生嗎?在《AI 2027 》場景假設的短時間內,要實現資訊防禦技術的普及是一個非常困難的目標。但可以說,更溫和的里程碑就足夠了。如果集體決策最為關鍵,且如《AI 2027 》場景所示,所有重要事件都發生在一個選舉週期內,那麼嚴格來說,重要的是讓直接決策者(政客、公務員、部分企業的程式設計師及其他參與者)能使用良好的資訊防禦技術。這在短期內相對更容易實現,且根據我的經驗,許多這類人士已習慣與多個AI 交流以輔助決策。
啟示
在《AI 2027 》的世界裡,人們想當然地認為,超級人工智慧能夠輕鬆迅速地消滅剩餘人類已成定局,因此我們唯一能做的就是盡力確保領先的AI 是仁慈的。在我看來,實際情況要複雜得多:領先AI 是否強大到能輕鬆消滅剩餘人類(及其他AI),這一問題的答案仍有很大爭議,且我們可以採取行動來影響這一結果。
如果這些論點正確,它們對當今政策的啟示有時與「主流AI 安全準則」 相似,有時則不同:
延緩超級智慧AI 的發展仍是好事。超級智慧AI 在10 年後出現比3 年後更安全, 30 年後出現則更安全。給人類文明更多準備時間是有益的。
如何做到這一點是一個難題。我認為,美國提議的「 10 年禁止州級AI 監管」 被否決總體上是好事,但尤其在SB-1047 等早期提案失敗後,下一步行動方向變得不太明確。我認為,延緩高風險AI 發展的侵入性最小、最穩健的方式可能涉及某種規範最先進硬體的條約。實現有效防禦所需的許多硬體網路安全技術,也有助於驗證國際硬體條約,因此這裡甚至存在協同效應。
儘管如此,值得注意的是,我認為風險的主要來源是與軍事相關的行為體,他們會極力爭取豁免於這類條約;這絕不能被允許,若最終他們獲得豁免,那麼僅由軍方推動的AI 發展可能會增加風險。
讓AI 更可能做好事、更少可能做壞事的協調工作仍是有益的。主要例外(且一直如此)是:協調工作最終演變為提升能力。
提高AI 實驗室透明度的監管仍是有益的。激勵AI 實驗室規範行為能降低風險,而透明度是達成目標的好方法。
「開源有害」 的心態變得更具風險。許多人反對開放權重AI,理由是防禦不現實,唯一的光明前景是讓擁有良好AI 的好人比任何不那麼善意的人先實現超級智能,獲得任何極具危險性的能力。但本文的論點描繪了不同的圖像:防禦不現實,正是因為某一行為體遠遠領先,而其他行為體沒有跟上。科技擴散以維持力量平衡變得很重要。但同時,我絕對不會認為,僅僅因為是以開源方式進行,加速前沿AI 能力的成長就是好事。
美國實驗室中「我們必須擊敗中國」 的心態變得更具風險,原因類似。如果霸權不是安全緩衝,而是風險來源,那麼這進一步反駁了(不幸的是太常見的)“有善意的人應加入領先AI 實驗室,幫助其更快獲勝” 的觀點。
「公共AI」 等倡議更應得到支持,既要確保AI 能力的廣泛分佈,也要確保基礎設施行為體確實擁有工具,能迅速以本文所述的某些方式應用新的AI 能力。
防禦技術應該更體現「武裝綿羊」的概念,而不是「獵殺所有狼」的理念。關於脆弱世界假說的討論常常假設,唯一解決方案是霸權國家維持全球監控,以防止任何潛在威脅出現。但在非霸權世界中,這並非可行方法,且自上而下的防禦機制很容易被強大的AI 顛覆,轉化為攻擊工具。因此,更大的防禦責任需要透過艱苦的努力來實現,從而降低世界的脆弱性。
上述論點僅供推測,不應基於這些論點幾乎確定的假設而採取行動。但《AI 2027 》的故事也具有推測性,我們應避免基於「其具體細節近乎確定」 的假設採取行動。
我尤其擔心一種常見假設:建立一個AI 霸權,確保其「結盟」 並「贏得競賽」,是唯一的前進道路。在我看來,這種策略很可能會降低我們的安全性—— 尤其是在霸權與軍事應用深度綁定的情況下,這會使許多結盟策略的有效性大打折扣。一旦霸權AI 出現偏差,人類將失去所有製衡手段。
在《AI 2027 》場景中,人類的成功取決於美國在關鍵時刻選擇安全而非毀滅之路- 自願放緩AI 進展,確保Agent-5 的內部思考過程可被人類解讀。即便如此,成功也非必然,人類如何擺脫依賴單一超級智慧思維的持續生存懸崖也尚不明朗。無論未來5-10 年AI 如何發展,承認「降低世界脆弱性是可行的」 並投入更多精力,用人類最新技術實現這一目標,都是值得嘗試的道路。
特別感謝Balvi 志工的回饋與審閱。