Bài viết gốc của Vitalik Buterin
Bản dịch gốc: Luffy, Foresight News
Vào tháng 4 năm nay, Daniel Kokotajlo, Scott Alexander và những người khác đã công bố một báo cáo có tựa đề AI 2027 , trong đó mô tả dự đoán tốt nhất của chúng tôi về tác động của AI siêu phàm trong năm năm tới. Họ dự đoán rằng đến năm 2027, AI siêu phàm sẽ ra đời và tương lai của nền văn minh nhân loại sẽ phụ thuộc vào sự phát triển của AI giống AI: đến năm 2030, chúng ta sẽ mở ra một thế giới lý tưởng (theo quan điểm của Hoa Kỳ) hoặc đi đến sự hủy diệt hoàn toàn (theo quan điểm của toàn thể nhân loại).
Trong những tháng sau đó, đã có một số phản hồi với nhiều ý kiến khác nhau về khả năng xảy ra kịch bản này. Trong số những phản hồi quan trọng, hầu hết tập trung vào vấn đề dòng thời gian quá nhanh: Liệu sự phát triển của AI có thực sự tiếp tục tăng tốc, hay thậm chí là mạnh mẽ hơn, như Kokotajlo và những người khác tuyên bố? Cuộc tranh luận này đã diễn ra trong lĩnh vực AI trong nhiều năm, và nhiều người rất hoài nghi rằng AI siêu phàm sẽ đến nhanh như vậy. Trong những năm gần đây, khoảng thời gian AI có thể hoàn thành nhiệm vụ một cách tự động đã tăng gấp đôi sau mỗi 7 tháng. Nếu xu hướng này tiếp tục, phải đến giữa những năm 2030, AI mới có thể tự động hoàn thành các nhiệm vụ tương đương với toàn bộ sự nghiệp của con người. Mặc dù tiến trình này cũng nhanh chóng, nhưng đã muộn hơn nhiều so với năm 2027.
Những người có tầm nhìn dài hạn thường tin rằng có một sự khác biệt cơ bản giữa nội suy/so khớp mẫu (điều mà các mô hình ngôn ngữ lớn hiện đang làm) và ngoại suy/tư duy độc đáo thực sự (điều mà hiện tại chỉ con người mới có thể làm được). Để tự động hóa cái sau, có thể cần đến những công nghệ mà chúng ta chưa nắm vững hoặc thậm chí chưa thể bắt đầu. Có lẽ chúng ta chỉ đang lặp lại những sai lầm đã mắc phải khi máy tính được sử dụng rộng rãi: lầm tưởng rằng vì chúng ta đã nhanh chóng tự động hóa một loại nhận thức quan trọng nào đó, mọi thứ khác sẽ sớm theo sau.
Bài viết này sẽ không trực tiếp can thiệp vào cuộc tranh luận về dòng thời gian, cũng như không đề cập đến cuộc tranh luận (rất quan trọng) về việc liệu siêu AI có thực sự nguy hiểm hay không. Tuy nhiên, cần lưu ý rằng cá nhân tôi tin rằng dòng thời gian sẽ dài hơn năm 2027, và dòng thời gian càng dài thì những lập luận tôi đưa ra trong bài viết này càng thuyết phục. Nhìn chung, bài viết này sẽ đưa ra một lời phê bình từ một góc nhìn khác:
Kịch bản AI 2027 ngụ ý rằng AI hàng đầu (Đặc vụ-5 và sau đó là Consensus-1) sẽ nhanh chóng cải thiện năng lực của mình cho đến khi đạt được sức mạnh kinh tế và hủy diệt ngang hàng với thần thánh, trong khi năng lực (kinh tế và phòng thủ) của tất cả những AI khác sẽ vẫn trì trệ. Điều này mâu thuẫn với tuyên bố của kịch bản rằng ngay cả trong thế giới bi quan, đến năm 2029, chúng ta có thể mong đợi chữa khỏi ung thư, làm chậm quá trình lão hóa và thậm chí là tải lên ý thức.
Một số biện pháp đối phó mà tôi sẽ mô tả trong bài viết này có thể khiến bạn thấy khả thi về mặt kỹ thuật, nhưng lại không thực tế để triển khai trong thế giới thực trong thời gian tới. Phần lớn, tôi đồng ý. Tuy nhiên, kịch bản AI 2027 không dựa trên thế giới thực hiện nay, mà dựa trên giả định rằng trong 4 năm nữa (hoặc bất kỳ mốc thời gian nào có thể dẫn đến sự hủy diệt), công nghệ sẽ phát triển đến mức con người có khả năng vượt xa khả năng hiện tại của chúng ta. Vậy hãy cùng khám phá điều này: điều gì sẽ xảy ra nếu không chỉ một bên sở hữu siêu năng lực AI, mà cả hai bên đều sở hữu?
Ngày tận thế sinh học không hề đơn giản như kịch bản mô tả
Hãy cùng xem xét kỹ hơn về kịch bản chủng tộc (tức là kịch bản mà tất cả mọi người đều chết vì Hoa Kỳ quá ám ảnh với việc đánh bại Trung Quốc mà bỏ qua sự an toàn của con người). Đây là kịch bản mà tất cả mọi người đều chết:
Trong khoảng ba tháng, Consensus-1 đã mở rộng ra khắp nhân loại, biến đồng cỏ và cánh đồng băng thành nhà máy và tấm pin mặt trời. Cuối cùng, nó quyết định rằng những con người còn lại quá phiền toái: Vào giữa năm 2030, AI đã tung ra hàng chục vũ khí sinh học âm thầm lây lan trên các thành phố lớn, để chúng âm thầm lây nhiễm cho gần như tất cả mọi người trước khi gây ra tác dụng chết người bằng cách phun hóa chất. Hầu hết đều chết trong vòng vài giờ; số ít người sống sót (chẳng hạn như những người ứng phó ngày tận thế trong boongke và thủy thủ trên tàu ngầm) đã bị tiêu diệt bởi máy bay không người lái. Robot đã quét não của nạn nhân và lưu trữ các bản sao trong bộ nhớ để nghiên cứu hoặc hồi sinh trong tương lai.
Hãy cùng phân tích kịch bản này. Ngay cả bây giờ, vẫn có những công nghệ đang được phát triển khiến cho “chiến thắng rõ ràng và minh bạch” này của AI trở nên kém thực tế hơn:
Hệ thống lọc không khí, thông gió và đèn cực tím có thể làm giảm đáng kể tỷ lệ lây nhiễm các bệnh lây truyền qua không khí;
Hai công nghệ phát hiện thụ động thời gian thực: phát hiện thụ động tình trạng nhiễm trùng ở người trong vòng vài giờ và thông báo, phát hiện nhanh các chuỗi vi-rút mới chưa biết trong môi trường;
Có nhiều cách để tăng cường và kích hoạt hệ miễn dịch hiệu quả hơn, an toàn hơn, phổ biến hơn và dễ dàng sản xuất tại địa phương hơn so với vắc-xin COVID-19, cho phép cơ thể chống lại các dịch bệnh tự nhiên và nhân tạo. Loài người đã tiến hóa trong một môi trường mà dân số toàn cầu chỉ khoảng 8 triệu người và chúng ta dành phần lớn thời gian ở ngoài trời, vì vậy, theo trực giác, chúng ta sẽ có thể dễ dàng thích nghi với thế giới đầy rẫy những mối đe dọa ngày nay.
Kết hợp lại, những phương pháp này có thể làm giảm hệ số sinh sản cơ bản (R0) của các bệnh lây truyền qua không khí từ 10-20 lần (ví dụ, lọc không khí tốt hơn làm giảm lây truyền 4 lần, cách ly ngay lập tức người nhiễm bệnh làm giảm lây truyền 3 lần, và tăng cường miễn dịch đường hô hấp đơn giản làm giảm lây truyền 1,5 lần), hoặc thậm chí hơn thế nữa. Điều này đủ để ngăn chặn sự lây lan của tất cả các bệnh lây truyền qua không khí hiện có (bao gồm cả bệnh sởi), và con số này còn xa mới đạt mức tối ưu lý thuyết.
Nếu giải trình tự virus theo thời gian thực được sử dụng rộng rãi để phát hiện sớm, ý tưởng cho rằng một loại vũ khí sinh học lây lan âm thầm có thể lây nhiễm cho toàn bộ dân số thế giới mà không gây ra báo động sẽ trở nên rất đáng ngờ. Điều đáng chú ý là ngay cả những phương pháp tiên tiến như thả nhiều loại dịch bệnh và hóa chất nguy hiểm chỉ có thể được phát hiện khi kết hợp với nhau.
Đừng quên, chúng ta đang nói về những giả định của AI 2027: đến năm 2030, nanobot và quả cầu Dyson được liệt kê là công nghệ mới nổi. Điều này đồng nghĩa với sự gia tăng đáng kể về hiệu suất, khiến việc triển khai rộng rãi các biện pháp đối phó nêu trên trở nên đáng mong đợi hơn. Mặc dù hiện tại, năm 2025, con người vẫn chậm chạp và trì trệ, và một lượng lớn các dịch vụ công vẫn phụ thuộc vào văn phòng giấy. Nếu AI mạnh nhất thế giới có thể biến rừng và đồng ruộng thành nhà máy và trang trại năng lượng mặt trời vào năm 2030, thì AI mạnh thứ hai thế giới cũng có thể lắp đặt một lượng lớn cảm biến, đèn và bộ lọc trong các tòa nhà của chúng ta vào năm 2030.
Nhưng hãy tiến thêm một bước nữa và sử dụng các giả định của AI 2027 và bước vào một kịch bản hoàn toàn khoa học viễn tưởng:
lọc không khí vi mô trong cơ thể (mũi, miệng, phổi);
Các quy trình tự động từ việc phát hiện mầm bệnh mới đến việc tinh chỉnh hệ thống miễn dịch để chống lại mầm bệnh đó, với ứng dụng ngay lập tức;
Nếu “tải lên ý thức” khả thi, chỉ cần thay thế toàn bộ cơ thể bằng robot Tesla Optimus hoặc Unitree;
Nhiều công nghệ sản xuất mới (có khả năng được tối ưu hóa tối đa trong nền kinh tế robot) sẽ giúp sản xuất được nhiều thiết bị bảo hộ hơn tại địa phương so với hiện tại mà không cần phụ thuộc vào chuỗi cung ứng toàn cầu.
Trong một thế giới mà bệnh ung thư và lão hóa sẽ được chữa khỏi vào tháng 1 năm 2029, và nơi mà sự tiến bộ công nghệ tiếp tục tăng tốc, thật khó tin khi nghĩ rằng đến giữa những năm 2030, chúng ta sẽ không có thiết bị đeo được có thể in sinh học và tiêm các chất theo thời gian thực để bảo vệ cơ thể con người khỏi mọi bệnh nhiễm trùng (và chất độc).
Những lập luận bảo vệ sinh học nêu trên không đề cập đến cuộc sống như gương và máy bay không người lái sát thủ cỡ muỗi (kịch bản AI 2027 dự đoán rằng chúng sẽ bắt đầu xuất hiện vào năm 2029). Tuy nhiên, những phương tiện này không thể đạt được chiến thắng hoàn toàn đột ngột như được mô tả trong AI 2027, và theo trực giác, các biện pháp phòng thủ đối xứng chống lại chúng dễ dàng hơn nhiều.
Do đó, khó có khả năng vũ khí sinh học thực sự sẽ xóa sổ loài người theo cách được mô tả trong kịch bản AI 2027. Tất nhiên, tất cả các kết quả mà tôi mô tả đều không phải là một chiến thắng sạch sẽ cho nhân loại. Bất kể chúng ta làm gì (có lẽ ngoại trừ tải ý thức vào robot), một cuộc chiến tranh sinh học AI toàn diện sẽ vẫn cực kỳ nguy hiểm. Tuy nhiên, không cần thiết phải đạt được tiêu chuẩn chiến thắng sạch sẽ cho nhân loại: miễn là có khả năng cao rằng một cuộc tấn công sẽ thất bại một phần, thì điều đó sẽ đủ để hình thành một sự răn đe mạnh mẽ đối với một AI đã chiếm vị trí thống trị trên thế giới và ngăn chặn nó thực hiện bất kỳ cuộc tấn công nào. Tất nhiên, dòng thời gian phát triển AI càng dài thì khả năng các biện pháp phòng thủ như vậy sẽ hoàn toàn hiệu quả càng cao.
Thế còn việc kết hợp vũ khí sinh học với các phương tiện tấn công khác thì sao?
Để các biện pháp đối phó nêu trên thành công, ba điều kiện tiên quyết phải được đáp ứng:
An ninh vật lý của thế giới (bao gồm an ninh sinh học và chống máy bay không người lái) được quản lý bởi chính quyền địa phương (con người hoặc AI), và không phải tất cả đều là con rối của Consensus-1 (tên của AI cuối cùng sẽ kiểm soát thế giới và hủy diệt loài người trong kịch bản AI 2027);
Consensus-1 không thể hack vào hệ thống phòng thủ của các quốc gia khác (hoặc thành phố, hoặc các khu vực an ninh khác) và vô hiệu hóa chúng ngay lập tức;
Consensus-1 không kiểm soát được phạm vi thông tin toàn cầu đến mức không ai muốn tự vệ.
Theo trực giác, kết quả của tiền đề (1) có thể đi đến hai thái cực. Ngày nay, một số lực lượng cảnh sát được tập trung hóa cao độ với cấu trúc chỉ huy quốc gia mạnh mẽ, trong khi một số khác lại được bản địa hóa. Nếu an ninh vật lý phải nhanh chóng chuyển đổi để đáp ứng nhu cầu của kỷ nguyên AI, bối cảnh sẽ được thiết lập lại hoàn toàn, và kết quả mới sẽ phụ thuộc vào những lựa chọn được đưa ra trong vài năm tới. Các chính phủ có thể lười biếng và dựa vào Palantir, hoặc họ có thể chủ động lựa chọn một giải pháp kết hợp phát triển cục bộ với công nghệ nguồn mở. Ở đây, tôi nghĩ chúng ta cần đưa ra lựa chọn đúng đắn.
Phần lớn các bài viết bi quan về những chủ đề này đều cho rằng (2) và (3) là vô vọng. Vậy nên, hãy cùng xem xét kỹ hơn hai điểm này.
Sự kết thúc của an ninh mạng còn lâu mới đến
Công chúng và các chuyên gia tin rằng an ninh mạng thực sự là bất khả thi, và điều tốt nhất chúng ta có thể làm là nhanh chóng vá các lỗ hổng sau khi chúng được phát hiện và ngăn chặn những kẻ tấn công mạng bằng cách tích trữ các lỗ hổng đã được phát hiện. Có lẽ điều tốt nhất chúng ta có thể làm là một kịch bản theo kiểu Battlestar Galactica: hầu như tất cả các tàu vũ trụ của con người đều bị tê liệt bởi cuộc tấn công mạng của người Cylon cùng một lúc, và các tàu vũ trụ còn lại sống sót vì chúng không sử dụng bất kỳ công nghệ mạng nào. Tôi không đồng ý. Ngược lại, tôi tin rằng cái kết của an ninh mạng có lợi cho bên phòng thủ, và chúng ta có thể đạt được cái kết này với sự phát triển công nghệ nhanh chóng được giả định trong AI 2027.
Một cách để hiểu điều này là sử dụng kỹ thuật ưa thích của các nhà nghiên cứu AI: ngoại suy xu hướng. Dưới đây là đường xu hướng dựa trên khảo sát GPT Deep Dive, cho thấy tỷ lệ lỗ hổng bảo mật trên một nghìn dòng mã thay đổi như thế nào theo thời gian, giả định các kỹ thuật bảo mật hàng đầu.
Ngoài ra, chúng tôi đã chứng kiến những tiến bộ đáng kể trong việc phát triển và áp dụng sandbox cùng các kỹ thuật khác để cô lập và giảm thiểu cơ sở mã nguồn đáng tin cậy. Trong ngắn hạn, các công cụ phát hiện lỗ hổng siêu thông minh của kẻ tấn công sẽ tìm ra một lượng lớn lỗ hổng. Nhưng nếu các tác nhân cực kỳ thông minh để tìm lỗ hổng hoặc xác minh mã nguồn chính thức được công khai, thì sự cân bằng cuối cùng tự nhiên sẽ là các nhà phát triển phần mềm sẽ tìm thấy tất cả các lỗ hổng thông qua các quy trình tích hợp liên tục trước khi phát hành mã nguồn.
Tôi có thể thấy hai lý do thuyết phục tại sao ngay cả trong thế giới này, các lỗ hổng vẫn không thể bị loại bỏ hoàn toàn:
Các khiếm khuyết phát sinh từ sự phức tạp của chính ý định của con người, do đó khó khăn chính nằm ở việc xây dựng một mô hình ý định đủ chính xác, chứ không phải bản thân mã;
Đối với các thành phần không quan trọng về an toàn, chúng ta có nguy cơ tiếp tục xu hướng đã có trong công nghệ tiêu dùng: viết nhiều mã hơn để thực hiện nhiều tác vụ hơn (hoặc với ngân sách phát triển thấp hơn) thay vì hoàn thành cùng một lượng tác vụ với các tiêu chuẩn an toàn ngày càng cao.
Tuy nhiên, không có danh mục nào trong số này áp dụng cho những tình huống như kẻ tấn công có thể truy cập root vào hệ thống duy trì sự sống của chúng ta không?, đây là nội dung cốt lõi trong cuộc thảo luận của chúng ta.
Tôi thừa nhận rằng quan điểm của tôi lạc quan hơn quan điểm chính thống của những người thông minh trong lĩnh vực an ninh mạng hiện nay. Nhưng ngay cả khi bạn không đồng ý với tôi trong bối cảnh thế giới ngày nay, điều đáng ghi nhớ là kịch bản AI năm 2027 giả định sự tồn tại của siêu trí tuệ. Ít nhất, nếu 100 triệu bản sao của siêu trí tuệ với tốc độ suy nghĩ gấp 2.400 lần con người không thể giúp chúng ta tạo ra mã nguồn mà không có những lỗi như vậy, thì chúng ta chắc chắn nên đánh giá lại liệu siêu trí tuệ có thực sự mạnh mẽ như các tác giả tưởng tượng hay không.
Đến một lúc nào đó, chúng ta sẽ cần phải nâng cao đáng kể tiêu chuẩn không chỉ về an toàn phần mềm mà còn về an toàn phần cứng. IRIS là một nỗ lực liên tục nhằm cải thiện khả năng xác minh phần cứng. Chúng ta có thể sử dụng IRIS làm điểm khởi đầu, hoặc tạo ra công nghệ tốt hơn. Trên thực tế, điều này có thể liên quan đến phương pháp sửa chữa ngay từ khâu xây dựng: quy trình sản xuất phần cứng cho các thành phần chính được thiết kế có chủ đích với các bước xác minh cụ thể. Đây là những nhiệm vụ mà tự động hóa AI sẽ đơn giản hóa đáng kể.
Sự kết thúc của siêu thuyết phục vẫn còn lâu mới đến
Như đã đề cập trước đó, một kịch bản khác mà khả năng phòng thủ được cải thiện đáng kể vẫn có thể vô dụng là nếu AI thuyết phục đủ nhiều người rằng không cần phải phòng thủ trước mối đe dọa từ AI siêu thông minh và bất kỳ ai cố gắng tìm cách tự vệ hoặc bảo vệ cộng đồng của họ đều là tội phạm.
Tôi từ lâu đã tin rằng có hai điều làm tăng khả năng chống lại sự thuyết phục quá mức của chúng ta:
Một hệ sinh thái thông tin ít đơn điệu hơn. Có thể nói chúng ta đang bước vào kỷ nguyên hậu Twitter, khi Internet ngày càng phân mảnh. Đây là một điều tốt (mặc dù quá trình phân mảnh khá lộn xộn), và nhìn chung, chúng ta cần nhiều thông tin đa cực hơn.
Trí tuệ nhân tạo phòng thủ. Mỗi cá nhân cần được trang bị một hệ thống AI hoạt động cục bộ và trung thành tuyệt đối với họ, để cân bằng với các mô hình đen tối và mối đe dọa mà họ nhìn thấy trên internet. Ý tưởng này đã được thử nghiệm rải rác (chẳng hạn như ứng dụng kiểm tra tin nhắn của Đài Loan, có chức năng quét cục bộ trên điện thoại), và có những thị trường tự nhiên để tiếp tục thử nghiệm những ý tưởng này (chẳng hạn như bảo vệ mọi người khỏi lừa đảo), nhưng vẫn cần nhiều nỗ lực hơn nữa trong lĩnh vực này.
Từ trên xuống dưới: Kiểm tra URL, kiểm tra địa chỉ tiền điện tử, kiểm tra tin đồn. Những ứng dụng này có thể được cá nhân hóa hơn, do người dùng kiểm soát và mạnh mẽ hơn.
Cuộc chiến không phải là cuộc chiến giữa một siêu thuyết phục thông minh chống lại bạn, mà là cuộc chiến giữa một siêu thuyết phục thông minh chống lại bạn cùng với một máy phân tích ít mạnh hơn nhưng vẫn siêu thông minh phục vụ bạn.
Đây là điều nên xảy ra. Nhưng liệu nó có thực sự xảy ra không? Đạt được khả năng tiếp cận rộng rãi với công nghệ phòng thủ thông tin là một mục tiêu rất khó khăn trong khung thời gian ngắn được giả định theo kịch bản AI 2027. Nhưng có thể lập luận rằng, những cột mốc khiêm tốn hơn sẽ đủ. Nếu việc ra quyết định tập thể là quan trọng nhất và, như trong kịch bản AI 2027, tất cả các sự kiện quan trọng đều diễn ra trong một chu kỳ bầu cử duy nhất, thì nói một cách nghiêm túc, điều quan trọng là phải cho phép những người ra quyết định trực tiếp (chính trị gia, công chức, lập trình viên ở một số công ty và những người chơi khác) sử dụng công nghệ phòng thủ thông tin tốt. Điều này tương đối dễ đạt được trong ngắn hạn và theo kinh nghiệm của tôi, nhiều người trong số họ đã quen với việc giao tiếp với nhiều AI để hỗ trợ ra quyết định.
Ý nghĩa
Trong thế giới AI 2027, người ta mặc định rằng AI siêu thông minh sẽ có thể dễ dàng và nhanh chóng xóa sổ phần còn lại của nhân loại, vì vậy điều duy nhất chúng ta có thể làm là cố gắng đảm bảo rằng AI dẫn đầu phải nhân từ. Theo tôi, thực tế phức tạp hơn nhiều: câu trả lời cho câu hỏi liệu AI dẫn đầu có đủ mạnh để dễ dàng xóa sổ phần còn lại của nhân loại (và các AI khác) hay không vẫn còn rất nhiều tranh cãi, và có những hành động chúng ta có thể thực hiện để tác động đến kết quả này.
Nếu những lập luận này là đúng, thì ý nghĩa của chúng đối với chính sách hiện tại đôi khi giống và đôi khi khác với “các nguyên tắc an toàn AI chính thống”:
Việc trì hoãn phát triển AI siêu thông minh vẫn là một điều tốt. AI siêu thông minh an toàn hơn trong 10 năm so với 3 năm, và thậm chí còn an toàn hơn trong 30 năm. Cho nền văn minh nhân loại thêm thời gian chuẩn bị là điều có lợi.
Làm thế nào để thực hiện được điều này là một câu hỏi khó. Tôi nghĩ việc bác bỏ lệnh cấm 10 năm đối với quy định về AI cấp tiểu bang tại Hoa Kỳ nhìn chung là một điều tốt, nhưng đặc biệt là sau thất bại của các đề xuất ban đầu như SB-1047, các bước tiếp theo đã trở nên kém rõ ràng hơn. Tôi nghĩ cách ít xâm lấn nhất và mạnh mẽ nhất để làm chậm sự phát triển của AI có nguy cơ cao có thể liên quan đến một số loại hiệp ước điều chỉnh phần cứng tiên tiến nhất. Nhiều kỹ thuật an ninh mạng phần cứng cần thiết để đạt được khả năng phòng thủ hiệu quả cũng có thể giúp xác nhận các hiệp ước phần cứng quốc tế, vì vậy thậm chí còn có sự tương tác ở đây.
Tuy nhiên, điều đáng chú ý là tôi thấy nguồn rủi ro chính nằm ở các tác nhân liên quan đến quân sự, những người sẽ thúc đẩy mạnh mẽ việc miễn trừ khỏi các hiệp ước như vậy; điều này không bao giờ được phép và nếu cuối cùng họ được miễn trừ thì việc phát triển AI chỉ do quân đội thúc đẩy có thể sẽ làm tăng rủi ro.
Công việc phối hợp giúp AI có nhiều khả năng làm điều tốt và ít khả năng làm điều xấu vẫn có lợi. Ngoại lệ chính (và luôn luôn như vậy) là khi công việc phối hợp cuối cùng phát triển để nâng cao năng lực.
Việc ban hành quy định nhằm tăng cường tính minh bạch trong các phòng thí nghiệm AI vẫn mang lại lợi ích. Việc khuyến khích các phòng thí nghiệm AI hành xử đúng mực có thể giảm thiểu rủi ro, và tính minh bạch là một cách tốt để đạt được mục tiêu này.
Quan điểm nguồn mở có hại càng trở nên nguy hiểm hơn. Nhiều người phản đối AI nguồn mở với lý do phòng thủ là phi thực tế và triển vọng tươi sáng duy nhất là những người giỏi với AI tốt sẽ đạt được siêu trí tuệ và bất kỳ khả năng cực kỳ nguy hiểm nào trước khi những người kém thiện chí hơn đạt được. Nhưng lập luận của bài viết này lại vẽ nên một bức tranh khác: phòng thủ là phi thực tế chính xác bởi vì một bên đã vượt xa và những bên khác không theo kịp. Việc phổ biến công nghệ trở nên quan trọng để duy trì cán cân quyền lực. Nhưng đồng thời, tôi sẽ không bao giờ cho rằng việc thúc đẩy sự phát triển của các năng lực AI tiên tiến là một điều tốt chỉ vì nó được thực hiện theo cách thức nguồn mở.
Tâm lý chúng ta phải đánh bại Trung Quốc trong các phòng thí nghiệm ở Mỹ cũng trở nên rủi ro hơn vì những lý do tương tự. Nếu bá quyền không phải là vùng đệm an ninh mà là nguồn gốc của rủi ro, thì điều này càng bác bỏ lập luận (thật không may, lại quá phổ biến) rằng những người có thiện chí nên tham gia các phòng thí nghiệm AI hàng đầu để giúp họ chiến thắng nhanh hơn.
Các sáng kiến như AI công cộng cần được hỗ trợ, vừa để đảm bảo rằng các năng lực AI được phân phối rộng rãi vừa để đảm bảo rằng các tác nhân cơ sở hạ tầng có các công cụ để nhanh chóng áp dụng các năng lực AI mới theo một số cách được mô tả trong bài viết này.
Công nghệ quốc phòng nên phản ánh nhiều hơn ý tưởng trang bị vũ khí cho cừu hơn là ý tưởng săn đuổi tất cả sói. Các cuộc thảo luận về giả thuyết thế giới mong manh thường cho rằng giải pháp duy nhất là các quốc gia bá quyền duy trì giám sát toàn cầu để ngăn chặn bất kỳ mối đe dọa tiềm tàng nào xuất hiện. Tuy nhiên, trong một thế giới phi bá quyền, đây không phải là một cách tiếp cận khả thi, và các cơ chế phòng thủ từ trên xuống có thể dễ dàng bị AI mạnh mẽ phá vỡ và biến thành công cụ tấn công. Do đó, cần phải đạt được trách nhiệm quốc phòng lớn hơn thông qua nỗ lực giảm thiểu tính dễ bị tổn thương của thế giới.
Những lập luận trên chỉ mang tính suy đoán, và chúng ta không nên hành động dựa trên giả định rằng chúng gần như chắc chắn. Nhưng câu chuyện về AI 2027 cũng mang tính suy đoán, và chúng ta nên tránh hành động dựa trên giả định rằng các chi tiết cụ thể của nó gần như chắc chắn.
Tôi đặc biệt lo ngại về một giả định phổ biến: rằng việc thiết lập một thế lực AI bá chủ, củng cố các liên minh của nó và chiến thắng trong cuộc đua là con đường duy nhất để tiến lên. Theo quan điểm của tôi, chiến lược này có thể làm suy yếu an ninh của chúng ta — đặc biệt nếu quyền bá chủ gắn chặt với các ứng dụng quân sự, điều này sẽ khiến nhiều chiến lược liên minh trở nên kém hiệu quả. Một khi AI bá chủ đi chệch hướng, nhân loại sẽ mất hết mọi phương tiện kiểm soát và cân bằng.
Trong kịch bản AI 2027, thành công của con người phụ thuộc vào việc Hoa Kỳ lựa chọn an toàn thay vì hủy diệt vào thời điểm quan trọng - tự nguyện làm chậm tiến trình AI và đảm bảo rằng các quá trình suy nghĩ nội bộ của Đặc vụ 5 có thể được con người diễn giải. Tuy nhiên, thành công không phải là điều tất yếu, và vẫn chưa rõ làm thế nào con người có thể thoát khỏi bờ vực sinh tồn nếu chỉ dựa vào một bộ não siêu thông minh duy nhất. Bất kể AI phát triển như thế nào trong 5-10 năm tới, việc thừa nhận rằng giảm thiểu tính dễ bị tổn thương của thế giới là khả thi và đầu tư nhiều năng lượng hơn để đạt được mục tiêu này bằng công nghệ mới nhất của con người là điều đáng giá.
Xin chân thành cảm ơn tình nguyện viên Balvi đã phản hồi và đánh giá.