
「9.11 和 9.8,哪個數字比較大?」一直到不久前,大部分的 AI 都會答錯這個題目,也因此引來不少人嘲笑 AI 連基本的數學都不會,要統治人類似乎還早得很。即使到今天(2025 年 4 月),Google 的搜尋引擎還是答錯了這個題目。
那麼,各位有想過這是為什麼嗎?為什麼 AI 已經這麼進步,卻連這麼簡單的小學數學問題都會答錯?是因為電腦的運作方式先天就跟人類不一樣、所以造成如此荒謬的結果嗎?
答案正好相反。
正是因為現在的 AI 是奠基於模仿人類大腦神經元的運作方式來訓練,跟人類很像,所以造成了這個結果。
AI 對數字的「理解」方式,本質上是將數字視為另一種形式的「文本」,而非真正理解數字的數學含義。想象一下,當 AI 看到「7428」這個數字時,它並非以數學實體來處理,而是像看到「貓」這個字一樣,只是當成一個文字來處理。
所以,當你問 AI「9.11 和 9.8 哪個數字比較大?」時,它必須依賴從訓練資料中學到的模式來回答,而不是執行確定性的大小比較演算法。這就像是一個死記硬背的學生,完全沒學過數學,卻試圖用「記住宇宙中所有可能的數字比較結果」來解題,而不是學習「比較大小」的基本規則。所以,如果我們從未學習過任何數學規則,我們同樣會不知道怎麼回答這個問題而亂答一通,有時候對,有時候錯。
AI 運作的方式大致上是在尋找「看過的模式」,而不是遵循「特定的規則」。
在訓練類神經網路的過程中,我們並沒有明確教導 AI 任何「規則」,無論是玩遊戲的規則、價值觀判斷的規則、或是數學比大小的規則,通通都沒有。
訓練完 AI 之後,我們只是單純地把 AI 展現出我們意想不到的能力稱為「湧現」,例如發現 AI 經由大量的資料訓練之後,自己就可以把文字接龍做得很好,寫的文字堪比人類。
所以,AI 常常會犯一些奇怪的錯誤,而且我們難以預期它什麼時候會犯錯,這個現象我們稱為「幻覺」。AI 並不知道什麼是對,什麼是錯,因為我們從來沒有教過 AI 這件事情。
這就是 AI 研究領域當中著名的「對齊問題(alignment problem)」,AI 並不會總是按照人類想要的規則和價值觀去做事情,AI 本來就沒有內建這些東西。於是就形成了一個弔詭的現象:AI 經過訓練後的各項(聽說讀寫)基本能力很厲害,但是它卻不懂任何正式的規則。
不過,如果你仔細想一想,就會發現人類不是一模一樣嗎?剛剛出生的時候,我們的腦袋中並沒有內建任何規則,但卻具備了強大的學習能力,在沒有任何人教導的情況之下,就能夠用自己的方式去理解世界。
而那些所謂的「規則」,其實都是人為的產物,是人類為了維持社會穩定運作而制定出來的,每個人都需要刻意學習這些人類社會的規則,才能夠在這個社會生存。
「規則」是需要另外學習的,這就是現代的 AI 跟人類非常類似的地方。
透過傳統類神經網路訓練後的 AI,就跟一個剛剛出生的小孩一樣。稍微不同的是,它的腦袋中已經塞滿了人類至今為止累積的所有資訊和模式,但是它不知道應該要將什麼規則套用在這些資訊和模式上,也不知道這些資訊和模式的意義是什麼。
無論被問到什麼問題,AI 唯一能做的,就是把自己腦中有的東西,想辦法組合出最有可能且曾經看過的「模式」當做回答。所以有的時候組合出來的回答看似正確,實際上卻是這邊錯一點、那邊錯一點。
因此,教導 AI 我們想要灌輸給它的規則,就成了這個「對齊問題」,是一個相當困難的技術問題。如果你是一位家長,你自己想想我們光是要教會小朋友比較兩個數字的大小(整數、小數、分數、實數、有理數、無理數 …),就要花掉多少時間了。
如果人類真的能攻克對齊問題,其重大的意義不只在於讓 AI 不會暴走而已,而是讓 AI 學會規則之後,在面對未知沒有看過的複雜情境之下,也能做出很好的判斷和決定,讓 AI 真正接近 AI 界的聖杯:通用型人工智慧(Artificial General Intelligence, AGI)。
而最近,AI 科學家有了關鍵突破:讓 AI 學會什麼叫做「演算法」,並且嚴格遵守演算法指定的步驟和規則一步一步進行操作,將演算法成功應用在自己沒有看過的問題上面。以下就跟讀者科普這個關鍵的突破。
AI 人工智慧與類神經網路
AI 的目的是讓電腦變得「聰明」,使其能夠執行通常需要人類智慧的任務。這不僅僅是關於單純的計算而已;還包括理解口語(如 Alexa 或 Siri)、辨識照片中的物體、做出複雜決策(如規劃物流)、從經驗中學習,甚至創作藝術或音樂。最終目標是打造出能夠像人類一樣感知、推理、學習和解決問題的機器,有時甚至做得更好。
推動這場 AI 革命的最強大、最受關注的工具之一是類神經網路 (Neural Networks)。它們的靈感大致來自於人腦的結構。想像一個由相互連結的「神經元」(簡單的處理單元)組成的龐大網路。這些神經元分層組織,彼此傳遞訊號,就像我們大腦中的神經元進行交流一樣。
當神經網路「學習」時,它會看到大量的範例(有時是數百萬甚至數十億個)。對於每個範例,這個類神經網路會做出猜測。如果猜對了(例如正確識別圖片中包含「貓」),導致正確答案的神經元之間的連結就會稍微加強。如果猜錯了,這些連結就會被削弱,並調整其它連結讓整個類神經網路下次更接近正確答案。
想像一個剛開始學彈鋼琴的小孩。一開始,他彈錯了很多音符,每次彈錯,老師就指出錯誤,讓他調整。漸漸地,彈對音符的神經路徑被強化,彈錯的被削弱。經過數千次練習後,他不需要思考就能流暢地彈奏。
類神經網路的學習過程也是類似的適應性調整過程。透過這個反覆進行無數次的試錯過程,類神經網路逐漸學會辨識複雜的模式,並對其訓練所用的特定類型資料做出準確的預測。於是它在那個狹窄的領域成為了專家。
分佈外泛化:人工智慧的核心挑戰
但這裡有一個關鍵的限制,也是科學家們正在努力克服的主要障礙。當 AI 遇到全新的事物,也就是超出其訓練經驗範圍的東西時,會發生什麼?這就是分佈外 (Out-of-Distribution, OOD) 泛化的挑戰。
「分佈」指的是訓練資料整體統計起來的樣貌,AI 從中學習。OOD 意味著踏出那個熟悉的樣貌。用一個簡單的比喻來思考:想像一下,你只給 AI 看貓的照片來訓練它,具體來說,是數千張橘色虎斑貓和暹羅貓在室內閒逛的照片。它可能會在辨識這兩種在舒適家庭環境中的貓方面變得非常準確。但是,當你給它看一張黑貓晚上爬樹的照片,或者一隻毛茸茸的波斯貓在雪地裡玩的照片時,會發生什麼事情?
以上都是 OOD 範例,不同的品種、不同的環境、不同的光線。AI 因為沒有看過這些東西,可能會感到困惑、錯誤識別貓,或者乾脆說「我不知道」。
這就像一個從未離開過熱帶雨林的人,突然被帶到北極圈。他可能精通辨認熱帶水果和動物,但面對冰川、極光和北極熊時,他的經驗完全派不上用場。他的「熱帶世界模型」無法外推到這個全新的寒冷環境。
這不僅僅是一個理論問題;它具有巨大的現實後果。考慮以下情境:
一個主要使用某家醫院資料訓練的醫療診斷 AI,在用於來自不同人口統計或地理區域的患者時,表現可能會很差(OOD 人口)。例如,若一個系統在美國東部醫院的資料上訓練,它可能無法準確診斷生活在亞洲山區,有不同飲食習慣、環境暴露和基因背景的患者的疾病。
一個使用多年穩定市場條件下的資料訓練的金融模型,在突發的經濟崩潰期間可能會做出災難性的預測(OOD 事件)。就像一個只在晴天學習開車的駕駛,遇到暴風雨時可能完全不知所措。
一輛在陽光明媚、天氣晴朗的條件下接受過廣泛訓練的自動駕駛汽車,在首次遇到濃霧、暴雨或結冰路面時,可能會陷入危險的困境(OOD 條件)。這就像一個僅在平坦道路上訓練過的單車手,突然被要求在陡峭的山地小徑上騎行。
要讓 AI 在我們複雜多變的世界中真正有用、安全和可靠,它必須能夠「泛化」其知識,正確地處理超出其訓練資料範圍的情況。
解決 OOD 問題對於建立值得信賴的 AI 至關重要。
圖形問題:為什麼互連資料對 AI 格外棘手
當我們處理以圖形 (Graphs) 結構化的資料時,OOD 的挑戰變得更加明顯。現在,當電腦科學家談論圖形時,他們指的不是長條圖或圓餅圖。在這種情況下,圖形是一種用於表示物件之間關係的數學結構。它由以下部分組成:
- 節點 (Nodes)(也稱為頂點 Vertices):這些代表個別的物件或實體。
- 邊 (Edges):這些是連結節點的線,代表它們之間的關係或連結。
想想熟悉的例子:
- 社交網路:人是節點,邊代表友誼、追蹤或聯繫。想像 Facebook,每個用戶都是一個節點,好友關係就是連結這些節點的邊。
- 道路地圖:城市或交叉路口是節點,道路是邊,也許帶有表示距離或旅行時間的權重。例如,在 Google 地圖中,每個十字路口是一個節點,連接的道路是邊,邊上標記著行駛時間或距離。
- 網際網路:網站或路由器是節點,超連結或網路電纜是邊。Wikipedia 的網頁就像節點,頁面間的連結就是邊。
- 分子結構:原子是節點,化學鍵是邊。水分子(H₂O)有三個節點(一個氧原子和兩個氫原子)和兩條邊(兩個氫-氧鍵)。
- 蛋白質交互作用:蛋白質是節點,它們之間的交互作用是邊。這就像細胞中的分子社交網路,某些蛋白質相互「認識」並定期「交談」,共同完成細胞功能。
圖形無處不在,描述著科學、技術和社會中的複雜系統。但它們給 AI 帶來了獨特的挑戰。與通常具有固定大小(如 100×100 像素)的圖像或遵循語法規則的句子不同,圖形的大小(從幾個節點到數十億個)、結構(有些稀疏,有些密集連結)和複雜性可能差異很大。
想像你要求一個只見過小村莊地圖的 AI 系統來為整個紐約市規劃公共交通,這就像讓一個只在小池塘游過泳的人去航行穿越太平洋。規模和複雜性的差距太大了,使得簡單的模式無法擴展。
圖神經網路 (Graph Neural Networks, GNNs) 是一種專門設計用於學習這種互連圖形資料的特殊 AI 架構。標準的神經網路可能會孤立地看待每個節點。但 GNN 更聰明;它會查看節點的特徵以及其鄰居的特徵,以及鄰居的鄰居等等。它聚合整個網路結構的資訊,使其能夠理解每個節點在更大系統中的上下文和角色。
這就像不僅透過個人特徵來了解一個人的影響力,還要分析其整個朋友、同事和聯繫網路。例如,iKala 的 Kolr 在分析一個人的社交影響力時,不只看某個用戶的粉絲數量,還會考慮這個用戶與其他重要用戶的連結程度、他們發布內容的互動情況,以及他們在整個網絡中的結構位置。就像判斷一個人的社會影響力不僅看他認識多少人,還要看他認識「什麼樣」的人以及這些人之間的關係。
GNN 的工作方式是透過「訊息傳遞」(Message Passing) 機制:
- 初始狀態:每個節點開始時有關於自身的一些資訊
- 訊息傳遞:節點向其鄰居發送「訊息」
- 資訊更新:節點根據收到的訊息更新其資訊
- 重複:這個過程會多次發生
- 輸出:經過幾輪後,節點已經從整個圖中收集了資訊
想像一個網路謠言如何傳播:最初,一個人擁有某個訊息(初始狀態)。他告訴所有朋友(訊息傳遞)。每個朋友將這個訊息與他們已知的其他訊息結合(資訊更新)。然後他們繼續告訴他們的朋友(重複過程)。幾輪後,訊息已經以某種形式傳遍整個社交網絡,每個人都擁有經過社區「處理」的版本。GNN 中的訊息傳遞過程就類似於這種社交訊息流動,只是它是為了學習而設計的數學版本。
規模泛化問題:類神經網路的固有限制
GNN 已經展現出巨大的潛力,但它們常常在 OOD 問題上表現不佳,尤其是在圖形的大小和結構方面。想像一下,使用小型、簡單村莊的地圖(其訓練分佈)來訓練 GNN 尋找最高效的送貨路線。它可能會學到一些在那些村莊內運作良好的基本模式。但是,接著你要求它為像倫敦或東京這樣龐大、雜亂、複雜的城市規劃路線,這是一個比它見過的任何東西都大得多、結構也截然不同的圖形(OOD 圖形)。通常,這些在小型圖形上訓練的 GNN 就會完全失敗。它沒有學會能夠擴展的高效路由的基本原則。它難以推斷其有限的知識。
這就像一個只在 5 人制足球比賽中執教過的教練,突然被要求管理一支職業足球隊在九萬人體育場的比賽。規則可能是相同的,但規模、複雜性和策略需求完全不同,使得簡單地「放大」5 人制的策略行不通。
機器學習中最頑固的挑戰之一一直是「規模泛化」(Size Generalization):處理與訓練時所見不同大小輸入的能力。例如,怎麼在 8×8 棋盤上訓練的象棋 AI 也可以在 10×10 棋盤上好好下棋。而結果是,在短文章上訓練的 AI 在面對書籍時表現不佳。在小分子上訓練的 AI 分子預測模型也在大分子上失敗。
想像一個學會了計算小型派對食物需求的助手(「10 人派對需要 2 個披薩和 3 瓶飲料」)。當被要求計算 500 人婚禮的食物需求時,它可能無法適當擴展其理解,因為它從未學會基本的「每人」比例計算原則,而只是記住了小型派對的特定例子。
這個限制迫使開發人員為不同輸入大小創建單獨的模型,將應用限制在固定大小的輸入上,或者對大小可變的問題使用傳統的演算法而不是用機器學習的方法。這些變通方法都不理想,它們限制了類神經網路在輸入大小會顯著變化的領域中的應用。
我們如何建構能夠學習適用於任何圖形的穩健原則的 GNN,無論其大小或複雜性如何?這就像問:我們如何教導一個孩子不只是記住乘法表中的特定答案,而是理解乘法的基本原理,使他能夠計算任何兩個數字的乘積,即使是他從未見過的大數字?
天才的火花:演算法對齊的突破
這個關鍵挑戰正是加州大學聖地牙哥分校的一項引人入勝的新研究所要解決的問題。由 Nerema、Chen、Dasgupta 和 Wang 撰寫的論文 Graph neural networks extrapolate out-of-distribution for shortest paths 提供了一個潛在的革命性解決方案。
他們不僅僅是試圖調整現有的 GNN 或投入更多資料;他們採取了一種更根本的方法,巧妙地將 AI 的學習能力與經典電腦科學的邏輯嚴謹性融合在一起。
這就像不是試圖教一個孩子記住更多的數學問題答案,而是教他理解數學的基本原理和解題步驟。
首先,讓我們釐清 AI 學習和演算法 (Algorithms) 之間的區別。正如我們所討論的,類神經網路透過查看範例來學習模式。它們擅長發現資料中微妙的相關性,但它們本身並不理解底層規則,而且它們的結果並不總是保證完全正確。
另一方面,演算法就像是人類設計的、用於解決特定問題的精確、明確的配方。它由一系列有限的、定義明確的步驟組成。如果你正確地遵循這些步驟,你保證會得到正確的答案(或確定不存在答案)。演算法是電腦科學的基石;它們是可預測的、可靠的,並且它們的正確性通常可以被數學證明。
舉個簡單的例子:想像一個演算法用於尋找一堆數字中的最大值。它的步驟可能是:(1)把第一個數字設為暫時最大值;(2)依次檢查每個剩餘的數字;(3)若當前的數字大於暫時最大值,則更新暫時最大值;(4)檢查完所有數字後,暫時最大值就是真正的最大值。這個演算法對任何數字集合都有效,無論大小或內容如何。
傳統程式設計與機器學習的區別在於:傳統程式設計中,人類明確寫下逐步指示(演算法)。這些程式完美地適用於任何有效輸入,無論大小,但人類必須找出並實作確切的解決方案。機器學習則是採取不同的方法,系統從例子中學習模式,而無需明確指示。它們在與訓練數據相似的輸入上表現良好,但在顯著不同的例子上通常會失敗。
這就像給一個孩子一本詳細的食譜(演算法)來烘焙蛋糕,相比於讓他看五十個蛋糕烘焙的例子並希望他自己找出模式(機器學習)。前者在遵循指示時將始終產生可接受的蛋糕,但缺乏創新;後者可能在看過的蛋糕類型上創新,但可能無法從夾心餅乾推斷出如何製作蘋果派。
研究人員專注於一個基本的圖形問題:在圖形中找到兩個節點之間的最短路徑。這就像在地圖上找到兩個地點之間最快或最短的路線,考慮到連結道路(邊)的距離或旅行時間。這是電腦科學界當中和現實當中一個很基本的問題,在導航、網路路由、物流等領域都有廣泛應用。
有幾種成熟的演算法可以解決這個問題,其中一個特別穩健且著名的是 Bellman-Ford 演算法。可以將這個演算法想像成一個細緻、系統化的步驟。它反覆檢查圖形中的所有連結,逐漸完善其對從起點到每個節點的最短距離的估計。即使在具有某些複雜性(例如負數邊,代表收益而非成本的情境)的圖形中,它也能保證找到絕對最短的路徑。它的優勢在於其方法的系統性和其正確性的數學保證。
這個演算法如同一個有條不紊的郵差。他從起點出發,記錄到達每個房子的最短距離。然後他不斷地查看是否有任何捷徑:「如果我先去 A 房子,再從那裡去 B 房子,總距離會比我目前記錄的到 B 的距離更短嗎?」他不斷重複這個過程,直到沒有更短的路徑可以找到,如此就可以保證找到從起點到每個目的地的絕對最短路徑。
演算法對齊的核心理念
研究人員在進攻這個問題時,組合運用了兩個巧妙的方法:
- 神經演算法對齊 (Neural Algorithmic Alignment): 這是核心思想。他們沒有使用標準的、通用的 GNN 架構,而是仔細設計了 GNN 的結構,以模仿 Bellman-Ford 演算法的計算步驟。想像一下 Bellman-Ford 演算法涉及基於鄰居更新距離估計的特定階段。研究人員建構的 GNN 具有與這些階段直接對應的層和操作。GNN 仍然有從資料中學習的參數(例如給予不同連結多少重要性),但其整體工作流程,其內部的「思考過程」,被引導去遵循經過驗證的演算法的邏輯。
這不像給 AI 食材和最終蛋糕的圖片,而更像給它一本結構化的食譜書,其中每一章都對應於 AI 網路的一部分。想像一下,不是給一個學徒廚師數百個蛋糕的照片讓他猜測如何製作,而是設計一個培訓,其中烘焙的每一步——混合、攪拌、加熱——都有專門的練習環節。這樣,學徒不只是學會識別好蛋糕,而是學會了烘焙的基本原理。
演算法對齊是關於設計能夠發現和實施演算法的類神經網絡,是真的能嚴格遵循解決問題的步驟,而不僅僅是識別模式而已。許多現實世界的問題早就已經有演算法解決方案,如用於尋找最短路徑的 Bellman-Ford 演算法。如果我們設計的類神經網絡在結構上與這些演算法相似,那麼通過正確的訓練方法,它們可以自行發現這些演算法。
可以自行發現演算法,這樣的 AI 可就厲害了。
就像教孩子學習數學,不是讓他們死記硬背公式和答案,而是理解運算背後的邏輯和步驟。這樣,即使面對全新的問題,他們也能應用這些原則來找到答案。 - 智慧訓練(結合稀疏性) (Smart Training with Sparsity): 研究人員將這種對齊的架構與一種使用稀疏性正規化 (Sparsity Regularization) 的巧妙訓練策略相結合。「稀疏性」在這裡意味著鼓勵神經網路在其學習階段盡可能少地使用內部連結和參數。本質上,就是將任何非必要的東西歸零。
想象一下嘗試解決一個複雜的推理謎題。如果你試圖記住所有可能的線索和連結,你會很快迷失在細節中。相反,如果你專注於最重要的線索和關鍵關係,忽略無關的細節,你更有可能找到核心的邏輯模式。稀疏性就像是這種「去蕪存菁」的過程。回想一下從劃重點的教科書中學習的學生。稀疏性就像一個強力螢光筆,迫使學生忽略那些可能只對簡單訓練範例有效的虛假相關性或捷徑。它促使類神經網路專注於學習最關鍵的計算和連結,那些只代表底層 Bellman-Ford 演算法核心、基本邏輯的部分。
比如說,在學習繪畫時,一個好的老師不會讓你模仿一百幅名畫,而是教你透視、光影、構圖等基本原則。稀疏性訓練就像是這種聚焦基本原則而非表面細節的教學法。這有助於防止網路僅僅記住訓練範例(「過度擬合」),而是促使其學習可泛化的演算法原則。就像一個學生不是背誦特定問題的解答,而是理解問題類型的解題方法——這樣他才能解決任何類似的問題,而不僅僅是他預先看過的問題。

驚人的結果:真正理解並能泛化的 AI
這種組合方法的結果非同凡響,遠遠超出典型的 AI 結果。研究人員不僅僅觀察到他們特殊的 GNN 在新圖形上表現良好或接近 Bellman-Ford 演算法的結果。他們更進一步:他們能夠從數學上證明,他們設計的 GNN,在透過演算法對齊設計並以稀疏性訓練後,不僅僅是近似 Bellman-Ford 演算法,它實際上學會了完美地執行 Bellman-Ford 演算法。
這就像一個音樂學生不僅能彈奏出聽起來與莫札特相似的旋律,而是確實理解和掌握了莫札特創作音樂的基本原理和方法,能夠用莫札特的風格創作全新的作品。
這改變了遊戲規則。為什麼?因為,正如我們所建立的,真正的 Bellman-Ford 演算法可以在你提供給它的任何有效圖形上正確工作,無論它有多少節點或邊,或者其結構有多複雜。由於 GNN 已被證明學會了實現這個演算法本身,它繼承了該演算法令人難以置信的普遍適用性能力。
這就像一個學習烹飪的學生,不僅能夠複製老師示範的精確菜餚,而是真正理解了烹飪原理,能夠調整食譜以適應任何可用的食材和廚具,無論在家庭廚房還是五星級餐廳的專業設備中,學生真正掌握了烹飪的核心原則,而不僅僅是模仿特定的菜餚。
實際的結果滿驚人的:儘管這個 GNN 只在一小部分微小、簡單的圖形(也許只有 5 或 10 個節點)上進行了訓練,但它現在可以正確地在具有數千甚至數百萬節點的龐大、複雜的圖形上找到最短路徑。這些龐大的圖形與其訓練資料完全不同,並且遠遠超出了其原始訓練分佈。它實現了真正的外推 (Extrapolation)。
設想一個只在校園小徑上訓練過的導航系統,但當你把它放在整個亞馬遜雨林中時,它仍然能夠準確地指引你找到兩點之間的最短路徑,這就是這個 GNN 成就的類比。
讓我們釐清外推與內插 (Interpolation) 的區別。內插就像在你已知點之間猜測一個值(例如,如果你知道下午 1 點和 3 點的溫度,你可能會內插來猜測下午 2 點的溫度)。外推是預測遠遠超出你已知資料範圍的值(例如,使用今天的天氣資料來預測一個月後的天氣)。
想像你看過一個人從 20 歲到 40 歲的照片,然後被要求描述他 30 歲時的樣子——這是內插。但如果你被要求預測他 80 歲時的樣子,那就是外推,這遠比內插困難,因為你需要理解和應用老化的基本原理,而不僅僅是平均已知的資訊。
神經網路通常擅長內插,但在外推方面卻是出了名的糟糕。這項研究展示了一種實現強大外推的方法。
想想學習算術。你使用小數字(1+1=2, 9+3=12)學習加法的規則(例如進位)。因為你學會了規則(演算法),所以即使你從未見過那些特定的大數字,你也可以應用它來正確計算 1,527,893 + 9,876,542。你外推了你的知識。
這就像一個孩子學習了加法的基本原理而不僅僅是記住簡單的加法表。當面對 254 + 876 這樣她從未計算過的大數加法時,她不會因為沒有記憶中的答案而困惑,而是能夠運用加法原理(從個位開始,需要時進位)來正確計算出結果。
這個 GNN 不僅僅學會了幾個小地圖的答案;它學會了尋找最短路徑的通用演算法。就像一個真正理解了導航原則的嚮導,不僅能在熟悉的小路上帶路,還能在任何地形上找到最佳路徑,無論它有多陌生或複雜。
這項突破為何可能徹底改變遊戲規則
這項研究引起了滿多迴響,因為它觸及了當前 AI 的核心限制,並為該領域指明了一個潛在的新方向。其影響遠遠超出了僅僅解決最短路徑問題:
從經驗期望到可證明的保證(建立信任)
當今許多 AI 開發涉及訓練模型、在某些資料上進行測試,並根據經驗結果(觀察)期望它能很好地泛化。這篇論文開創了向可證明的可靠性轉變的先河。能夠從數學上保證 AI 模型即使在未見過的資料上也能執行特定的、正確的邏輯,這是變革性的。
想像一下兩種自動駕駛系統:第一種在各種道路和條件下經過了廣泛測試,並在 90% 的測試中表現良好。第二種則有數學證明,表明其決策邏輯在任何合法道路配置中都能導致安全行駛,這是基於「保證」的信心。我們當然更願意信任第二種系統,尤其是在攸關生命安全的情況之下。
想像一下一些生活當中的關鍵系統:控制電網、管理空中交通、輔助手術、做出高風險的金融決策。在這些領域當中,「通常有效」是不夠的。我們幾乎需要 100% 保證安全。這項研究為 AI 達到這種保證提供了有希望的藍圖,提升 AI 系統的可信任程度。
這就像將 AI 工程從類似於複製成功設計的橋樑建造者,提升到基於可證明的物理定律和嚴格結構分析來建造橋樑的工程師。前者可能建造出在過去已經證明安全的相似橋樑;後者可以保證任何設計的橋樑,無論大小或風格如何,都將在預期的條件下保持安全。
超越對「大數據」的無盡需求
AI 領域的主流論述目前還是是「數據越多越好」。訓練最先進的模型通常需要龐大的資料集和巨大的計算能力。這篇論文極大地挑戰了這種現況。
想象兩種學習演奏鋼琴的方法:第一種要求學生聽成千上萬首曲子並嘗試識別模式(需要大量時間和大量音樂);第二種教導音樂理論、和聲和技巧的基本原則(需要較少的例子但更加結構化)。第二種方法能更快地達到精通,並賦予學生創造自己的音樂的能力,而不僅僅是複製他們聽過的音樂。
這篇論文證明了,至少對於具有潛在演算法結構的問題,只要模型架構和訓練設計得當,就可以用驚人地少的數據實現強大且完美泛化的 AI。這是很重要的進展,這表示我們為小數據、昂貴或私密的領域開發複雜的 AI 打開了大門,例如罕見疾病研究、個人化醫療、專業科學發現或利基工業流程。
這就像與其需要整個圖書館來查找一個事實,這種方法就像知道包含基本原則的精確教科書、章節和段落。或者,與其需要看一千場足球比賽來學習這項運動,不如理解基本規則、策略和技巧。
打開「黑盒子」,邁向可解釋的 AI
類神經網路常被批評為「黑盒子」(Black Box)。它們可能給出正確的答案,但要理解它們如何或為什麼得出這個答案可能非常困難。它們的決策過程可能是不透明的。這個問題至今也是一個很困難的技術問題。如果 AI 是黑箱,我們自然不敢把太多重要決策交給它。(還是敢?)
想像我們去找一位算命師,他總是給出准確的預測,但從不解釋他是如何得出這些預測的。我們可能會覺得算得很準,但難以完全信任這個過程。相比之下,一個能夠解釋其推理過程的專家,即使偶爾出錯,也往往更值得信賴。
這項研究提供了一條通往更可解釋的 AI (Interpretable AI) 的道路。透過將網路結構與已知、可理解的演算法(如 Bellman-Ford)對齊,我們可以對其執行的計算獲得重要的洞察。我們可以追蹤資訊的流動,其方式反映了演算法的步驟。這種透明度對於在 AI 出錯時進行除錯、改進其性能、確保公平性以及驗證它沒有依賴意外的偏見或捷徑至關重要。
這就像擁有汽車引擎的完整示意圖,讓技師能夠精確診斷和修復問題,而不是僅僅知道踩油門通常會讓汽車加速。或者,這就像能夠追蹤醫生的診斷思維過程,而不僅僅是接受最終的診斷而已。
演算法對齊作為基礎設計原則
將 GNN 與 Bellman-Ford 演算法對齊的成功表明,這不僅僅是一次性的技巧,而可能是未來 AI 系統的一個強大的、通用的設計原則。AI 架構師可能不再僅僅堆疊通用的神經層並期望正確的功能出現,而是越來越多地著眼於數十年電腦科學研究中開發出的龐大、高效、經過驗證的演算法庫。
想像建造一座摩天大樓:一種方法是不斷嘗試不同的材料和結構,直到找到一個看起來能夠支撐建築的組合;另一種方法是從建築工程原理開始,應用已知的結構力學和材料科學原理。後者不僅更有效率,還能產生更安全、更可靠的建築。
然後他們可以設計出其結構明確體現與任務相關的演算法計算流程的神經架構,將穩健的邏輯直接嵌入 AI 的核心。
這為工程師提供了構建可靠計算工具的藍圖,超越了僅僅修補組件直到有用的東西出現的階段。就像在建造房屋時從完整的建築圖紙開始,而不是不斷嘗試不同的方式堆磚塊直到房子看起來不會倒。
兩全其美:學習與邏輯雙軌並行
這種方法完美地體現了數據驅動學習與符號邏輯之間的協同作用。神經網路擅長感知、特徵提取以及從混亂的真實世界數據中學習複雜模式。經典演算法為定義明確的計算步驟提供嚴謹性、結構和保證的正確性。
想像組合一位有天賦的藝術家的創造力和視覺敏銳度與一位技術精湛的工匠的精確技巧。藝術家可以設想美麗的設計,而工匠可以確保這些設計在物理上是可行的,並且可以精確地實現。這種協作產生的藝術既有創意又有結構完整性。
將它們結合起來,使我們能夠建構這樣的系統:神經網路處理初始解釋或模式發現,而嵌入的演算法結構確保後續的推理過程是健全、可靠且具有外推能力。
這就像將一位才華橫溢的偵探的直覺和發現細微線索的非凡能力(神經網路學習)與法醫科學的細緻、按部就班的步驟(演算法的邏輯)相結合,以可靠且明確地解決複雜案件。有了偵探的直覺,可以快速縮小嫌疑範圍;有了法醫的系統性,可以確保證據鏈完整無誤,兩者結合產生了一個更強大的調查系統。
建構更穩健、更不「脆弱」的 AI
許多類神經網路的一個臭名昭著的問題是它們的脆弱性 (Brittleness)。它們在與訓練集非常相似的數據上可能表現出色,但當面對僅略有不同的輸入時(有時是由於微妙的「對抗性」操縱),它們會意外失敗或產生荒謬的輸出。
想像一個能在陽光明媚的天氣中準確地識別交通標誌的自動駕駛系統,但當貼上一小塊貼紙或在雨中看到同一標誌時,卻完全失敗。這種脆弱性從根本上限制了此類系統在安全關鍵應用中的實用性。
透過將 AI 的操作建立在經過驗證的演算法的穩健邏輯之上,由此產生的系統本質上變得不那麼脆弱。只要新情況屬於底層演算法旨在解決的問題範圍內,它就更有可能表現得可預測且正確。
這就像擁有一把堅固、設計精良、全天候的扳手,可以在其尺寸範圍內的各種螺母和螺栓上可靠地工作,而不是一個精密的、專業的儀器,如果使用不當或在稍有不同的條件下就容易損壞。
或者,想象一個在溫和條件下表現良好的帆船,但在第一次風暴中就崩潰了,相比於一艘設計良好的船舶,即使在惡劣的海洋條件下也能保持結構完整。演算法對齊方法生產的是後者——在意外情況下仍然可靠的系統。
規劃通往更智慧、更可靠 AI 的航線
這項研究非常有前景,並可能標誌著 AI 發展新篇章的開始。它展示了一條具體的途徑,可以創建不僅僅是記住訓練數據模式的 AI 系統,而是學習底層計算原則,使其能夠可靠且可證明地泛化到遠遠超出其初始經驗的範圍。它將對話從僅僅期望 AI 在新情況下能正常工作,轉變為擁有嚴謹的數學理由相信它會(至少對於適合這種演算法對齊方法的問題)。
這就像從希望飛機能夠安全飛行,進展到完全基於航空動力學原理讓飛機確定能夠安全飛行,從希望轉變為確定性。
未來激動人心的旅程涉及探索這一原則的廣度和深度。關鍵問題包括:
- 有多少其他基本演算法(除了最短路徑,也許在動態規劃、排序、搜索、優化或流問題等領域)可以成功地與神經網路架構「對齊」?例如,可以設計一個學習遺傳算法基本原理的神經網路來解決複雜的優化問題嗎?或者一個學習高效數據結構操作原理的網路?
- 我們能否開發出系統化的方法,甚至自動化發現這些演算法和網路結構之間有效對齊的過程?想像一個「元學習」系統,可以自動識別問題結構並設計適當的神經網路架構來學習相關的算法原理。
- 這種方法的理論極限是什麼?對於哪些類別的問題和演算法,我們可以實際期望實現可證明的 OOD 泛化?例如,某些問題可能太複雜或太模糊,無法形式化為明確的演算法,使得這種方法難以應用。
- 如何擴展這些原則以處理真實世界數據中常見的噪音、不確定性或不完整資訊?真實世界的數據很少是完美的,所以一個關鍵挑戰是如何在保持演算法對齊優勢的同時,使系統對於不完美數據更加穩健。
如果研究人員能夠成功地在這些基礎上繼續發展,我們可能正處於創造新一代 AI 系統的邊緣。這些系統不僅將保留當前深度學習令人印象深刻的模式識別能力,還將融入來自經過驗證的演算法邏輯的穩健性、可預測性和可信賴性。
這就像融合了藝術家的創造力和工程師的精確性,能夠認識美麗的模式但也能建造可靠結構的系統。
這種學習與邏輯的強大融合可能成為未來 AI 的基石,使其更加高效、易懂、可靠,並最終更有益於安全部署來應對科學、工業和社會中的複雜挑戰。在一個 AI 系統日益滲透到我們生活各個方面的世界中,我們越來越需要保證 AI 在遇到意外情況時,不會徹底崩潰或產生荒謬的結果。
就像我們更願意乘坐一架不僅在測試條件下飛行良好,而且據有保證會在各種意外天氣和機械問題下仍然安全的飛機,我們也將更信任那些不僅僅在熟悉數據上表現良好,而且有原理保證能夠應對意外情況的 AI 系統。
