大型語言模型的湧現能力【LLM】
語言模型 (LM) 是一種學習自然語言模式的概率模型。 LM 可用於生成目的,例如通過利用它們對這些模式的瞭解來生成故事中的下一個事件。
近年來,人們在將 LM 擴展為大型語言模型 (LLM) 方面付出了巨大的努力。 擴展過程——用更多的計算在更多數據上訓練更大的模型——導致他們學習這些模式的能力得到穩定和可預測的提高,這可以在定量指標的改進中觀察到。
除了這些穩定的定量改進之外,擴展過程還會帶來有趣的定性行為。 隨著LLM的規模擴大,它們達到了一系列的臨界規模,在這些規模上,新的能力突然被“解鎖”。 LLM並沒有被直接訓練來擁有這些能力,而且它們以快速且不可預測的方式出現,就像憑空出現一樣。 這些新興能力包括執行算術、回答問題、總結段落等等,LLM只需通過觀察自然語言就可以學到這些能力。

這些湧現能力的原因是什麼,它們意味著什麼? 在本文中,我們將從整體上探討湧現的概念,然後再探討大型語言模型。 我們將以一些註釋作為結尾,說明這對整個 AI 意味著什麼。 讓我們開始吧!
1、語言模型簡介
語言模型定義了單詞序列的概率分佈。 因此,它們可以自然地用於生成目的,通過在給定文本開頭的情況下預測下一個最有可能的單詞。 在下面的示例中,我們看到 LM 如何預測序列中下一個最有可能的單詞:

語言模型也可用於執行其他任務。 在這個模式中,LM 在大型語料庫上以無監督的方式進行訓練,從而獲得基本的語言知識。 接下來,進行架構修改,並使用特定於任務的數據集以監督方式微調 LM,使其在相關任務上表現出色。 在下圖中,我們看到了 GPT 的主要 Transformer LM 如何針對不同的任務進行修改。 特別是,輸入以帶有特殊標記的特殊序列準備,線性層附加到模型本身。

事實證明,如果將語言模型擴展為大型語言模型,它能夠執行這些任務而無需任何架構修改或特定於任務的培訓。 LLM 能夠執行這些任務,有時比專門的、微調的網絡更好,只需用自然語言來表達它們。

雖然LLM隨著規模的擴大而獲得這些能力這一事實令人矚目,但特別有趣的是它們出現的方式。 特別是,大型語言模型的許多能力似乎正在湧現。 也就是說,隨著 LLM 規模的增長,它們會以令人難以置信的快速速度和不可預測的規模從接近零的性能增加到有時最先進的性能。
以此類推,考慮一個無法畫連貫圖畫的成長中的孩子。 隨著他的成長,他的大腦逐漸變大,他的精細運動技能也逐漸提高; 然而,一旦到了某個臨界年齡,他的繪畫能力就會出現斷斷續續的“跳躍”。 這種跳躍使孩子突然能夠畫出令人難以置信的肖像,儘管他的精細運動技能正在逐漸提高。

湧現的概念相當不可思議,但它並沒有歸入人工智能領域。 事實上,湧現已經以各種形式在許多學科中被觀察和研究。 在研究關於LLM的湧現之前,讓我們簡要地檢查一下湧現作為一個總體概念。 這個概述連同物理學中的一個具體例子,將幫助我們建立直覺,瞭解為什麼 LLM 中的湧現觀察如此令人興奮。
2、湧現的一般概念
湧現行為並不是 LLM 獨有的,事實上在許多領域都可以看到,例如物理學、進化生物學、經濟學和動力系統。 雖然沒有跨領域使用的單一湧現定義,但所有定義都歸結為相同的基本現象,即系統的定量參數發生微小變化,從而導致其定性行為發生巨大變化。 這些系統的定性行為可以被視為不同的“制度”,其中“遊戲規則”或決定行為的方程式可能會發生巨大變化。
為了說明這個想法,讓我們舉一個物理學的例子。 考慮液相中的水,其中系統的行為受流體動力學控制。 隨著水溫的穩定下降,系統行為的細節可能會發生變化(例如粘度增加),但總體定性行為是相似的,並由流體力學描述。

但是,如果溫度繼續穩步下降,最終會達到臨界溫度,系統的行為會在該溫度下發生急劇變化。 水將進入固相(冰),經歷完全改變“遊戲規則”的相變。 突然間,系統不再服從流體力學,而是服從固體力學,進入了一個新的狀態,在這個狀態下,支配系統行為的規律發生了質的變化。

重要的是要注意,這種行為變化相對於溫度以不連續的方式發生。 隨著溫度穩步降低,行為會在超過臨界閾值時突然改變。
雖然我們可能認為冰凍過程是理所當然的,因為它對我們人類來說太平淡無奇了,但這是一個非常了不起的現象,在更奇特的領域具有巨大的影響和應用。
正如我們所見,LLM 似乎也經歷了這些劇烈的質變,在大型語言模型中,導致湧現產生的是模型規模而不是溫度。 現在讓我們仔細看看這個現象。
3、大型語言模型中的湧現
加大語言模型的規模已證明對性能有一致且可預測的改進,語言模型的交叉熵損失的縮放定律保持在 7 個數量級以上 。

換句話說,語言模型在其訓練目標上的表現隨著規模的擴大而穩步提高。 正如我們上面提到的,這種行為與 LLM 的新興能力形成對比,LLM 的新興能力不是直接訓練的,而是迅速出現的。 現在讓我們來看一個這樣的能力的具體例子。
3.1 從emoji序列猜一部電影
emoji_movie 是 BIG 基準測試(BIG-bench) 中的一項任務,其中一系列表情符號描述了一部特定的電影,任務是根據序列猜測電影。 例如,序列代表 Finding Nemo,而序列♂️代表 The Incredibles。
BIG-G 是一種僅解碼器 Transformer 架構的語言模型。 下面我們可以看到 BIG-G 在不同尺度的 emoji_movie 上的表現。

正如我們所見,該模型在各個規模上的表現都很差,這也許不足為奇。 畢竟,語言模型只是簡單地定義了標記序列的概率分佈,而該任務需要 finding nemo 是在 What movie does this emoji describe? U+1F9B8 U+200D U+2642 U+FE0F U+1F9B8 U+200D U+2640 U+FE0F U+1F466U+1F467 U+1F476 (上面的Finding Memo表情符號序列的 Unicode 字符串)之後最有可能出現的字符串。
儘管如此,該模型似乎隨著其規模的增長而略有好轉。 如果我們僅使用最後幾個規模進行外推,我們可能會期待類似下圖的結果,其中實線是外推。

然而,我們實際發現的是這樣的:

在跨越一個明顯的臨界值(1010 到 1011 個有效參數之間)後,該模型似乎被彈射到一個新的機制中,在這個機制中它可以完成這個(相當複雜的)任務,並且精度大大提高。
3.2 跨任務的湧現
這種精度提升並不是唯一隨規模出現的——BIG-bench 中的其他幾個任務已被證明表現出類似的行為。 有點神秘的是,儘管相對無關,但所有這些能力都以相似的規模出現。

關於這種現象的重要部分是,我們先驗地不知道這會提前發生,甚至不知道它可能發生的規模。 因此,雖然我們可能會嘗試設計新的體系結構或其他一些新穎的發明來解決涉及自然語言的複雜問題,但我們可以通過將 LLM 擴展到更大來簡單地解決這些問題。
即使這些問題可以通過更好的架構或其他一些創新來解決,不斷改進的硬件和人工智能生態系統也留下了光靠時間就能解決這些問題的可能性。
4、湧現能力 - 事實還是幻想?
雖然這些新出現的能力令人興奮,但現在是時候進行一些健康的科學懷疑了。 正如我們在本文開頭所指出的,作為一個概念的湧現現象非常引人注目,並且通常伴隨著系統制度的根本變化,其中“遊戲規則”發生變化。 目前尚不清楚這對於語言模型到底意味著什麼。
研究人員試圖為LLM中出現的神秘現象提供合乎邏輯的解釋——現在讓我們來看看其中的兩個。
4.1 多步推理
最簡單的解釋之一是,由於我們實際測量的內容,LLM 顯示出明顯的突發現象。 如果 LLMs 在基本推理方面順利地變得更好,這些改進可能會導致高度非線性的觀察結果。 如果我們用來衡量績效的複雜任務可以轉化為必須完好無損才能衡量“成功”的推理鏈,那麼推理能力的增量改進將被掩蓋。 [1] 和 [2] 簡要提到了這一點,但讓我們擴展這個想法並用一個例子具體化。
考慮一個模型 M,它的單步驟推理的成功概率為 p。 此外,考慮一個多步驟推理問題,它需要一連串,比如說,十個成功的推理步驟來解決。 假設推理步驟是獨立的,則 k 個步驟的成功概率由二項分佈給出。 下圖顯示了至少獲得 x 次成功的概率,隨 p 的變化而變化。 因此,解決問題的概率由最後一個點的概率給出,其中 x = 10(以紅色著色以進行區分)。

隨著 p 的穩定調整,任務成功的概率會迅速增加。 我們可以直接將其繪製如下,其中 y 軸對應於作為 x 軸上給出的 p 的函數的全鏈成功概率:

曲線的陡度意味著那些涉及多步推理的能力可能不是“真正”湧現的,而只是(或至少部分地)執行基本任務的能力增強的結果(回答與推理一致的答案) ) 隨比例平穩變化。
重要的是,當 n(推理鏈中的步驟數)增加時,上述曲線只會變得更尖銳。 下面我們看到這條曲線隨 n 變化的圖。

因此,我們預計更復雜的問題只能在最大規模上解決,並且這些問題的改進率也會相應增加。
請注意,這是一個玩具模型,我們沒有定義“推理”的含義,也沒有暗示我們如何順利地衡量 LM 生成與“推理”答案一致的響應的能力。 這個例子只是為了提供一些直覺,即基本能力的微小變化可能會對 LLM 解決更復雜問題的能力產生巨大的級聯效應。
5.2 未對齊的評估指標
上面我們考慮了能力如何看起來是湧現的,而實際上它們依賴於穩步提高價值的複合效應。 除了明顯的突發現象可歸因於我們正在測量的內容外,它們還可能歸因於我們如何進行這些測量——即未對齊的評估指標。
出現的行為必然與觀察出現的測量值相結合。 在我們上面的 emoji_movie 任務示例中,此評估指標是精確的字符串匹配。 如果我們改用此評估指標多項選擇(右)而不是精確字符串匹配(左),我們會看到更多漸進的改進並且湧現行為消失。

如果我們深入瞭解每個評估指標的實際計算方式的細節,這些突發現象的存在就顯得更加脆弱。 對於 periodic_elements 任務,其中模型必須回答哪個元素名稱對應於給定的原子序數,精確的字符串匹配度量隱藏了正確的輸出,如 [1] 的作者所述。 例如,在某些情況下,模型會輸出類似“原子序數為 1 的元素是氫”的內容,但由於這與字符串“氫”不完全匹配,因此表觀性能下降,需要後處理來糾正。
更進一步,我們可以刪除精確字符串匹配等指標固有的“全有或全無”評估。 由於我們可以直接計算不同響應的概率,因此我們可以評估正確響應的對數似然。 當我們這樣做時,我們會看到正確答案的概率逐漸提高,並且正確和錯誤分數的可能性之間的差異越來越大。

我們可以類似地評估各種明顯出現的能力的對數似然性,並看到隨著所有這些能力的擴展而逐漸改進。

像精確字符串匹配這樣的評估指標是不連續的,並且不提供“接近度”的概念。 例如,如果我們訓練一個智能體向目標扔球,這樣的評估指標就像是衡量智能體是否能擊中目標,而不是衡量它離目標有多近。 即使最終目標是訓練智能體實際擊中目標,在 1 釐米以內比在 1 公里以內要好得多,並且測量實際擊中目標作為一種“湧現”能力並不能真正捕捉到整個畫面。
對這種觀點的反駁是,歸根結底,我們只關心人工智能如何執行我們人類關心的任務。 如果 AI 代理不能執行特定任務達到特定閾值,那麼我們認為該代理在所有意圖和目的上都是失敗的。 但我們必須記住,構成 BIG-bench 的任務是衡量一種特定能力的獨立探測器——所有任務的總體表現使我們能夠更全面地衡量 LLM 的整體行為。
當我們通過查看基準的總體性能來考慮像 GPT-3 這樣的模型的整體情況時,我們發現它在規模上是平滑的。

即便如此,基準測試的綜合性能也不是模型的完整表徵,其表觀性能將根據我們如何管理基準測試本身而有所不同。
對於 LLM 的湧現能力,還有其他可能的解釋[1][2],但上述解釋足以滿足我們的目的。
6、這意味著什麼?
我們已經討論了湧現的概念,它是如何出現在大型語言模型中的,等等。 但這一切意味著什麼? 我們從這裡去哪裡?
總之,在這一點上,還不清楚。 關於大型語言模型的湧現能力,有幾件重要的事情需要牢記。
我們不知道它們會在多大的規模時出現
在他們出現之前我們不知道會達到什麼樣的能力
我們不知道潛在能力的前景
即使像多步推理這樣簡單的東西是湧現能力的重要解釋因素,它們的存在仍然很重要。 歸根結底,如果完成我們人類真正關心的任務需要多步推理,而且他們中的許多人可能會這樣做,那麼對湧現能力是否有一個簡單的解釋並不重要。 擴大模型規模可以提高它們在實際應用程序中的性能這一簡單觀察就足夠了。
那麼問題就變成了,為什麼我們不進行這種規模的擴張? 正如我們為了尋找新粒子而在物理學中建造越來越大的粒子對撞機一樣,為什麼我們不建造越來越大的語言模型來尋找新的新興能力? 僅大型強子對撞機一項就耗資近 50 億美元,是 OpenAI 初始投資總額的數倍,而且建造時並未考慮實際應用。 為什麼我們沒有將這筆投資用於具有巨大變革潛力的技術?
7、我們可以擴大多少?
Anthropic 的安迪·瓊斯 (Andy Jones) 幾年前的一項分析假設,我們在 2020 年能夠建造比當時建造的模型大幾個數量級的模型。 重要的是,這一分析是在 GPT-3 論文[7] 發佈之後出現的。
關於 GPT-4 的早期傳言稱,該模型將從 GPT-3 的 175 B 參數擴展到 GPT-4 的 100,000 B(100 萬億)參數。 根據 [1] 這樣的模型,如果符合趨勢,將在許多現有基準測試中接近人類水平的表現。

OpenAI 的首席執行官 Sam Altman 認為 100 T 參數的說法完全沒有根據,GPT-4 預計不會比 GPT-3 大很多。 但是,如果這樣的分析是正確的,為什麼不建立一個更大的模型,即使不是 100T 參數模型?
Jones 的分析很大程度上參考了 OpenAI 於 2020 年發佈的一篇關於神經語言模型的縮放定律的論文[3]。 特別是,他們研究了在計算量固定增加的情況下,應該如何在增加的訓練數據和增加的模型大小之間分配這種額外的計算量。 該論文發現,模型大小應該消耗這些額外資源的更大比例,這意味著擴大模型的參數規模比擴大數據集更重要。
具體來說,模型大小的增長速度應該是數據集大小的三倍左右。 如果計算預算增加 10 倍,數據集大小應增加約 1.83 倍,模型大小應增加 5.48 倍。

一個 100 T 參數的模型將比 GPT-3 大大約 571 倍。 因此,根據 OpenAI 的規模定律,我們預計這樣的模型需要 190 倍的數據。

然而,最近的研究(來自 DeepMind)發現了更新的規模法則。 事實上,Chinchilla 論文 [4] 的作者發現數據和模型大小應該按相等比例縮放。
然而,最近的研究(來自 DeepMind)發現了更新的縮放法則。 事實上,Chinchilla 論文 [4] 的作者發現數據和模型大小應該按相等比例縮放。
特別是,他們發現優化訓練 LLM 所需的標記數量應該是(非嵌入)參數數量的 20 倍左右。 鑑於此比例定律,一個 100 T 參數模型將需要大約 2,000 T 代幣。 根據 [3] 中的縮放定律,這比預期的數據多大約 20 倍,比 GPT-3 多出驚人的 4,000 倍。

GPT-3 在幾個數據集上進行了訓練,大部分數據來自 Common Crawl。 OpenAI 使用了來自 Common Crawl 的 45 TB,這意味著 100 T 參數模型需要 180 PB 的此類數據才能根據 Chinchilla 縮放定律進行最佳訓練。 用於訓練 GPT-3 的其他數據集與如此大的數據規模相比相形見絀,這意味著用於訓練 100 T 參數模型的所有數據都需要來自像 Common Crawl 這樣的數據集。 此外,由於非 Common Crawl 數據集的質量較高,因此優先對其進行採樣,我們發現 180 PB 實際上是訓練此類模型所需數據量的下限。 截至撰寫本文時,Common Crawl 的整體大小約為 12 PB,因此與這個數字相去甚遠。
我們可以看到為什麼 100 T 參數的說法很快就被 Altman 駁回了。 雖然每天生成的數據量逐年增長,但只有一小部分是存儲的、文本的、可用的並且適合訓練。 將這一事實與硬件和成本限制相結合意味著將模型擴展到如此天文大小以搜索湧現能力在這一點上是不切實際的。
8、最後的話
觀察大型語言模型的湧現能力是一個有趣的發展。 需要對這種現象進行更多研究以獲得更完整的畫面,例如,在早期停止訓練的大型模型上測試任務性能到較小的模型(具有等效的測試損失和訓練計算),以查看規模本身是否真的是出現的關鍵因素 在法學碩士中。
擁有任務的認識論層次結構將很有用,其中突出和可衡量的能力被識別並列為使用它們的更復雜任務的必要先決條件。 這樣的層次結構可以幫助我們開始預測某些突發能力可能會出現的規模,或者至少提供對集合的排序。
此外,觀察像 emoji_task 這樣的任務的出現本身並沒有多大意義。 如果一個模型還顯示了在這種層次結構中類似“認識論集群”中其他任務的湧現,那麼我們也許能夠更多地說明與基本推理概念相關的湧現,而不是像 emoji_movie 這樣的孤立任務。
歸根結底,即使有潛在的簡單因素有助於解釋明顯湧現的能力,但它們存在的事實是一個令人興奮的發展。 畢竟,作為人類,我們最終更關心的是連續的性能曲線,而不是人工智能如何影響我們的生活。 還有哪些其他能力尚未被發現?
bimant.com/blog/llm-emergent-abilities/
版权声明:大型語言模型的湧現能力【LLM】内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系 删除。
本文链接:https://www.fcdong.com/f/3587e19c107109ffff217af37254a618.html