中科院院士陳潤生:大語言模型存在“湧現”和“頓悟”現象
光明網訊今年以來,以ChatGPT、文心一言等為代表的大語言模型火爆出圈,人工智能(AI)能否超越人類的問題引發各界熱議。5月29日,由中國智能計算產業聯盟組織召開的“2023中國算力發展研討會”在中科院計算所召開。此次研討會以ChatGPT下算力的機遇與挑戰為主題,彙集了業內多位權威專家學者,從技術、生態等多維度展開深度交流研討,釐清算力產業的發展風向,並就當下人工智能基礎設施及算力服務建設等課題給出應對之策。

研討會上,中國科學院院士陳潤生表示,人工智能的發展不是人所能阻擋的,這是科學發展的本質。他同時指出,大語言模型中出現的“湧現(Breakthroughness)”和“頓悟(Grokking)”現象,值得大家思考。
何為“湧現”?一個複雜系統由很多微小個體構成,這些微小個體湊到一起,相互作用,當數量足夠多時,在宏觀層面上展現出微觀個體無法解釋的特殊現象,即為“湧現”。陳潤生形象地解釋說,“我給它(大模型)很多學習數據,結果它的答案裡面會出現學習數據裡沒有的事,這種現象叫湧現。”大模型的運算表明,當訓練數據很大時(比如超過了1000億),就會出現湧現現象,規模小的時候不會出現這個現象。
需要明確的是,目前科學界對湧現現象是有爭論的。比如,斯坦福大學某教授認為這是度規問題,牽扯到度量、基本物理座標系等。
“自然語言處理過程中,由於整個計算量的迅速增加而出現的湧現現象,這個是新問題,值得思考”,陳潤生說。
何為“頓悟”?陳潤生解釋,“你訓練一個神經網絡的過程中,一遍它不懂,兩遍也不懂,第四遍還不懂,第五遍一下學會了,就像小孩學東西一樣,教一兩遍不懂,教到N+1遍突然就學會了。”
他認為,這是人腦學習的一種模式,“學到某一個時間開竅了”,“計算機不可能出現頓悟,但是大模型會出現頓悟的情況”。
不久前,ChatGPT的主要競爭對手之一Claude將語境窗口token數擴展到10萬,相當於7.5萬個單詞,大大超越GPT-4語境窗口的8192 tokens。這意味著用戶可以將高達500頁的文檔上傳到Claude,它可以在不到1分鐘之內就理解、消化這些信息,並基於上傳的信息回答用戶的問題。
Claude是Anthropic公司推出的,這家公司由前OpenAI員工創立,自2022年底以來,谷歌已向該公司投資了近4億美元。
對此,陳潤生認為,目前大模型的學習速度比我們想象中快得多,“這兩家公司(OpenAI與Anthropic)你追我趕,說不定再過一段時間,GPT-5出來之後又比Claude強了,它發展那麼快,將來人們趕不上。”
“更麻煩的是,這些大模型公司都在考慮去操縱第三方設備”,陳潤生說,“能夠去操縱第三方設備是令人擔憂的一件事情,如果操縱和安全、國防相關的東西,那就不得了了。”
陳潤生坦言,人類的神經網絡結構遠比目前的大模型複雜得多,人工智能的發展還有很長的路要走,“現在的(人工智能)神經網絡在空間結構模型上應該有革命性的變化,也許那個時候,(AI)真的能夠超越人的智力。”(記者 戰釗)
版权声明:中科院院士陳潤生:大語言模型存在“湧現”和“頓悟”現象内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系 删除。
本文链接:https://www.fcdong.com/f/8fa0c491116a9382812f978ff91c614a.html