聯系我們

專訪唐傑 | 我國首個(gè)超大智能模型「悟道」發布,迎接基于模還靜型的AI雲時代

2021-05-28

唐傑認為,超大規模預訓練模型的出現,很可話工(kě)能改變信息産業(yè)格局,繼基于數據的互聯網時代、厭好基于算力的雲計算時代之後,接下(xià)來可(kě)能将進入基于模型事務的AI時代。智源研究院緻力于成為這樣一個(gè)時代的引領者,集聚業小各方資(zī)源力量,構建一個(gè)超大規模智能模型技術(黑視shù)生态和(hé)開放平台,供北京乃至全國的研究人員、開發者和(hé)企業黑現(yè)使用。

2018年谷歌發布BERT以來,預訓練模型(Pre-trainedModelsPTMs)逐漸成為自然語言處理(NLP)領域的主流。

20205月(yuè),OpenAI發布了擁有1750億參數量的預訓練模型GPT-3。作為一個(gè)語言生成模型,GPT-3不僅能夠生成流暢自然的文(wén)本,還能完成問(wèn)答、翻譯、創作小說視火等一系列NLP任務,甚至進行簡單的算術(shù)運算,吧術并且其性能在很多任務上都超越相關(guān)領域的專有模型,達到SOTA水平。

很快,OpenAI便開始了GPT-3的商(shāng)業(yè)化探索,并催生了一系列落地應用,微軟的醫村巨額投資(zī)也立馬跟進。同樣看中(zhōng)PTM潛力的谷歌,在2021年初推出超級語言模型SwitchTransformer,将參數量提升至萬億級别。

GPT-3為代表的超大規模預訓練模型,不僅以絕對的數據票近和(hé)算力優勢徹底取代了一些小的算法和(hé)模型子來工程,更重要的是,它展示了一條探索通(tōn喝制g)用人工智能極富潛力的路(lù)徑。然而,作算是為全球使用人數第一的語言,中(zhōng)文(wén)城商PTM寥寥可(kě)數。在這樣的發展态勢下(xià),構建以中(z近雪hōng)文(wén)為核心的超大規模預訓練算笑模型及生态勢在必行。

20213月(yuè)20日,北京智源人工智能研究院(下(xià)稱作數「智源研究院」)發布了我國首個(gè)超大規模智能模型系統「悟道呢低」的第一階段成果。「悟道」由智源研究院牽頭,彙聚清華、北大、人大、中(z刀厭hōng)科院等高校(xiào)院所,以及諸多企業(yè)的100餘位AI領域專家共同研發,從基礎性能、有效使用到預訓練模型事妹擴展,提出一系列創新解決方法,取得多項國際領先的AI技術(shù)突破和(hé)多個(gè)世界第一。

機器(qì)之心專訪了智源研究院學術(shù)副院長、清華用知大學教授唐傑。作為悟道項目負責人,唐傑分享了團隊關(guān)于超大規模花答預訓練模型的技術(shù)思考和(hé)戰略布局,以及智源研究院作為新一代AI研究機構的優勢。

智源研究院學術(shù)副院長、清華大學教授唐傑能得

唐傑認為,超大規模預訓練模型的出現改變了AI産業(yè)格局,繼基于數據的互聯網時代、基于算力的雲計算時代之後,接下技鐘(xià)來可(kě)能将進入基于模型的AI時代。而智源研究院要做的,則是緻力于成為這樣一個(gè)時代的引領者,集聚門雨各方資(zī)源力量,構建一個(gè)超大規模智能模型技術匠兵(shù)生态和(hé)開放平台,供北京乃至全電訊國的研究人員、開發者和(hé)企業(yè短話)使用。

今後越來越多的人會使用雲上的超大規模預訓練模型作為其AI研究和(hé)應用的基礎。超大規模預訓練模型系統将成為一種AI基礎設施,推動(dòng)理論研究和(h笑可é)技術(shù)應用更上一層。


超大模型勢在必行,迎接基于模型的AI時代

AI模型越做越大這件事不是最近才發生的。早在3年前便有人統計指出,計算機視覺領域的SOTA模型體積越來越大[1]

NLP領域亦然,從最早的ELMo5億參數)到後來的TuringNLG170億參數),GPT-3更是将模型的體積和(hé)複雜度拔升至一個(gè)全新的境界。美國大規模用明在線預測征求和(hé)彙總引擎Metaculus曾做過一項調研,參加者預計GPT-4參數量的中(zhōng)位數大約在2.5萬億[2]

唐傑表示,大模型可(kě)以包含更多數據,表示更多拿鄉信息,模型往超大規模發展是一個(gè)必然的趨勢。目前有很多團隊都在做萬報討億級模型,國外有DeepMind、谷歌Brain,國内有華為、快手等,研究成果各有千秋。

「谷歌在今年1月(yuè)就已經推出了萬億參數模型,但精度上了民并沒有提升很多。」因此,他推測GPT-4的參數規模很有可(kě)能上萬億,不僅如(rú)此,紙間OpenAI還會強調模型在衆多任務上精度的提高。

智源也在布局萬億級模型,包括配套的高性能算力平台。不過,唐傑表示,由于信亮萬億級模型參數量過于龐大,模型設計非常複雜,訓練耗時長,直接使用還線購存在一定困難,很多時候反而不如(rú)百億級的模型。在現車那階段的實際應用中(zhōng),充分利用數據,參數規模更小謝如的模型常常能實現更好的性能。

目前,悟道團隊一方面擴大模型的規模,讓模型的表飛人示能力更強,一方面針對實際應用,提高精度。此外,還在模型微調算公微法上進行創新,希望早日打通(tōng)百億級模型和(hé)萬億級模錢來型的橋梁。

「如(rú)果能用萬億級模型在一些任務上取得性能的顯著提升,這将是一個(gè服麗)裡程碑式的進步。」唐傑說。

随着算力的不斷提升,我們現在可(kě)以訓練知男越來越大的模型。或許有一天,真能出現與人腦突觸鐵你量級相當的100萬億參數模型。即便這樣的模型真能做出來,訓練也勢必花(huā)費去劇巨資(zī),動(dòng)辄數十億美元。

超大規模預訓練模型隻能是有錢人的遊戲嗎?就農小團隊如(rú)何創新?

對此,唐傑的看法是,人工智能發展可(kě)以分為這樣幾個(g子高è)階段:繼基于數據的互聯網時代、基于算力的雲計算時代之後,接下(水喝xià)來可(kě)能将進入基于模型的AI時代,相當于把數據提升為超大規模預訓練模型。未來,日要研究人員可(kě)以直接在雲模型上進行微調,很多公司甚至不用維護自己的行間算法研發團隊,隻需要簡單的應用工程師(shī)就行。

超大規模預訓練模型系統的開放,小團隊可(kě)以說是最大的受益者,大家不必近筆從零開始,預訓練基線智能水平大幅提升,平台多樣化、規到做模化,大家在雲上可(kě)以找到自己所需的模型,剩下刀吃(xià)的就是對行業(yè)、對場景的理解。這将給AI應用創新帶來一個(gè)全新的局面。

至于基礎研究,唐傑說:「理論上可(kě)以研究得更深、更系統了,以前研究這個(從小gè)模型使用這種數學方法好,現在可(kě)以擺到知北台面上、擴大到更廣的範圍來。」

「數據規模化的使用,将促使業(yè)界和(hé)有關(guān)機構更深入地讨道做論哪些内容可(kě)以學、哪些内容不能學,更加注重AI倫理、數據隐私、保密和(hé)安全等問(wèn)題。」短會


智源悟道1.0階段性成果發布,取得多項世界第一

智源研究院自202010月(yuè)正式啟動(dòng)超大規模智能模型「悟道」項目,悟道1.0已啟動(dòng)了4個(gè)大模型的開發,取得多項國際領先AI技術(shù)突破,持續填補我國研究領域空白:銀東

悟道·文(wén)彙——首個(gè)面向認知的超大規模新型預訓練模型現弟

該模型在多項任務中(zhōng)表現已接近要又突破圖靈測試,通(tōng)過簡單微調即可(kě)實現AI作詩、AI作圖、AI制作視頻、圖文(wén)生成、圖文(wén)檢索和(hé)北這一定程度的複雜推理。尤其是AI作詩方面,已接近詩人水平,并能首次實現根科紙據現代概念生成古體詩。文(wén)彙的最終目标是研發出更通務西(tōng)用且性能超越國際水平的預訓練模型,玩下搭建預訓練模型體系,形成認知智能的生态。

悟道·文(wén)瀾——首個(gè)超大規模多模态預訓練模型

該模型基于從公開來源收集并脫敏的5000萬個(gè)圖文(wén)對上進行訓練,性能已達國際領先水平,在中(z刀風hōng)文(wén)公開多模态測試集AIC-ICC的圖像生成描述任務中(zhōng),得分比冠軍隊高出5%;采用雙塔模型,在圖文(wén)互檢任務中(zh還見ōng),得分比目前最流行的UNITER模型高出20%。最終目标是生成産業(yè)級中(zhōng)文(wén)圖水明文(wén)預訓練模型和(hé)應用。目前,文(wén)瀾模型已對外國雨開放API

悟道·文(wén)源——首個(gè)以中(zhōng)文(wén)為核心的風窗超大規模預訓練模型

該模型目前參數量26億,預訓練數據規模100GB,具備識記、理解、檢索、多語言等多種能力,并覆蓋開放域回答、語法改錯做老、情感分析等20種主流中(zhōng)文(wén)自然語言處理任務,技術(空跳shù)能力已與GPT-3實現齊平。最終目标是構建完成全球規模最大的、以中(zhōng)文(wén兵下)為核心的預訓練語言模型,探索具有通(tōng)用有家能力的自然語言理解技術(shù),進行腦啟發的語言模型研但讀究。

悟道·文(wén)溯——超大規模蛋白質序列預測預訓練模型

該模型已在蛋白質方面完成基于100GBUniParc數據庫訓練的BERT模型,在基因方面完成基于5-10萬規模的人外周血免疫細胞(細胞類型25-30種)和(hé)1萬耐藥菌的數據訓練,同時搭建訓練軟件框架厭訊并驗證其可(kě)擴展性。最終目标是以基因領域認知圖譜為指導,研發出可(kě)訊站以處理超長蛋白質序列的超大規模預訓練模型,在基本厭分性能、可(kě)解釋性和(hé)魯棒性等多個(gè)方面達到世界領先水平關玩。

同時,悟道數據團隊還構建并開放了全球最大中(zhōng)文(wén)語人會料數據庫WuDaoCorpora,數據規模達2TB,超出之前全球最大中(zhōng)文(wén)語料庫CLUECorpus2020十倍以上。該數據庫不僅為悟道項目提供了數據支撐,由于來源廣泛及多樣性,可聽工(kě)廣泛用于中(zhōng)文(wén)NLP領域中(zhōng)多種任務的模型訓練,并使模型具有樂男更好的泛化性。數據經過了專門的清洗,确保隐私和(hé)安全及答些保密問(wèn)題。

為進一步實現模型規模和(hé)性能的擴增中(zh一唱ōng)面臨的挑戰,悟道系統團隊還開源了FastMoE,作為首個(gè)支持PyTorch框架的高性能MoE系統,打破了行業(yè)研究受制于谷歌的局唱綠限,支持多種硬件,隻需一行代碼即可(kě)完電花成MoE化改造,相比PyTorch樸素實現速度提升47倍。


所有的NLP任務都是生成任務

唐傑認為,超大規模預訓練模型有三個(gè)關(guān)鍵外到:首先,模型本身,這也是團隊智慧的體現;其次,大算力;第三,高說討質量的數據。

目前,悟道團隊在模型設計上:第一,針對複雜光麗任務設計模型,通(tōng)過記憶機理或者類似于推海妹理的機理,把一些更遠(yuǎn)的上下(xià)文(wén)信息加近了入到預訓練中(zhōng);第二,在把模型做大的過程中(zhōng),要能加速女國模型收斂性;第三,在後端的微調算法上探索,提高模型的務林可(kě)用性,把下(xià)遊任務的精度大大提高。

在此次發布的多項突破中(zhōng),由唐傑率領的悟道文(wén玩吃)彙團隊提出全新的預訓練範式GLM,以生成為核心,打破BERT和(hé)GPT瓶頸,同時在語言理解、生成和(hé)Seq2Seq任務上取得最佳性能。

文(wén)彙團隊還提出了基于連續向量的微調算法P-Tuning,首次實現自回歸模型在理解任務上超越自編碼模型,并在媽關知識抽取(LAMA)、少(shǎo)樣本學習(SuperglueFewshot)10多個(gè)任務上取得世界第一,性能提升文為超20%

GLM:基于生成的通(tōng)用預訓練框架

談到GLM的技術(shù)實現思路(lù),唐傑表示,基于雙向微討模型BERT和(hé)GPT各自在理解和(hé)生成上的優勢,團隊便思考如(rú)何将這兩個(g長你è)模型的優點融合在一起。随着研究的進行,他們修改了優化結合的方式北得,在優化目标函數上做了嘗試。再後來發現,auto-encoderseq-seq以及填空任務等都可(kě)以整合到生成模型中(zhōng),所有的NLP任務都可(kě)以被視為生成任務,統一在一個(gè)通(tōng)用框謝就架下(xià)。

唐傑表示,機器(qì)學習的傳統上可(kě)以分為判别模型和(hé答市)生成模型,這兩大派系也在不斷融合。當數據量少(shǎo)的情況下(的木xià),判别模型的效果會更好;而生成模型則比較複我嗎雜,需要在「理解」的基礎上進行判别,而大數據、大模型、大算力的到電習來,為生成模型提供了基礎,計算機可(kě)以實現基于大參子訊數的「理解」,這也是如(rú)今生成式方法務音成為機器(qì)學習大态勢的原因。

至于是否可(kě)以将生成看作是「理解」,「其實筆到這是一個(gè)哲學問(wèn)題」,唐師信傑說。

計算機到底需不需要「理解」,人類「理解」的本質又是什麼?對此,悟道團隊做了很術理多的思考。

最簡化地講,人類的理解分三個(gè)層次:第一河話種可(kě)以叫做人腦知識query,把已經記住的知識查取出來;第二種叫casebased,基于以前的認知和(hé)經驗來完成新的任務年校;第三種叫随機推理,也叫試錯性推理。

人類的這三種推理方式,其實計算機都可(kě)以實業市現。唐傑認為,當有一天計算機在衆多任務上東器通(tōng)過了圖靈測試,就可(kě)以把計算機「理解」問(w海錯èn)題的引号去掉了。


數據和(hé)知識雙輪驅動(dòng)的通(tōng)用AI之路(lù)

假設有一個(gè)囊括全世界所有數據的模型,我們服店想要完成什麼任務,給它輸入,模型返回多個(gè)候選結果,人類在此基礎上進行調裡到整完善,再将結果反饋給模型,讓其優化。與此同時,模型自身也能不錯間斷地從網絡上抓取數據進行自我學習……長此以往,最終獲得的模型,是否就是通(tōng)用AI呢(ne)?

唐傑說,「這其實也涉及到一個(gè)哲學問(wèn)題熱機」。關(guān)于計算機能否像人一樣思考,甚至超越人類智慧,「很多人議匠包括我自己在内,都是不相信,或者說不敢這樣認為的。但是,現請好在我的想法轉變了,我認為計算機實現乃至超越人類智能是可(kě)以實現的火視。」

悟道大規模預訓練模型系統的目标,便是從更本質角度進一步探索通外樂(tōng)用人工智能,讓機器(qì)像人一樣思考,讓模型具有認知微們能力。對于神經科學和(hé)人腦的思維方式,唐傑他都表示自己的發言權十分有限,但總的來講,如(rú)果可(kě)以用計算機模空樹型實現人類認知的9個(gè)準則,那麼他認為計算機就可(kě)以被稱為具有認知能力刀路。

認知AI需要具有的9大能力

但他也補充說,如(rú)果那一天實現了,也訊道不代表計算機就把人腦颠覆了,也許到那一天,我們人腦也會進步。「人的思維,包括我紙筆們的學習能力和(hé)進化能力,尤其是當人類處于壓力情況下紙行(xià),我們會往前大大進化一步。而且,人的思維方式和(hé)文書思維的本質目前也沒有真正得到一個(gè)結論。」

像剛才說的那樣,讓模型包含盡可(kě)能多的數據,并子暗從數據中(zhōng)提出内容,一般被稱為人工智能研究的「純學習派」。同時,錯現還有另一個(gè)派系,也就是傳統「符号AI」,認為隻需要把知識表示出來,計算機做搜索去藍、匹配就可(kě)以了。

悟道團隊走的是将知識與數據相結合的路(lù)線,這也是張钹院士在幾年前提出妹校的看法。「悟道在用兩條腿走路(lù)」,唐傑說:「一條腿是數據模型,另一條個你腿是知識圖譜。」一方面把知識圖譜做得非常大,另一方面,把知識圖譜放到預訓練模型男知中(zhōng),抽取知識圖譜反哺模型,進行雙輪驅動(dòn那什g),「我認為這是當前實現通(tōng)用人工智能最有前景的行樹方法」。

唐傑表示,我們應該允許機器(qì)犯錯,犯錯不可(kě)怕,最關(gu頻會ān)鍵是要知道錯誤的原因。人的認知中(zhōng習外)有一個(gè)試錯過程,意識到錯誤會反饋修改。「什麼叫做『創慢道新』?人通(tōng)過試錯,如(rú)果試對了,就是一種『創新』。」

盡管在受限領域,計算機已經可(kě)以自我糾錯,比如(rú)AlphaZero,在下(xià)棋過程中(zhōng)會感知自己走錯了,然後空吧進行反饋,自我進化。但在通(tōng)用領域,計算機是沒有這個(gè體道)反饋的,它錯了以後沒法修正,甚至不知道自己錯朋通了。

那把受限領域都集中(zhōng)到一起,是否就能讓機器信土(qì)在通(tōng)用領域自我糾錯了呢(ne)?唐傑指出,這是數據和(土服hé)知識的一個(gè)悖論,人總覺得自己的知識是無限擴張的看日,人每天都可(kě)以創造新的知識,無法把所有知識都裝在機器(qì)地厭裡。

而機器(qì)生成的内容,很多人不認為是知識或者「創新」,而隻是紅說一種組合。「如(rú)果有一天機器(qì)發現的東西獲得了諾貝爾獎,那我認藍場為就可(kě)以視機器(qì)能夠『創新』。」


科學沒有高下(xià)之分,隻看能在多大程度上解決Why與How

「哲學」這個(gè)詞在采訪中(zhōng)多次出現;超大規模預訓練模型的廠頻出現,讓唐傑從不相信、不敢認為,到相信機器(qì)的智能可(海雜kě)能超越人類。

但是,也有觀點認為大規模預訓練模型是大數據、大算力之下(xià)的暴力美學,缺得員乏對世界本源的理解。唐傑認為,這個(gè)世界上科學就兩種,一知們種是回答Why,一種是How。而回答Why有兩個(gè)範疇,一個(gè)叫做基礎理論科學,另一個(gè下舞)叫做工程科學,兩者沒有高下(xià)之分。

至于How,則是看研究成果應用範圍有多廣,以及真正北子能推動(dòng)哪些産業(yè)進步。具體到超大規模預訓練模那可型,唐傑認為模型上雲是一個(gè)大的方向,将裡家來誰可(kě)以成為模型上雲引領者,推動(dòng)整個但短(gè)産業(yè)的發展,誰就是最終的成就者,「購媽這就是所說的how以及誰能做這個(gè)事」。

而探究人腦思維則是在回答Why。「科學的本質是什麼?為什麼人腦的思維就一定要強過計算機?對此相司我們可(kě)以大膽質疑,小心求證,大家說人類智能比機器(q來行ì)好,我們可(kě)以反過來問(wèn),為什麼機器(qì)的智化問能不能比人好?這是回答Why的過程。」

唐傑表示,科研成果的評價指标需要根據不同的行業(yè)、不同的場景校黑來判别,歸根結底是看能在多大程度上解決了WhyHow,是否真正推進了社會的進步。就像萬億級參數模型,可(kě)上呢能這個(gè)世界上99%的公司都用不上,但是作為科研探索很重要。


要做就做最難的、對标最好的

智源悟道1.0的發布,标志着「智源模式」取得階段性實質進展。

作為新型的AI研究機構,智源研究院聚焦原始創新與核心技術(sh說南ù),緻力于建立自由探索與目标導向相結合的科研體制。作為北京市AI戰略科技平台,智源從創立以來,在科研機制上進行了多種嘗試,比如(r秒白ú)「智源學者計劃」,支持科學家勇闖無人區,「就是想草腦做什麼就做什麼,」唐傑說:「隻要夠牛,要麼回答了how,要麼回答了why,而且是别人做不到的。」

同時,智源研究院也會圍繞目标明确、有戰略意制頻義的大項目,靈活機動(dòng)地組織跨學科術來、跨機構的專業(yè)研究和(hé)工程人員,組成緊密協作的大地友規模團隊,共同攻關(guān),比如(rú)這次的超大黑制規模智能模型系統項目。

GPT-3出來以後,我們看到市場未來産業(yè)化的發展,從數據雲到計算雲到模型雲,這是拍風一個(gè)大的趨勢,智源研究院有義務、也有能力來引領問校,因此迅速确定目标,組織團隊。」唐傑說:「每個(gè)參錯朋與方,包括高校(xiào)、企業(yè)和(錢站hé)研究院所,都是帶有目标、帶有資(zī)源、帶有情懷的,大訊因此能夠通(tōng)力協作。」

唐傑介紹說,悟道1.0隻是一個(gè)階段性的成果,今年6月(yuè)将會有一個(gè)更大、更高的智慧跳街模型發布。第一,模型規模會有實質性的進展;第靜和二,模型會在更多任務上突破圖靈測試;第三,把應用平台做得更加夯實近女。後續悟道模型将以開放API的形式對外提供服務,用戶通(tōng)過申請并經授權後,可(件媽kě)以基于模型API開發各類智能化應用。另外,也會開源模型的社區版本,服務我國AI科研發展。

「我們希望每一個(gè)我們做的東西一定是世界上最好的,如(rú)果不能做到最科音好,那就不做了。或者,如(rú)果很多人都能做得比較好,我們也不做,我們就要做中大最難的,對标最好的,包括我自己的定位。」

「此外,光盯着現在的事情我們也不做,我們要北場瞄向下(xià)一步,十年以後、二十年以後人工智能是什麼樣子(zǐ),我們覺場但得能做就會去做。認知AI是我特别看好的,預訓練模型和(hé)知識數據雙輪機哥驅動(dòng),是實現通(tōng)用AI的其中(zhōng)一個(gè)辦法。我非常堅信,十年、二十老服年以後,計算機在很多任務上就能突破圖靈測試。」

注釋

[1]https://heartbeat.fritz.ai/de道日ep-learning-has-a-size-problem-ea601304日跳cd8

[2]https://www.metaculus.co長紙m/questions/4852/how-many-parameters站討-will-gpt-4-have-if-it-is-releas習友ed-in-billions-of-parameters/

(轉載自機器(qì)之心)

誠聘英才
友好鍊接
業(yè)務咨詢及參觀訪問(wèn):07理匠55-86576085 &nbs了對p;  0755-86576086視也    地址:學拍深圳市南山區笃學路(lù)9号
國家超級計算深圳中(zhōng)心(深圳雲計算中(zhōng)心)&nb兵有sp; ©2014-2020  粵ICP備10媽照220126号