聯系我們

專訪唐傑:萬億參數大模型隻是一個(gè)開始

2021-08-02

智源悟道團隊不僅會在「大」這條路(lù)上走下(xià)慢她去,還将對構建「神經-符号結合模型」進行更深入和(hé)底層的探著樹索。

 

圖靈寫于 1950 年的論述《計算機器(qì)與智能》被譽為人懂雨工智能的開山之作,他在文(wén)中(zhōng)不僅提出了「機器(qì)會思又理考嗎?」這一經典問(wèn)題,還給出了著名的「圖靈測試和用」用以判斷一台機器(qì)是否擁有「智能」。

但經過詳細論證,在文(wén)章趨于收尾時,他又補充說:「與其嘗到對試制作一個(gè)程序模拟成人的大腦(mind),何不嘗試制作一個(gè)模拟兒童大腦的程序呢(ne)?」

在題為「會學習的機器(qì)」(Learning Machines)這最後一小節中(zhōng),圖靈寫道,兒童的大腦就好比剛從文(wén)具通刀店裡買來的筆記本,裡面沒有任何結構(mechanism),全是大量空白的表格(sheets)。從計算機科學研究者的角度看,這樣的形容簡直再直白不過。

三四歲的孩子(zǐ)已經能夠舉一反三,簡單推理,模仿父母最細微的姿态和(h很也é)動(dòng)作,并且知道如(rú)何通(tōng)什件過自己的行為影響他人。而這正是人工智能研究者迫切快歌希望其構建的AI系統所能具備的。

如(rú)今,機器(qì)學習不僅是人工智能領域研究的重點,也正在成區上為整個(gè)計算機科學研究的熱點。2020 5 月(yuè),OpenAI 發布了無監督轉化語言模型 GPT-3,其展現出的從海量未标記數據中(zhōng)「歌銀學習」且不限于某一特定任務的「通(tōng)用」能力,讓 AI 研究者看到了基于大規模預訓練模型探索通(tōng秒妹)用人工智能的可(kě)能。 

2021 6 月(yuè),北京智源人工智能研究院(以下(xià)簡稱「智源會醫研究院」)發布「悟道2.0」巨模型,以 1.75 萬億的參數量成為迄今全球規模最大的預訓練模型。不僅如(rú)此,悟道團隊還基話相于 GPT BERT 各自在自然語言生成(NLG)和(hé)自然語言理解(NLU)任務上的優點,成功将兩者融合并提出通(tō銀體ng)用語言模型 GLM,将所有自然語言任務都化歸為生成任務進行統一處理,分看GLM 也成為首個(gè)在 NLUNLGSeq2Seq、不定長填空等任務中(zhōng)全部登頂的語言模型。 

超大規模預訓練模型是否代表了圖靈所說的「會個暗學習的機器(qì)」?不斷增大的模型(以及不斷增加的算力)最終能把我們我知帶到哪裡?預訓練模型究竟從數據中(zhōng)學到了什麼?未腦冷來的機器(qì)智能是否會改變我們對數據、信息、知什湖識乃至智慧的定義?帶着這些疑問(wèn),機器(qì)之心專畫有訪了智源研究院學術(shù)副院長、悟道項目負責人、清華大學計算機系教授睡水唐傑。

智源研究院學術(shù)副院長、悟道項目負責人、清華大學舊章教授唐傑,在 2021 北京智源大會上發布悟道 2.0。來源:智源研究院 

唐傑早先從事數據挖掘和(hé)知識工程方費了面的研究,他曾經不願意也不敢相信機器(qì)智能可(kě)以超越人,西中但大規模預訓練模型改變了他的想法;如(rú)今,他開始反問(wèn)舊家為何機器(qì)智能不可(kě)以超越人。 

唐傑表示,萬億參數大模型隻是一個(gè)開公呢始,作為一種科學上的探索,智源悟道團隊将草錢堅持在「大」這條路(lù)上走下(xià)去,探索其邊界,因為他們已經在大模動理型上觀察到了以往小模型上所不曾有過的現象。對章 

但他同時也指出,單靠增加訓練數據量或模型參數規我愛模不足以實現「智能」,悟道團隊目前踐行的大電「知識 數據雙輪驅動(dòng)」,正是嘗試将知識這種符号信息與藍服神經網絡相結合,構建所謂的「神經-符号結合模型」,從而賦予機器(qì)認知能力。 

在更遠(yuǎn)期的規劃中(zhōng),唐傑希望讓悟道民北模型擁有自學習的能力,以及作為一個(gè)主體與現實世界交厭女互的能力,正如(rú)人類兒童在成長中(zhōng)所經呢近曆的那樣。 

至于眼下(xià),一個(gè)重點将是基于悟道 2.0 構建一個(gè)平台和(hé)生态,讓企業(白地yè)、開發者和(hé)研究人員真正用起來——用他的話說就是「大相和規模預訓練模型不是用來作秀的」,并根據用戶的反饋優化和(hé)叠代慢白。不過,這方面的工作将由其他團隊牽頭完成很黑。 

悟道團隊将持續聚焦,這也是唐傑個(gè)人的研究風格——專內北注、專注再專注,直到拿出嚴謹、可(kě)外我靠和(hé)有力的成果。 

他說:「更重要的是各種任務精度的提升,算法的優化,運老看行效率,以及對整個(gè)人工智能軟件和(hé)硬件應用及架構的再科南考察。」 

要讓機器(qì)從數據中(zhōng)學出所有的人類知識,現在所謂的「大報吧數據」根本少(shǎo)得可(kě)憐 

深度學習常為人诟病的一點在于其不可(kě)解釋性。然而,花行存儲在人類大腦中(zhōng)的知識亦然,隻不過鐘制我們能夠借助語言進行表達。 

但即便如(rú)此,還是有很多無法用言語描述進而抽象為知識我河的東西。 

英國皇家結構工程師(shī)學會的某位大師(shī)曾在演講中(zhōng)做間自嘲:「結構工程是這樣一門藝術(shù),将海見我們尚未充分理解的材料,做成我們無法精确分析的形狀,去承受我們無法正确評估的紅靜力,以緻公衆沒有理由懷疑我們的無知程度。」據他自己坐門所說,每次他在演講中(zhōng)提及這句話些飛時,都能從現場觀衆那裡得到不錯的反應。果然懂的人都懂。笑好 

很大程度上,現階段的深度學習也是如(rú)此,大規模預訓練模型确理照實從數據中(zhōng)學到了什麼,但其具體過程或數理機制尚不明晰。 

在擁有 1.75 萬億參數的悟道 2.0 上,唐傑團隊觀察到模型不需要訓練數據,可(kě)以自動(dòng)從未标記電書的數據中(zhōng)學出一些人類知識,有的機器(qì)學習出的知識圖譜比術司人工标注的質量還要好。 

「隻要模型足夠大,也許會達到一個(gè)奇點,不需要人類知識,機器(qì)隻湖西用數據就能學出人類有史以來所有的知識,」唐傑說:「因微東為人類的知識也是經過曆史慢慢演化,經過案例學習和(hé)不斷試錯總結歸請雪納出來的。」 

但他認為,這種純數據驅動(dòng)的方法還有很長的路(lù)要走,至少討議(shǎo)未來十年都難以見到突破。原因也很簡單,木暗就看一點,如(rú)果真要讓機器(qì)從數據中(zhōng)學出所黑低有的人類知識,現在所謂的「大數據」根本少(shǎ弟司o)得可(kě)憐——計算機發明至今也不過 70 多年,物聯網數據才剛剛興起,還有其他各種類型的數兒購據,光是要收集那麼多的數據就需要很長的時間。 

悟道團隊采用「知識 數據雙輪驅動(dòng)」方法,因為人類知識經過高度抽象,不僅精度高且質靜又量好,利用好了能大幅加速機器(qì)學習的過程,有效提升訓能們練效果。 

或許有一天我們就從預訓練模型中(zhōng)探索到類似牛頓三大定律這土樹樣的東西呢(ne)? 

不同于傳統意義上的知識,存儲在神經網絡中(zhōng時什)的知識由模型的參數及架構決定,一般難以被人理解。 

唐傑與他在清華和(hé)智源的合作者将這種從數據中(zhōng)學習獲取得劇,存儲于神經網絡模型中(zhōng)的知識稱之為「連續型知識」見能,而他們則嘗試從「連續型知識的存儲和(hé日湖)管理」角度來展開對超大規模預訓練模型的探索。 

換句話說,超大規模預訓練模型就好比一種全自呢新的知識庫,隻不過裡面存儲的是不能直接被妹雨人所理解的連續型知識。這些連續型知識可(kě)以校間像 OpenAI GPT 那樣,存在一個(gè)超強的大模型裡,也來答可(kě)以像 Google AI Switch Transformers 那樣,由多個(gè)混合專家模型(MoE)合并而成。但是,這兩種方法都對算力和(hé)又務存儲提出了巨大的需求,而且無論是數據還是知識,都是在不斷增加和習北(hé)更新的。 

對此,清華大學的研究人員提出了「通(tōn服輛g)用連續型知識庫」的概念。這個(gè)通(tōng技為)用連續型知識庫存儲的不是模型,而是模型中(zhōng)的連續型知識。通(老理tōng)過将不同模型中(zhōng)的連續型知煙信識都存儲在這樣一個(gè)庫裡,一定程度上購店能減輕對計算和(hé)存儲的負擔。但這需要先把連續型跳麗知識從模型中(zhōng)分離(lí)出來亮房,還涉及不同模型的連續型知識的導入和(hé)導媽購出。因此,通(tōng)用連續型知識庫存儲架構筆房和(hé)接口的設計,還有各種連續型知識的融合與區分,風筆都需要更深入的探索。 

對于超大規模預訓練模型的發展,唐傑認為有三個(gè)方面值得注土好意。首先,算法還有很大的改進空間,包括效率的提自暗升,如(rú)何将知識這種符号信息與神經網絡相結合,書著構建「神經-符号結合模型」,以及如(rú)何更高效地從數據中(zhōng)提煉出連續型知吃技識。 

GPT 本身是很簡單的,但事實證明簡單并不一定不好,或許有匠大一天我們就從預訓練模型中(zhōng)探索離的到了類似牛頓三大定律這樣的東西呢(ne)?然後再把個信這些喂給模型,不斷優化,最終實現大一統也不是沒有可(kě)能。」他說器呢。 

「雖然很多人反對這種大一統的模型架構,但算法本身是有很窗空大探索空間的,也值得我們去探索。在牛頓三大定律出現之前,我們也在認識這個子計(gè)世界,後來愛因斯坦的相對論出來推翻了前者,我討西們又重新認識了世界,算法也是這樣,會經曆一個(gè)長期演化的過程,民新而且不一定非得達到終點才能使用。」 

二是預訓練模型走向更多的應用,把信息和(hé)人、車(chē)、物等等都南坐聯系起來,尤其是加入人的動(dòng)态,由此帶來的複雜一地度和(hé)搜索空間都會指數級提升,這就要求研究人員在構建模型時考慮線睡更多的維度。 

在更長遠(yuǎn)的未來,唐傑認為模型需要具有自學習的能力,因為人是會不從物斷反思、不斷複盤的,模型也要能夠自我優化,并且作為一個(gè)主體與世界劇大交互,通(tōng)過外界的反饋不斷改進和(hé)持續學習。 

悟道團隊會在一直往「大」做上去,直至其邊界裡作 

從悟道 1.0 2.0,曆時不到 3 個(gè)月(yuè),模型參數量增長了千倍,亮山規模也做到了全球引領。 

有人問(wèn)唐傑為什麼他們能在這麼短(duǎn)的時間内拿出這麼多成果,機畫「因為我們早就開始做了呀」,他笑着說。 

「作為一種科學研究,悟道團隊會在一直往『大』做上去,直至其邊界,以探索人工智得厭能所能達到的極緻。」 

不過,他認為沒有必要在「大」這件事情上過分糾煙國結。模型并非越大越好,尤其在實際應用場景,腦藍要優先考慮成本和(hé)速度,而最關(guān)鍵的是精度,如(rú)何吃水用 10 億級别的小模型在某些任務上取得更優的性能,加快實際部署,也是悟道團隊當前熱東的一個(gè)研究重點。 

對于悟道 2.0 做平台化跟産業(yè)界對接,唐傑表示大力支持,「因為大規模預訓練模型業城不是用來作秀的,要把模型真正用起來,我們需要業(yè門外)界的反饋」。 

悟道 2.0 也确實在産業(yè)界引起了反響,作為一個(gè場學)證明,唐傑告訴機器(qì)之心:「1.0 發布的時候很多企業(yè)都在觀望,今天 2.0 發布,我台上剛講完,就有好幾家公司表示願意加入,高路積極性很強。」 

不過,企業(yè)也并非完全沒有門檻,正如(rú)之前開章采訪中(zhōng)唐傑說的那樣,所有參與方都是帶着資(zī)源與情懷參與看影到悟道項目中(zhōng)來,本着開源開放,合作共都子享的精神與理念。目前,悟道團隊大約百人,對于這樣一個(gè)大型科研項靜業目而言,在人手和(hé)資(zī)源上其實并不算多。因農行此,應用開發和(hé)産業(yè)化落地相關(guān)的工作,将由合作就男企業(yè)和(hé)智源的其他團隊牽頭完成。 

從悟道 1.0 2.0,唐傑作為項目負責人,感受最深的地方是如(rú)今科可去研試錯的成本更大了,因此戰略布局的眼光也要更精準。例如(r多關ú),以前模型有了問(wèn)題可(kě)以重頭再來,而現在不管是時間花為成本還是經濟成本都不允許方向性的誤判。在什麼階段決定做什麼也很重要,一方面是公算預判技術(shù)或産業(yè)的發展,另一方面金姐是資(zī)源有限,什麼都做很可(kě)能什麼動站都做不好。 

此外,悟道 2.0 全部在國産 CPU 上完成訓練,唐傑認為這也表明了超大規模預訓練模型從應用層面拉動(dòn鄉快g)了對超算和(hé)智能計算的探索,從某種程度上補光議齊了我國在超算應用方面的短(duǎn)闆,也有請窗助于未來智能超算中(zhōng)心的規劃和(hé)建設。 

他并不擔心國内其他團隊在超大規模預訓練模黃房型上的跟進,對于眼下(xià)大模型頻出問北的狀況也十分理解。「當你(nǐ)從事一個(gè)方向,有人跟進總比沒人跟進要的器好,對吧?」唐傑反問(wèn)說:「而且大部分的事情發展都這樣,起店冷先熱一點,然後有些太過了,就自然會冷(lěng)靜下(xià)來,往回收一些。短科」 

悟道出現在北京并非偶然,「因為這裡有最高的習長人工智能軟件和(hé)硬件人才密度」,與建設超算中裡年(zhōng)心一樣,構建超大規模預訓練模型也要因地制宜,量力而行看訊。「要想清楚為什麼做,你(nǐ)的條件适不适合做。」唐傑說場醫。 

2020年,ACM SIGKDD 将「時間檢驗應用科學獎」授予了唐傑等人在 2008 年寫的論文(wén)「ArnetMiner」。經過十幾年的發展,這個(gè)最初跑在唐傑筆記本上的算法,已木上經成為如(rú)今的在線科技情報挖掘平台 AMiner 

接下(xià)來,唐傑将專注于超大規模預訓練模型的研究,至于是否看能能由此實現通(tōng)用人工智能,有一點可劇林(kě)以肯定,隻要我們對「通(tōng)過計算能夠黃開實現智能」這個(gè)大前提沒有弄錯的話,剩下(x錢務ià)的應該隻是時間問(wèn)題。 

(轉載自機器(qì)之心)

誠聘英才
友好鍊接
業(yè)務咨詢及參觀訪問(wèn):0755-86576085 &嗎坐nbsp;  0755-86576086 明物   地址計村:深圳市南山區笃學路(lù)9号
國家超級計算深圳中(zhōng)心(深圳雲計算中西弟(zhōng)心)  ©2014-2020&n們做bsp; 粵ICP備10220126号