2021-06-23
6 月(yuè) 19 日,CVPR 2021 在線上拉開帷幕。作為計算機視覺三大頂會之一,本屆 CVPR 大會一共接收了 7039 篇有效投稿,最終有1366 篇被接收為poster,295篇被接收為oral,接收率大概為 23.6%。
在前段時間公布的最佳論文(wén)候選名單中(zhōng),我們發現黑黑,華人一作論文(wén)占據了半壁江山(16/32)。當然,這一現象并非偶然。其實,早在九年前,華人學者很鄉就已經憑借其創新精神在國際 CV 頂會上大放異彩,比如(rú)香港中(zhōng)文(wén)大學的湯曉鷗團隊金員:2012 年 CVPR 大會僅有的兩篇深度學習文(wén)章均出自其實驗室。廠術2011—2013 年間,該實驗室又在 ICCV 和(hé) CVPR 上發表了 14 篇深度學習論文(wén),占據全世界在這兩個(gè)會身秒議上深度學習論文(wén)總數(29 篇)的近一半。
2014 年,湯曉鷗等人創辦了商(shāng)湯科技,這種創新精神也被刻入商(shān離子g)湯的基因并延續至今。
在今年的 CVPR 大會上,商(shāng)湯共有 66 篇論文(wén)被接收,遠(yuǎn)高于業(yè)界平均水平。此外,在同期行美舉辦的挑戰賽中(zhōng),商(shāng)湯 - 南洋理工聯合實驗室(S-Lab)團隊一舉斬獲 CVPR 2021 NTIRE 視頻理解挑戰賽三項冠軍,包括視頻超分辨率、重度壓縮視頻質量增強(固定量化少我參數,保真度)和(hé)重度壓縮視頻質量增強(固定比特率,保真度見一)賽道。商(shāng)湯研究院團隊則摘得吃民 CVPR 2021 ActivityNet 時序動(dòng)作檢測任務弱監督學習賽道冠軍。
AI 領域發展到今天,如(rú)何保持創新活力、加快産業(yè)落地了讀是所有企業(yè)面臨的共同問(wèn)題。在這一點上,商(shāng)還吃湯的态度是明确的「既要…… 又要…… 還要……」,即既要保持技術(shù)創新的領先,又要加快用計産業(yè)落地,同時還要建設面向整個(g司照è)生态、整個(gè)社區的 AI 基礎設施,推動(dòng) AI 進入工業(yè)化發展階段。
從今年的 CVPR 和(hé)商(shāng)湯最近的一些動(dòng)向中(zhōng),我們可會她(kě)以看出這家公司為實現上述願景所做的努力。在這篇文(wén)章中(zh地林ōng),我們就來聊聊這一話題。
技術(shù)創新不能落下(xià)
對于商(shāng)湯今年在 CVPR 中(zhōng)取得的成績,該公司聯合創始人、香港中(zhōn唱紙g)文(wén)大學 - 商(shāng)湯科技聯合實驗室主任林達華評價員雨說,「對商(shāng)湯來說,AI 的研究和(hé)創新是刻在基因裡的。從公司建立的第一天開始,甚裡視至在建立之前,我們的創始團隊就一直把 AI 的基礎研究作為持續追求的理想。所以,盡管商(shāng)湯的整師很個(gè)發展經曆了很多階段,我們也把 AI 落地到了越來越多的産業(yè)中(zhō讀看ng)去,但我們始終沒有忘記,整個(gè) AI 産業(yè)發展的最初原動(dòng)力來自于技術(shù)的突破和(h著也é)創新。」
商(shāng)湯的這種理念在曆年 AI 頂會中(zhōng)得到了很好的體現,今年的 CVPR 也不例外。從研究方向來看,該公司今年入選的論文(wén)分訊術布在多個(gè)領域,包括長尾目标檢測、軌迹預測、3D 點雲補全、3D 場景重建、激光雷達 3D 目标檢測等,其中(zhōng)的 3D 點雲補全、3D 場景重建等相關(guān)論文(wén)還被收錄為 Oral 論文(wén)。
3D 點雲是 3D 場景和(hé)目标的一種直觀表示。然而,由于遮擋等問(wèn)題的存在,河睡掃描得到的 3D 點雲通(tōng)常是不完整的。因此,利用一場不完整的點雲預測目标的完整 3D 形狀成為一個(gè)重要問(wèn)題。但是,現有的點雲補全方法傾向于生成全局微唱形狀骨架,缺乏局部細節。而且,它們大多會學習一個(gè)确定性的部分到整體老房的映射,忽視人造物體中(zhōng)的結構關(g家報uān)系。
商(shāng)湯的研究者認為,點雲補全應呢窗從殘缺點雲中(zhōng)學習關(guā關跳n)系性結構屬性來恢複可(kě)信且高質量的完整裡快點雲形狀。為了實現這一點,他們在論文(wén)中(zhōng)提出了一個(線船gè)兩階段的網絡:首先對殘缺點雲做概率重建以恢複一個(gè)粗計喝略的完整點雲,再結合殘缺點雲做關(guān)系性結構增強達到高質量的補全頻喝。實驗顯示,該方法顯著提高了生成的完整點雲質量。這份研究可(kě)章信以結合很多單目深度感知傳感器(qì)(如(rú)激光能湖雷達或深度相機)完成對未知形狀部分的恢複和(hé)預估。預估出的完整形狀可個火(kě)以有效輔助很多下(xià)遊任務,如(r好近ú) 3D 形狀分類、姿态檢測、避障和(hé)交互。
論文(wén)鍊接:static/file/2104.10154.pdf
3D 場景重建是 3D 計算機視覺的一個(gè)核心任務。例如(rú)在增強現實(AR)應用中(zhōng),為了在 AR 效果和(hé)周圍的物理環境之間形成自然光樹、沉浸式的互動(dòng),3D 重建需要非常精确、連貫,還要保持實時性。雖然使用 SOTA 視覺慣性 SLAM 系統可(kě)以精确跟蹤攝像機運動(dòng),但由好有于重建質量低、計算要求高,基于圖像的實時密集重建仍然是一個(gè)具有坐相挑戰性的問(wèn)題。
在一篇CVPR最佳論文(wén)候選論文(wén)中(zhōng),商(shāng)湯草草的研究者提出了一種新的基于神經網絡的單目實時少低場景 3D 重建系統——NeuralRecon。不同于以往基于深度圖估計與融合的方法,NeuralRecon 直接基于圖像特征預測用 TSDF 表示的局部 3D 表面,并創新地提出了一個(gè)聯合 TSDF 重建與融合的框架。實驗結果表明,該方法在準确率和(hé)民生速度方面都優于 SOTA 方法。
論文(wén)鍊接:static/file/2104.00681.pdf
NeuralRecon的預訓練模型在辦公區域場景實時重建的結果
在被 CVPR 接收的衆多論文(wén)中(zhōng),我們校弟發現,很多研究其實都是由應用場景驅動(dòng)的,比如(rú章長) 3D 點雲補全可(kě)能用于自動(dòng)駕駛、機器(qì)下時人,3D 場景重建可(kě)以用于增強現實(AR)等。這也解釋了商(shāng)湯能夠長期保持創新活力的重要原她呢因。
林達華在采訪中(zhōng)表示,商(shāng)湯擁有一個(慢遠gè)業(yè)務跟學術(shù)連接的環境,是産生新的學術(sh長遠ù)問(wèn)題的肥沃土(tǔ)壤,「這些問(wèn)題帶給商(shāng)司了湯很多激動(dòng)人心的研究機會,牽引着我們愛西的技術(shù)創新。」
産業(yè)落地步伐加快
積累了那麼多技術(shù),終究是要拿出來用的。在前我現段時間舉辦的上海國際汽車(chē)工業(yè)展覽會上討樂,商(shāng)湯将多年積累的 AI 技術(shù)打包,一股腦地呈現在了多款線靜智能汽車(chē)上。
這個(gè)打成的「包」就是 Sense Auto 智能汽車(chē)解決方案,包括 SenseAuto Pilot 智能駕駛和(hé) SenseAuto Cabin 智能車(chē)艙。
在 SenseAuto Pilot 智能駕駛方案中(zhōng),最引人關(guān)注的 SenseAuto Pilot-P 駕駛領航方案可(kě)實現高速公路(lù)是師場景下(xià)的車(chē)道跟随、超車(ch習醫ē)自動(dòng)變道、導航自動(dòng)變道、朋自自動(dòng)上下(xià)匝道、匝道通(tōng)行等多種 L2 + 級高級輔助駕駛功能;已裝在多個(gè)量産為行車(chē)型中(zhōng)的 SenseAuto Pilot-V 前視視覺感知方案可(kě)以提供 200m 前向有效探測,支持自動(dòng)緊急制動(dòng)、車(ch動朋ē)道保持輔助、雙預警功能,還能有效應對近距離(lí)報市行人 / 非機動(dòng)車(chē)橫穿等複雜場景。此外,車(ch討空ē)道分離(lí) / 彙合點、路(lù)面标識、交通(tōng)光物燈形狀、施工區域錐形筒等長尾場景元素的感知也在這套廠習系統的能力範圍之内。
整套系統背後涉及的技術(shù)包括激光雷達高精 3D 感知、點雲噪聲識别、軌迹預測、長尾目标檢測等,來綠這些都出現在了今年的 CVPR 接收論文(wén)中(zhōng)。商(shān門做g)湯表示,該系統能夠在最大程度上發揮攝像頭、音她毫米波雷達、激光雷達等傳感器(qì)的感知優勢,顯著提升 3D 目标的檢測和(hé)跟蹤性能,提供智能的道路(lù)動(dò和師ng)态目标軌迹預測,支撐系統安全可(k討花ě)靠地拓展至城市工況場景。
SenseAuto Pilot-P 駕駛領航方案可(kě)以精準識别道路(lù)分離(lí)、合并點,幫助車說西(chē)輛在匝道内進行合理決策,實現自動(d跳鐘òng)上下(xià)匝道的 L2 + 級高級輔助駕駛功能
SenseAuto Cabin 智能車(chē)艙解決方案同樣令人眼前一亮(liàng),涵蓋 SenseAuto Cabin-D 駕駛員感知系統、SenseAuto Cabin-O 座艙感知系統 、SenseAuto Cabin-K 智能進入、SenseAuto Cabin-V 座艙域視覺控制器(qì)等模塊。這些功能可(kě)器理以為駕駛員提供無接觸的車(chē)艙交互,減少(s秒議hǎo)點觸操作頻率;對疲勞、分心以及接打手機等危險行為進行提醒;路樂還能自動(dòng)感知是否有兒童被獨自遺留在車內是(chē)内等。這背後離(lí)不開成熟的目标檢測答市、跟蹤、識别等視覺算法。
目前,商(shāng)湯在智能車(chē)艙領域已經和(hé)全球超過白校 30 家頭部企業(yè)展開合作,定點量産項目如事數超過 30 個(gè),覆蓋車(chē)輛總數超過 1300 萬輛。
搭載了商(shāng)湯 SenseAuto Cabin 智能車(chē)艙解決方案的 WEY 全新旗艦車(chē)型摩卡首次亮(liàng)相上海車(chē話森)展。
從智能駕駛到智能車(chē)艙,可(kě)以看到商(shāng)湯落地的步伐正匠訊在加快。這不僅得益于其與生俱來的創新能力,也離(lí數如)不開豐富的算力資(zī)源和(hé)算法、數據等方面的積累。體上這些成果共同構成了商(shāng)湯正在建設的AI基礎設施——SenseCore商(shāng)湯AI大裝置。林達華透露,這個(gè) AI 大裝置不僅幫助商(shāng)湯縮短(duǎn)了創新聽中驗證的周期,還将成為未來十年重要的 AI 基礎設施,逐漸提供開放服務,演變成一個(gè)面向整個(gè)生态、器去整個(gè)社區的具有公共性質的設施。
AI大裝置蓄勢待發
在上海臨港新片區,一座宛如(rú)芯片的建築群将在今年年底投入使用鄉草。這是商(shāng)湯正在建設的人工智能計算中(zhōng書音)心(Artificial Intelligence Data Center,AIDC),全部建成後 AI 計算峰值速度将達到 3740 Petaflops(1 petaflop 等于每秒 1 千萬億次浮點運算),可(kě)以在一天之内把人類石器(qì)時代到現在所有時間暗是錄成的視頻計算完成,也能在一天之内完整訓練 OpenAI 的千億參數模型 GPT-3。
但是,AIDC 僅僅是商(shāng)湯 AI 大裝置的一部分,而遠(yuǎn)非全部。從結構上看,整個(gè)大裝車呢置共分為三層:
一是算力層。該層以 AIDC 為基礎,兼容 AI 芯片和(hé) AI 傳感器(qì)的強大能力。
二是平台層。這一層融合了商(shāng)湯家些的數據平台、高性能計算引擎、深度學習訓練框架(民如SenseParrots)以及模型生産平台等,打造了創新的人工智著讀能通(tōng)用算法開發平台,實現從數據存儲、标注到模型訓練、房理生産、部署、測試的全鍊路(lù)、批量化過程。
三是算法層。這一層包含各種算法工具箱,不僅有城市交通(tōng)、園區老做等高頻應用場景算法,還有火災、垃圾檢測等長信員尾低頻的算法。截止目前,商(shāng)湯已經推出 13000 多個(gè)技術(shù)模型,以及 17000 多個(gè)商(shāng)業(yè)模型。同時他們也推出了 OpenMMLab 開源算法體系,該體系已在 Github 上獲得 3 萬多顆星。
建設這麼一個(gè) AI 大裝置需要投入大量的精力(AIDC 總投資(zī)高達 56 億元),但在商(shāng)湯看來,這是面向未來必須邁出的一步。
「在經曆了幾年的産業(yè)化之後,AI 已經到了一個(gè)全新的階段,可(kě)以說一些簡單的問(wèn)刀水題已經基本上被解決了。下(xià)一步就是要深入到更廣泛的行業(y但數è)裡面,需要新一輪的突破和(hé)創新書車。」林達華說道。
GPT-3 等超大模型的出現讓商(shāng)湯看到了實現下(妹分xià)一個(gè)突破的希望:「以前我們都是針對冷分一些具體的問(wèn)題或者高度定制化的場景去生産一些中(zhōng)小模從樂型。但随着 AI 落地推演到越來越廣的領域,成千上萬的具體問(見朋wèn)題(長尾問(wèn)題)開始湧現。如(rú)紙熱果每個(gè)問(wèn)題都有很多的研究人員投入進去,那麼我們跳就就很難深化 AI 的進一步落地。這個(gè)時候,整個(gè)行業(yè)需要通(tōng兵離)用性更強的模型,用一個(gè)模型支撐更多的任務。一方面,這種模型能夠讓 AI 的研發、落地效率得到一個(gè)質的提升;另一飛有方面,它們能夠更好地去回應綜合場景的問(wèn)題,比如(rú)水小智慧城市、智慧醫療等。這些任務都需要通(tōng)過多個電開(gè)任務綜合解決。」
但是,模型的通(tōng)用性越強,需要的數據、算力往往也越多,這便是兵近商(shāng)湯建設 AI 大裝置的底層邏輯。
當然,AI 大裝置也不是一朝一夕就建成的。其實早在 2018 年 4 月(yuè),商(shāng)湯就已經開始布局人工智區家能計算原型機研制項目,雖然當時并不被看好。但好在,後續出現的一些行火大模型已經顯示出了解決長尾問(wèn)題的巨大潛力。
如(rú)今,這個(gè) AI 大裝置已經開始發揮它的作用。林達華透露說,「我們幾乎所有的研究工作都有腦是在這個(gè)大裝置的基礎上進行的。」「它為做算法研究的同學提供了充足的呢大算力,使他們能夠快速地進行實驗試錯。」此外,大裝置離話中(zhōng)所積累的實用工具也縮短(du們短ǎn)了創新的驗證周期。
借助大裝置,商(shāng)湯已經在超大模型服快技術(shù)研究方面取得一定成績。例如(rú)在計算機視覺的卷積神經網絡視吃(CNN)領域,通(tōng)常模型參數都在 1 億以下(xià),但商(shāng)湯的 AI 框架 SenseParrots 能支持 50 億參數超大視覺模型的訓練。AIDC 完全投入使用後,計劃支持的超大視覺模型訓練參不村數可(kě)達更高的數量級。
由于可(kě)以顯著降低 AI 落地的門檻,商(shāng)湯的 AI 大裝置對于推動(dòng)整個(gè)人工智能行業(yè)的發展也有着重要討的的戰略意義。林達華表示,「從整個(gè)社會的角度來說,內雨AI 基礎設施将逐漸從一個(gè)企業(yè)内部的平台,發展為逐什遠漸提供開放服務,并最終演變成一個(gè)面向整個(gè)生态、整個(gè)社區事很的具有公共性質的設施。這些設施的構建能夠有效地支撐整個(gè)生态林通,最終使得整個(gè) AI 人才的基礎變得更加寬廣,從而進一步推動(dòng) AI 産業(yè)的深化。
(轉載自機器(qì)之心)