【安防展覽網(wǎng) 品牌專欄】心心念念,人工智能從業(yè)者翹首以盼的CVPR 2019終于來了!
作為與ICCV、ECCV并稱為計算機(jī)視覺領(lǐng)域三大會議之一,本屆CVPR大會共收到5265篇有效投稿,接收論文1300篇,接收率為25.2%。
相比2018年,本屆CVPR的論文提交數(shù)量增加了56%,但論文接收率卻下降了3.9%,可見論文入選難度有很大提升,也可以看出AI學(xué)術(shù)會議的關(guān)注度也愈加火熱。
再次突破,商湯62篇論文入選CVPR 2019
根據(jù)數(shù)據(jù),商湯科技及聯(lián)合實(shí)驗(yàn)室共有62篇論文被接收,其中口頭報告(Oral)論文就有18篇。相比2018 CVPR共44篇論文入選,增幅超40%。
商湯科技CVPR 2019錄取論文在多個領(lǐng)域?qū)崿F(xiàn)突破,包括:高層視覺核心算法——物體檢測與分割、底層視覺核心算法——圖片復(fù)原與補(bǔ)全、面向自動駕駛場景的3D視覺、面向AR/VR場景的人體姿態(tài)遷移、無監(jiān)督與自監(jiān)督深度學(xué)習(xí)前沿進(jìn)展等。這些突破性的計算機(jī)視覺算法有著豐富的應(yīng)用場景,將為推動AI行業(yè)發(fā)展做出貢獻(xiàn)。
值得一提的是,在CVPR 2019 Workshop NTIRE 2019視頻恢復(fù)比賽中(包含兩個視頻去模糊和兩個視頻超分辨率),來自商湯科技、香港中文大學(xué)、南洋理工大學(xué)、中國科學(xué)院深圳先進(jìn)技術(shù)研究院組成的聯(lián)合研究團(tuán)隊獲得了全部四個賽道的所有,且大幅超越每個賽道的其他團(tuán)隊。
視頻恢復(fù)不是圖像恢復(fù)的簡單應(yīng)用,因?yàn)槠浜写罅康臅r空冗余信息可以利用。目前行業(yè)好的圖像超分辨算法是RCAN恢復(fù),但使用EDVR算法視頻超分辨率的結(jié)果能看到更多的細(xì)節(jié),效果大幅提升。作者發(fā)明了一種新的網(wǎng)絡(luò)模塊PCD 對齊模塊,使用Deformable卷積進(jìn)行視頻的對齊,整個過程可以端到端訓(xùn)練。而且在挖掘時域(視頻前后幀)和空域(同一幀內(nèi)部)的信息融合時,作者發(fā)明了一種時空注意力模型進(jìn)行信息融合。此次比賽的EDVR算法代碼已開源(https://github.com/xinntao/EDVR)。
另外,商湯科技還在AI CITY Challenge(CVPR 2019 Workshop)異常檢測賽道中獲得。城市智慧交通面臨數(shù)據(jù)質(zhì)量差、標(biāo)簽數(shù)據(jù)少、缺乏高質(zhì)量算法模型以及從邊緣到云端的計算資源不足等挑戰(zhàn),該比賽更多地通過遷移學(xué)習(xí)、無監(jiān)督和半監(jiān)督的方法檢測交通異常,如道路事故、車輛故障等,從而幫助城市交通變得更安全和智能。
兼容并包,持續(xù)推動開放學(xué)術(shù)交流
2000多年前,孔子曰:“三人行,必有我?guī)熝?rdquo;,其強(qiáng)調(diào)了開放交流,互相學(xué)習(xí)的重要性。1916年,蔡元培先生受命擔(dān)任北京大學(xué)校長時也提出“思想自由,兼容并包”的辦學(xué)方針。
連續(xù)數(shù)年在計算機(jī)視覺領(lǐng)域獲得前沿的科研成果背后,是商湯科技深厚的AI人才儲備、科研底蘊(yùn)和創(chuàng)新能力,更源于商湯對基礎(chǔ)技術(shù)研發(fā)的高度重視,以及堅持開放學(xué)術(shù)交流的態(tài)度。
本屆CVPR期間,商湯科技與香港中文大學(xué)多媒體實(shí)驗(yàn)室聯(lián)合舉辦的“SenseTime PartyTime”活動,為計算機(jī)視覺領(lǐng)域的教授、研究人員和學(xué)生們提供了一個交流和分享的機(jī)會。
商湯科技聯(lián)合創(chuàng)始人、港中文-商湯聯(lián)合實(shí)驗(yàn)室主任林達(dá)華教授,分享商湯與學(xué)術(shù)界合作的主要成果,以及商湯科技的人才優(yōu)勢和戰(zhàn)略、企業(yè)文化等。
Panel Discussion 在場學(xué)者們進(jìn)行密切互動交流
CVPR 2019大會現(xiàn)場,商湯科技展臺展示的多項AI科技吸引了諸多與會者前來體驗(yàn)
Open-MMLab計劃,推動學(xué)術(shù)生態(tài)建設(shè)
現(xiàn)代AI系統(tǒng)日趨復(fù)雜,涉及很多的關(guān)鍵細(xì)節(jié),這些細(xì)節(jié)的優(yōu)化和調(diào)節(jié)需要長時間的專注和積累。因此,AI研究的未來推進(jìn),也將需要越來越多不同研究背景的團(tuán)隊共同參與,讓每個團(tuán)隊專注于某一個方面的開拓與探索。
在這樣的背景下,商湯科技啟動Open-MMLab計劃,希望在一個統(tǒng)一的代碼架構(gòu)上,逐步開放實(shí)驗(yàn)室積累的算法和模型,為計算機(jī)視覺的研究社區(qū)貢獻(xiàn)自己的一份力量。
目前,商湯科技和香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)聯(lián)合開源了兩個重要的純學(xué)術(shù)代碼庫MMDetection和MMAction,推動AI行業(yè)更加深入和開放的學(xué)術(shù)交流。
MMDetection是一個基于PyTorch的開源物體檢測工具包。該工具包采用模塊化設(shè)計,支持多種流行的物體檢測和實(shí)例分割算法,并且可以靈活地進(jìn)行拓展,在速度和顯存消耗上也具有優(yōu)勢。(https://github.com/open-mmlab/mmdetection)
目前已經(jīng)支持單階段檢測器如SSD/RetinaNet/FCOS/FSAF,兩階段檢測器如FasterR-CNN/Mask R-CNN,多階段檢測器如Cascade R-CNN/Hybrid Task Cascade等,另外支持許多相關(guān)模塊如DCN/Soft-NMS/OHEM等,也支持混合精度訓(xùn)練。有很多新的工作也在MMDetection上開源。
團(tuán)隊為之提供了完整的訓(xùn)練和測試框架,以及超過200個訓(xùn)練好的模型及其測試結(jié)果,希望能為社區(qū)提供統(tǒng)一的開發(fā)平臺和測試基準(zhǔn),助力物體檢測的相關(guān)研究。
MMAction是一個基于Pytorch的開源視頻動作理解工具包,囊括了視頻動作分類、時域動作檢測(定位)、時空動作檢測等視頻理解的基礎(chǔ)任務(wù)。(https://github.com/open-mmlab/mmaction)
目前已經(jīng)支持雙流、TSN、SSN等動作分類和動作檢測框架和基于Fast R-CNN的時空動作檢測基線模型,支持Plain 2D/Inflated3D/Non-local等流行的網(wǎng)絡(luò)結(jié)構(gòu),支持UCF-101、Something-Something、Kinetics、THUMOS14、ActivityNet、AVA等視頻數(shù)據(jù)集,并提供相關(guān)的預(yù)訓(xùn)練模型。
作為Open-MMLab系統(tǒng)開源項目的一部分,團(tuán)隊希望MMAction可以成為視頻研究人員的測試平臺,促進(jìn)視頻動作理解領(lǐng)域更上新臺階。
商湯及聯(lián)合實(shí)驗(yàn)室CVPR 2019論文精選
下面,列舉幾篇商湯及商湯聯(lián)合實(shí)驗(yàn)室入選CVPR 2019的代表性論文,從五大方向闡釋計算機(jī)視覺和深度學(xué)習(xí)技術(shù)新突破。
◆高層視覺核心算法——物體檢測與分割
1、代表性論文:基于混合任務(wù)級聯(lián)的實(shí)例分割算法
對于很多計算機(jī)視覺任務(wù)來說,級聯(lián)是一種經(jīng)典有效的結(jié)構(gòu),可以對性能產(chǎn)生明顯提升。但如何將級聯(lián)結(jié)構(gòu)引入實(shí)例分割的任務(wù)仍然是一個開放性問題。簡單地將物體檢測的級聯(lián)結(jié)構(gòu)Cascade R-CNN與經(jīng)典的實(shí)例分割算法Mask R-CNN進(jìn)行結(jié)合,帶來的提升比較有限。
在這篇論文中,我們提出了一種新的框架Hybrid Task Cascade (HTC)。該框架是一個多階段多分支的混合級聯(lián)結(jié)構(gòu),對檢測和分割這兩個分支交替地進(jìn)行級聯(lián)預(yù)測,除此之外,我們還引入了一個全卷積的語義分割分支來提供更豐富的上下文環(huán)境信息。HTC在COCO數(shù)據(jù)集上相對Cascade Mask R-CNN獲得了1.5個點(diǎn)的提升。基于提出的框架,我們獲得了COCO 2018比賽實(shí)例分割任務(wù)的。
2、代表性論文:基于特征指導(dǎo)的動態(tài)錨點(diǎn)框生成算法
錨點(diǎn)框(Anchor)是現(xiàn)代物體檢測技術(shù)的基石。目前主流的物體檢測方法大多依賴于密集產(chǎn)生靜態(tài)錨點(diǎn)框的模式。在這種模式下,有著預(yù)定義的大小和長寬比的靜態(tài)錨點(diǎn)框均勻的分布在平面上。
本文反思了這一關(guān)鍵步驟,我們提出了一種基于特征指導(dǎo)的動態(tài)錨點(diǎn)框生成算法,該算法利用語義特征來指導(dǎo)錨點(diǎn)框生成的過程,具有率和高質(zhì)量的特點(diǎn)。本算法可以同時預(yù)測目標(biāo)物體中心區(qū)域和該區(qū)域應(yīng)產(chǎn)生的錨點(diǎn)框的大小和長寬比,以及根據(jù)錨點(diǎn)框的形狀來調(diào)整特征,使特征與錨點(diǎn)框相吻合,從而產(chǎn)生極高質(zhì)量的動態(tài)錨點(diǎn)框。
本方法可以無縫使用在各種基于錨點(diǎn)框的物體檢測器中。實(shí)驗(yàn)表明本方法可以顯著提高三種主流的物體檢測器(Fast R-CNN, Faster R-CNN, RetinaNet)的性能。
◆底層視覺核心算法——圖片復(fù)原與補(bǔ)全
1、代表性論文:基于網(wǎng)絡(luò)參數(shù)插值的圖像效果連續(xù)調(diào)節(jié)
圖像效果的連續(xù)調(diào)節(jié)在實(shí)際中有著廣泛的需求和應(yīng)用, 但是目前基于深度學(xué)習(xí)的算法往往只能輸出一個固定的結(jié)果,缺乏靈活的調(diào)節(jié)能力來滿足不同的用戶需求。
針對這個問題, 本文提出了一種簡單有效的方式來達(dá)到對圖像效果的連續(xù)光滑的調(diào)節(jié),而不需要進(jìn)一步繁雜的訓(xùn)練過程。該方法能夠在許多任務(wù)上得到應(yīng)用, 比如圖像超分辨率,圖像去噪,圖像風(fēng)格轉(zhuǎn)換,以及其他許多圖像到圖像的變換。
具體地,我們對兩個或多個有聯(lián)系的網(wǎng)絡(luò)的參數(shù)進(jìn)行線性插值,通過調(diào)節(jié)插值的系數(shù),便可以達(dá)到一個連續(xù)且光滑的效果調(diào)節(jié)。我們把這個在神經(jīng)網(wǎng)絡(luò)的參數(shù)空間中的操作方法稱為網(wǎng)絡(luò)參數(shù)插值。本文不僅展示了網(wǎng)絡(luò)參數(shù)插值在許多任務(wù)中的應(yīng)用,還提供了初步的分析幫助我們更好地理解網(wǎng)絡(luò)參數(shù)插值。
2、代表性論文:基于光流引導(dǎo)的視頻修復(fù)
本文關(guān)注視頻中的修復(fù)問題,雖然近年來圖片修復(fù)(Image Inpainting)問題取得了很大的進(jìn)展,可是在視頻上完成像素級的修復(fù)仍熱存在極大的挑戰(zhàn)。其困難主要在于:1)保證時序上的連續(xù)型;2)在高分辨率下實(shí)現(xiàn)修復(fù);3)降低視頻對于計算的開銷。
本文致力于解決這三個問題,同時盡可能保證視頻的清晰度。在研究中我們發(fā)現(xiàn),保證視頻的時序一致性,對于視頻修復(fù)任務(wù)來說非常重要,這不僅僅保證了修復(fù)后的視頻能夠有良好的觀看體驗(yàn),同時還幫助我們從視頻本身來抽取真實(shí)的像素塊來實(shí)現(xiàn)更加地修復(fù)。
所以我們的框架主要由兩部分組成,部分是通過深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)光流的補(bǔ)全,之后通過補(bǔ)全的光流在整個視頻間做像素的傳導(dǎo),從而形成一條在時序上保持一致的像素鏈。這樣缺失的區(qū)域就可以通過它來實(shí)現(xiàn)修復(fù),并且還能夠保證視頻的清晰度。
◆面向自動駕駛場景的3D視覺
1、代表性論文:PointRCNN: 基于原始點(diǎn)云的3D物體檢測方法
本文提出了基于原始點(diǎn)云數(shù)據(jù)的二階段3D物體檢測框架,PointRCNN。3D物體檢測是自動駕駛和機(jī)器人領(lǐng)域的重要研究方向,已有的3D物體檢測方法往往將點(diǎn)云數(shù)據(jù)投影到鳥瞰圖上再使用2D檢測方法去回歸3D檢測框,或者從2D圖像上產(chǎn)生2D檢測框后再去切割對應(yīng)的局部點(diǎn)云去回歸3D檢測框。而這些方法中,前者在將點(diǎn)云投影到俯視圖上時丟失了部分原始點(diǎn)云的信息,后者很難處理2D圖像中被嚴(yán)重遮擋的物體。
我們觀察到自動駕駛場景中物體在3D空間中是自然分離的,從而我們可以直接從3D框的標(biāo)注信息中得到點(diǎn)云的語義分割標(biāo)注。因此本文提出了以自底向上的方式直接從原始點(diǎn)云數(shù)據(jù)中同步進(jìn)行前景點(diǎn)分割和3D初始框生成的網(wǎng)絡(luò)結(jié)構(gòu),即從每個前景點(diǎn)去生成一個對應(yīng)的3D初始框(階段一),從而避免了在3D空間中放置大量候選框。
在階段二中,前面生成的3D初始框?qū)⑼ㄟ^平移和旋轉(zhuǎn)從而規(guī)則化到統(tǒng)一坐標(biāo)系下,并通過點(diǎn)云池化等操作后得到每個初始框的全局語義特征和局部幾何特征,我們將這兩種特征融合后進(jìn)行了3D框的修正和置信度的打分,從而獲得終的3D檢測框。
在提交到KITTI的3D檢測任務(wù)上進(jìn)行測試時,我們提出的方法在只使用點(diǎn)云數(shù)據(jù)的情況下召回率和終的檢測準(zhǔn)確率均超越了已有的方法并達(dá)到了先進(jìn)水平。目前我們已將該方法的代碼開源到了GitHub上。
◆面向AR/VR場景的人體姿態(tài)遷移
1、代表性論文:基于人體本征光流的姿態(tài)轉(zhuǎn)換圖像生成
本文主要關(guān)注人體姿態(tài)轉(zhuǎn)移問題,即在給定一幅包含一個人的輸入圖像和一個目標(biāo)姿態(tài)的情況下,生成同一個人在目標(biāo)姿態(tài)下的圖像。我們提出利用人體本征光流描述不同姿態(tài)間的像素級對應(yīng)關(guān)系。
為此,我們設(shè)計了一個前饋神經(jīng)網(wǎng)絡(luò)模塊,以原始姿態(tài)和目標(biāo)姿態(tài)作為輸入,迅速對光流場進(jìn)行估計。考慮到真實(shí)光流數(shù)據(jù)難以獲取,我們利用3D人體模型擬合圖像中的人體姿態(tài),生成對應(yīng)姿態(tài)變化的光流場數(shù)據(jù),用于模型訓(xùn)練。
在該光流預(yù)測模塊的基礎(chǔ)上,我們設(shè)計了一個圖像生成模型,利用本征光流對人體的外觀特征進(jìn)行空間變換,從而生成目標(biāo)姿態(tài)下的人體圖像。我們的模型在DeepFashion和Market-1501等數(shù)據(jù)集上取得了良好的效果。
◆無監(jiān)督與自監(jiān)督深度學(xué)習(xí)前沿進(jìn)展
1、代表性論文:基于條件運(yùn)動傳播的自監(jiān)督學(xué)習(xí)
本文提出一種從運(yùn)動中學(xué)習(xí)圖像特征的自監(jiān)督學(xué)習(xí)范式。1)在自然場景中,物體的運(yùn)動具有高度的復(fù)雜性,例如人體和常見動物都具有較高的運(yùn)動自由度。2)同時,從單張圖片中推測物體的運(yùn)動具有歧義性。現(xiàn)有基于運(yùn)動的自監(jiān)督學(xué)習(xí)方法由于沒有很好地解決這兩個問題,因而未能地從運(yùn)動中學(xué)習(xí)到較好的圖像特征。
為此,我們提出了條件運(yùn)動傳播這個自監(jiān)督學(xué)習(xí)任務(wù)。訓(xùn)練時,我們將單張圖像作為輸入,將目標(biāo)運(yùn)動場中抽樣出來的稀疏運(yùn)動場作為條件,訓(xùn)練神經(jīng)網(wǎng)絡(luò)去恢復(fù)目標(biāo)運(yùn)動場。這樣訓(xùn)練完的圖像編碼器可以用來作為其他任務(wù)的初始化。我們在語意分割、實(shí)例分割和人體解析等任務(wù)中相比以往自監(jiān)督學(xué)習(xí)方法獲得了較大提升。
經(jīng)過分析,我們發(fā)現(xiàn)條件運(yùn)動傳播任務(wù)從運(yùn)動中學(xué)習(xí)到了物體的剛體性、運(yùn)動學(xué)屬性和一部分現(xiàn)實(shí)世界中的物理規(guī)律。利用這些特性,我們將它應(yīng)用到交互式視頻生成和半自動實(shí)例標(biāo)注,獲得了令人滿意的效果;而整個過程,沒有用到任何人工的標(biāo)注。