【中國安防展覽網(wǎng) 品牌專欄】Wider Face and Pedestrian Challenge 2018(簡稱 Wider Challenge)是一項范圍內(nèi)的計算機視覺賽事,曠視科技(Megvii)參戰(zhàn)了其中人臉檢測比賽 Wider Face,終以 0.5582 的成績技壓群雄,勇奪人臉檢測。曠視科技人臉檢測紀(jì)錄早可追溯至 2013 年贏得人臉識別領(lǐng)域 3 項世界。下面,本文將從比賽、技術(shù)、團隊以及產(chǎn)業(yè) 4 個維度展開解讀。
Wider Face 比賽結(jié)果
關(guān)于 Wider Challenge
Wider Challenge 2018 是由計算機視覺頂會 ECCV 2018 舉辦的挑戰(zhàn)賽之一,吸引超過 400 多支隊伍參加,比賽及結(jié)果公布于 ECCV 會前完成,頒獎儀式及相關(guān)研討會安排在大會期間(9 月 8 號)。繼 FDDB 之后,Wider Challenge 成為計算機視覺檢測領(lǐng)域的基準(zhǔn)比賽,含金量很高,在一定程度上可以清晰反映參賽方技術(shù)力量的實況和積淀。
今年,該比賽旨在解決人體檢測領(lǐng)域的 3 個核心問題:人臉的定位,人體的定位,以及人物身份匹配。為此,Wider Challenge 2018 相應(yīng)地分為 3 個比賽(track):
WIDER Face, 目標(biāo)是深掘新方法,刷新人臉檢測當(dāng)前佳水平。
WIDER Pedestrian, 目標(biāo)是收集有效而的新方法,優(yōu)化解決自然場景之下的行人檢測問題。
WIDER Person Search, 從 192 部電影中進行目標(biāo)匹配的人物搜索。
自左向右,三個比賽的實例
關(guān)于技術(shù)
從技術(shù)角度講,這次的人臉檢測比賽 Wider Face 出現(xiàn)了新難點,為此曠視科技給出了一套自己的解決方案,取得名的成績,超越第二名微軟(MSRA)2 個點。
1、難點
相比以往,WIDER Face 2018 有 2 個顯著的難點。一是數(shù)據(jù)集,二是評估標(biāo)準(zhǔn)。
Wider Face 比賽使用同名數(shù)據(jù)集,它開源于 CVPR 2016,包含 32,203 張圖像和 393,703 個檢測框標(biāo)注,是當(dāng)前不同場景之下人臉類別跨度大的數(shù)據(jù)集,從小臉密集臉、多姿態(tài)臉、遮擋臉、表情臉、化妝臉到模糊臉,。
Wider Face 數(shù)據(jù)集中不同類別的人臉
前人臉檢測基準(zhǔn) FDDB 由于數(shù)據(jù)量小且簡單退出之后,Wider Face 晉級為人臉檢測領(lǐng)域科學(xué)、的基準(zhǔn)數(shù)據(jù)集,同時今年還進行了一些優(yōu)化標(biāo)注甚至是重新標(biāo)注,堪稱是人臉檢測能力比拼的佳平臺。顯而易見,比賽難度也加大很多。
Wider Face 2018 評估標(biāo)準(zhǔn)沿用 COCO 規(guī)范,更細致更嚴(yán)格,對定位要求更高,不僅要大概準(zhǔn),還要非常準(zhǔn),甚至是“變態(tài)準(zhǔn)”。具體來講,它不再只使用 AP_50,而是計算檢測框 IoU 閾值超過 10 的平均精度,從 AP_50 到 AP_95(步長為 5,共 10 個 AP)進行加權(quán)求平均值。這再次加大了比賽奪冠的難度。
2、方法
鑒于上述兩個新挑戰(zhàn),曠視科技在技術(shù)沉淀的基礎(chǔ)上,從算法模型、Backbone 以及數(shù)據(jù)增強 3 個方面給出了原創(chuàng)性的解決方案。
曠視科技作為 COCO ,在物體檢測方面“家底”極厚,身經(jīng)百戰(zhàn),形成了一套的“演練作戰(zhàn)傳統(tǒng)”。此次針對 Wider Face 人臉檢測的小臉、模糊臉問題,曠視科技提出一種基于單階段檢測器的新方法,稱之為級聯(lián)檢測網(wǎng)絡(luò)(Cascade Detection Network)。
在 Backbone 以及數(shù)據(jù)增強方面,曠視同樣做了新探索。比如 Backbone 避重就輕,沒有選擇 ResNet 101,而是采用了像 DenseNet 121、 ResNet 50 這樣相對輕量化的基礎(chǔ)網(wǎng)絡(luò),或者多個輕模型的融合。曠視科技后續(xù)會針對性地出一篇論文,想了解更多的人請留意關(guān)注。
3、結(jié)果
通過上述原創(chuàng)技術(shù),曠視科技比賽結(jié)果優(yōu)勢明顯,不僅奪得名,成績還大幅超過第二名、第三名,分別高出 2 個點和 5 個點。另外,曠視科技單模型和多模型結(jié)果都提交過,結(jié)果表明,即使是按照單模型,同樣可以拿到。
值得一提的是,曠視科技上層技術(shù)的創(chuàng)新源自底層技術(shù)和原創(chuàng)深度學(xué)習(xí)平臺的支撐。這次打賽過程中,曠視科技自研的深度學(xué)習(xí)云平臺 Brain++ 有力保障了模型訓(xùn)練的穩(wěn)定性;原創(chuàng)的深度學(xué)習(xí)引擎(先于 TensorFlow)則保證快速地訓(xùn)練和測試模型,避免時耗。正是因為有后方的保障,才有前方的勝利。
關(guān)于團隊
打比賽就像打仗一樣,是一支隊伍,需要團隊協(xié)作。但是曠視這次的比賽,也僅僅動用了 1.5 名實習(xí)小礦工:一個為主,一個為輔(外加檢測組負責(zé)人和研究員的指導(dǎo))。這種實習(xí)生沖在一線的打賽模式是一種鍛煉和培養(yǎng)新人成長的寶貴機會。名的成績也反證了這種模式的科學(xué)性。
1.5 名實習(xí)生,這并不是說曠廠缺人,也不是輕視打賽,這恰恰說明了曠廠有一套完備的“演練打賽機制”,不僅節(jié)約了大量人力和時間成本,而且納入這套機制的每一方皆有所獲。本質(zhì)上這是一種的經(jīng)驗傳承,實習(xí)生獲得大量輸入,再經(jīng)由天賦的腦瓜,輸出名的成績,由此借假(比賽)修真(能力提升),人與事兩相成。
關(guān)于產(chǎn)業(yè)
人臉檢測在曠視的整個計算機視覺技術(shù)矩陣中處于中層,屬于核心算法之一,經(jīng)過工程化包裝或者硬件的加持,形成可復(fù)制的模型框架,從而終走向人臉相關(guān)的產(chǎn)品線。
人臉檢測是機器視覺技術(shù)落地的大場景之一,是曠視圖像識別技術(shù)的四大對象之一(人、臉、車、字),也是曠視 AI+IoT 戰(zhàn)略中承上啟下的一環(huán)。這一成績所反映出的技術(shù)點創(chuàng)新將進一步優(yōu)化曠視的整個技術(shù)體系,導(dǎo)向手機、安防、地產(chǎn)、零售等多個產(chǎn)業(yè)領(lǐng)域,為達成 AI+IoT 戰(zhàn)略提供了有力的技術(shù)支撐。