既然深度學習的優(yōu)勢如此明顯,并且這套方法在80年代末就被提出,那么為何直到近兩年才開始崛起并超越人類呢?總結起來,主要有三大因素共同決定了深度學習在近幾年才開始大爆發(fā):數(shù)據規(guī)模,計算能力,網絡架構。
首先,大數(shù)據是深度學習成功的重要路基。在如今的互聯(lián)網時代,數(shù)據量的累積是爆炸式的,越來越多的領域正持續(xù)積累著日趨豐富的應用數(shù)據,這對深度學習的進一步發(fā)展和應用至關重要。不過大數(shù)據收集是有成本的,并且標注成本已經開始水漲船高,樣本的好壞直接決定了模型的度,所以只有擁有一定技術實力的公司才能持續(xù)投入研究。在安防領域,像海康威視等有自主研發(fā)實力且在安防行業(yè)深耕多年的公司,運用大量真實視頻監(jiān)控場景的視頻、圖片數(shù)據作為訓練樣本庫,數(shù)據量大且質量較好,通過超過百人團隊的數(shù)據組,對視頻圖像打標簽,積累了別的樣本數(shù)據,在使用這些數(shù)據量大且質量良好的樣本不斷訓練下,對安防監(jiān)控場景下的人、車、物進行模式識別的模型也會越來越。
其次,高性能硬件平臺計算是引擎助力。深度學習模型需要大量的樣本,這就避免不了大量的計算,而以前的硬件設備不足以訓練出復雜的上百層的深度學習模型。2011年谷歌DeepMind用了1000臺機器、16000個CPU處理的深度模型大概有10億個神經元,而現(xiàn)在,只要用幾個GPU,我們就可以完成同樣的計算,并且迭代速度更快。因此,GPU、超級計算機、云計算等高性能硬件平臺的迅猛發(fā)展讓深度學習成為可能,強大的計算能力有助于深度學習算法快速實現(xiàn)驗證,并積累更多經驗進行模型修正,進一步提高模型精度。
zui后,算法網絡的結構創(chuàng)新是燃料。通過深度學習算法的不斷優(yōu)化,可以更好地識別目標物。在安防領域,對于一些復雜場景,比如人臉識別,光照、角度、姿態(tài)、表情、飾物、分辨率等都會影響識別準確率,這要求算法模型具有更強的泛化能力,深度學習模型需要進一步優(yōu)化。深度學習算法的層次越深,性能就會越好,目前海康威視的深度學習算法層次已經達到200層,處于業(yè)界。在2016年ImageNet競賽中,海康威視研究院基于Faster R-CNN深度學習目標檢測算法排名*,盤踞近一年的第二名微軟4.1個點,刷新紀錄。另外,海康威視關于車輛檢測和車頭方向評估技術在KITTI測評中排名世界*,關于多目標跟蹤技術在MOT Challenge測評中結果排名世界*。
總的來說,隨著安防大數(shù)據的快速積累、大規(guī)模并行計算的高速發(fā)展、更優(yōu)化算法的不斷出現(xiàn),是深度學習算法崛起不可忽視的條件。