好爽又高潮了毛片免费下载,国产97在线 | 亚洲,亚洲一区二区三区AV无码,特级AAAAAAAAA毛片免费视频

移動(dòng)端

深度學(xué)習(xí)是如何助力智能行為分析和事件識(shí)別?

2017年08月11日 13:34$artinfo.Reprint點(diǎn)擊量:5334

  行為識(shí)別是指通過(guò)分析視頻、深度傳感器等數(shù)據(jù),利用特定的算法,對(duì)行人的行為進(jìn)行識(shí)別、分析的技術(shù)。這項(xiàng)技術(shù)被廣泛應(yīng)用在視頻分類、人機(jī)交互、安防監(jiān)控等領(lǐng)域。行為識(shí)別包含兩個(gè)研究方向:個(gè)體行為識(shí)別與群體行為(事件)識(shí)別。近年來(lái),深度攝像技術(shù)的發(fā)展使得人體運(yùn)動(dòng)的深度圖像序列變得容易獲取,結(jié)合高精度的骨架估計(jì)算法,能夠進(jìn)一步提取人體骨架運(yùn)動(dòng)序列。利用這些運(yùn)動(dòng)序列信息,行為識(shí)別性能得到了很大提升,對(duì)智能視頻監(jiān)控、智能交通管理及智慧城市建設(shè)等具有重要意義。同時(shí),隨著行人智能分析與群體事件感知的需求與日俱增,一系列行為分析與事件識(shí)別算法在深度學(xué)習(xí)技術(shù)的推動(dòng)下應(yīng)運(yùn)而生。下面將介紹我們的相關(guān)研究。
 
圖1 行為識(shí)別的定義及應(yīng)用領(lǐng)域
 
  基于層級(jí)化循環(huán)神經(jīng)網(wǎng)絡(luò)的人體骨架運(yùn)動(dòng)序列行為識(shí)別
 
  目前基于人體骨架的行為識(shí)別方法主要可分為兩類:1)基于局部特征的方法:該類方法是對(duì)序列中的各時(shí)刻的人體骨架的局部幾何結(jié)構(gòu)做特征提取,然后利用詞包(Bag of Words, BoW)模型結(jié)合時(shí)間金字塔(Temporal Pyramid, TP)或是結(jié)合動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)進(jìn)行識(shí)別,該類方法沒有或是只能局部考慮運(yùn)動(dòng)序列的時(shí)序信息,其識(shí)別過(guò)程更多地依賴局部靜態(tài)結(jié)構(gòu)特征;2)基于序列狀態(tài)轉(zhuǎn)移的方法:該類方法主要是利用HMM 對(duì)行為演化的動(dòng)態(tài)過(guò)程進(jìn)行建模,其兩個(gè)主要不足是不僅需要對(duì)序列做預(yù)對(duì)齊,同時(shí)還需要估計(jì)狀態(tài)轉(zhuǎn)移過(guò)程的遷移概率,這本是兩個(gè)比較困難的問題,其識(shí)別的精度也往往偏低。本研究主要基于微軟的Kinect 和運(yùn)動(dòng)捕獲系統(tǒng)提取的人體骨架運(yùn)動(dòng)序列,結(jié)合人體運(yùn)動(dòng)的相對(duì)性,提出了基于遞歸神經(jīng)網(wǎng)絡(luò)的人體骨架運(yùn)動(dòng)序列的行為識(shí)別模型。提出的模型首先對(duì)已經(jīng)提取好的人體骨架姿態(tài)序列中節(jié)點(diǎn)坐標(biāo)進(jìn)行歸一化,以消除人體所處空間位置對(duì)識(shí)別過(guò)程的影響,利用簡(jiǎn)單平滑濾波器對(duì)骨架節(jié)點(diǎn)坐標(biāo)做平滑濾波以提高信噪比,zui后將平滑后的數(shù)據(jù)送入一個(gè)層次化雙向遞歸神經(jīng)網(wǎng)絡(luò)同步進(jìn)行深度特征表達(dá)提取、融合及識(shí)別,同時(shí)提供了一種層次化單向遞歸神經(jīng)網(wǎng)絡(luò)模型以應(yīng)對(duì)實(shí)際中的實(shí)時(shí)分析需求。該方法主要優(yōu)點(diǎn)是根據(jù)人體結(jié)構(gòu)特征及運(yùn)動(dòng)的相對(duì)性,設(shè)計(jì)端到端的分析模式,在實(shí)現(xiàn)高精度識(shí)別率的同時(shí)避免復(fù)雜的計(jì)算,便于實(shí)際應(yīng)用。本工作及其擴(kuò)展版本先后發(fā)表在CVPR-2015及IEEE TIP-2016上。
 
圖2 基于層級(jí)化RNN的人體骨架序列行為識(shí)別示意圖
 
  基于雙流循環(huán)神經(jīng)網(wǎng)絡(luò)的行為識(shí)別
 
  由于深度傳感器的成本的降低和實(shí)時(shí)的骨架估計(jì)算法的出現(xiàn),基于骨架的行為識(shí)別研究越來(lái)越受歡迎。傳統(tǒng)方法主要基于手工特征設(shè)計(jì),對(duì)行為中運(yùn)動(dòng)的表達(dá)能力有限。zui近出現(xiàn)了一些基于循環(huán)神經(jīng)網(wǎng)絡(luò)的算法,可以直接處理原始數(shù)據(jù)并預(yù)測(cè)行為。這些方法只考慮了骨架坐標(biāo)隨著時(shí)間的動(dòng)態(tài)演變,而忽略了它們?cè)谀骋粋€(gè)時(shí)刻的空間關(guān)系。在本文中,我們提出一種基于雙流循環(huán)神經(jīng)網(wǎng)絡(luò)的方法如圖三,分別對(duì)骨架坐標(biāo)的時(shí)間動(dòng)態(tài)特性和空間相對(duì)關(guān)系建模。對(duì)于時(shí)間通道,我們探索了兩種不同的結(jié)構(gòu):多層循環(huán)神經(jīng)網(wǎng)絡(luò)模型和層次化的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。對(duì)于空間通道,我們提出兩種有效的方法把坐標(biāo)的空間關(guān)系圖轉(zhuǎn)換為關(guān)節(jié)點(diǎn)的序列,以方便輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中。為了提高模型的泛化能力,我們探究了基于三維坐標(biāo)變換的數(shù)據(jù)增強(qiáng)技術(shù),包括旋轉(zhuǎn)、縮放和剪切變換。 在深度視頻的行為識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的測(cè)試結(jié)果顯示,我們的方法對(duì)于一般行為,交互式行為和手勢(shì)的識(shí)別結(jié)果都有相當(dāng)大的提高。該工作已被CVPR-2017接收。
 
圖3 基于雙流RNN的骨架的行為識(shí)別方法
 
  基于類相關(guān)玻爾茲曼機(jī)的視頻事件分析
 
  我們研究了有監(jiān)督模型中的視頻表達(dá)學(xué)習(xí),以期望利用類標(biāo)簽學(xué)到更有區(qū)分力的表達(dá),可同時(shí)用于視頻分類和檢索。我們知道,由于低層視覺特征與類標(biāo)簽之間的語(yǔ)義鴻溝、高維低層特征對(duì)后續(xù)分析所產(chǎn)生的計(jì)算代價(jià)以及有標(biāo)簽訓(xùn)練樣本的缺乏,在不受控制的網(wǎng)絡(luò)視頻中分析無(wú)結(jié)構(gòu)的群體行為和事件是一個(gè)非常具有挑戰(zhàn)性的任務(wù),如圖四所示。為了克服這些困難,我們希望能夠?qū)W習(xí)一個(gè)含有語(yǔ)義信息的緊湊中層視頻表達(dá)。因此,我們提出了一種新的有監(jiān)督概率圖模型:類相關(guān)受限玻爾茲曼機(jī)(Relevance Restricted Boltzmann Machine, ReRBM),學(xué)習(xí)一種低維的隱語(yǔ)義表達(dá)用于復(fù)雜行為和事件分析。提出的模型在受限玻爾茲曼機(jī)(RBM)的基礎(chǔ)上進(jìn)行了一些關(guān)鍵性擴(kuò)展:1)將稀疏貝葉斯學(xué)習(xí)與RBM結(jié)合來(lái)學(xué)習(xí)具有區(qū)分力的與視頻類相關(guān)的隱含特征;2)將RBM中的二進(jìn)制隨機(jī)隱含單元替換為非負(fù)線性單元來(lái)更好的解釋復(fù)雜視頻內(nèi)容,并使得變分推理能夠適用于提出的模型;3)開發(fā)了有效的變分EM算法用于模型的參數(shù)估計(jì)和推理。我們?cè)谌齻€(gè)具有挑戰(zhàn)性的標(biāo)準(zhǔn)視頻數(shù)據(jù)集(Unstructured Social Activity Attribute、Event Video和Hollywood2)上對(duì)提出的模型進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,相比其他的一些隱變量概率圖模型如圖五所示,提出的模型所學(xué)到的類相關(guān)特征提供了對(duì)視頻數(shù)據(jù)更具有區(qū)分力的語(yǔ)義描述,在分類準(zhǔn)確率和檢索精度上獲得了結(jié)果,特別是在使用很少有標(biāo)簽訓(xùn)練樣本的情況下。這項(xiàng)工作發(fā)表在機(jī)器學(xué)習(xí)、神經(jīng)信號(hào)處理領(lǐng)域*會(huì)議NIPS 2013上,其擴(kuò)展后的版本被計(jì)算機(jī)視覺領(lǐng)域*期刊IJCV 2016發(fā)表。
 
圖 4 不同類型的活動(dòng)
 
  (簡(jiǎn)單動(dòng)作、結(jié)構(gòu)化活動(dòng)、非結(jié)構(gòu)化群體事件)
 
圖5 基于類相關(guān)受限玻爾茲曼機(jī)的視頻表達(dá)
 
  采用雙通道卷積神經(jīng)網(wǎng)絡(luò)的基于行走行為的身份識(shí)別
 
  基于行走行為的身份識(shí)別,即步態(tài)識(shí)別一般指的是給定一個(gè)步態(tài)序列,要求從一個(gè)匹配庫(kù)中找出與之zui相似的序列,從而確定所給定序列中人的身份。步態(tài)是遠(yuǎn)距離、非受控情況下*可感知的生物特征,使用范圍可遠(yuǎn)達(dá)50米,在遠(yuǎn)距離大范圍的視覺監(jiān)控場(chǎng)合具有不可替代的應(yīng)用前景和研究?jī)r(jià)值。我們提出的方法處理的是預(yù)先提取好的步態(tài)能量圖(Gait Energy Images,GEI),步態(tài)能量圖是將視頻序列中提取出的行人剪影對(duì)齊后沿時(shí)間維度平均得到的一種2D的灰度圖像。首先,考慮到基于步態(tài)能量圖的步態(tài)識(shí)別中局部細(xì)節(jié)差異的重要性,多點(diǎn)的局部比較應(yīng)該會(huì)優(yōu)于一次全局比較;其次,兩個(gè)處于不同視角的樣本可能會(huì)在表觀上出現(xiàn)巨大的差異,如果只考慮比較單元自己的局部區(qū)域,將很難捕捉到足夠的信息進(jìn)行比較;另外還需要判別式地學(xué)習(xí)特征和比較模型。以上的三點(diǎn)都可以在一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn),從而我們提出了基于上下文的跨視角步態(tài)識(shí)別方法如圖六所示,在極為困難的同時(shí)跨視角和行走狀態(tài)的任務(wù)中,也能夠達(dá)到足夠讓人接受的識(shí)別效率。相關(guān)成果已發(fā)表在IEEE TMM-2015與TPAMI-2017上。
 
圖6 步態(tài)識(shí)別流程圖與提出的模型結(jié)構(gòu)圖
 
  參考文獻(xiàn)
 
  [1] Yong Du, Wei Wang, and Liang Wang. Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition. IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). 2015.
 
  [2] Yong Du, Yun Fu, Liang Wang. Representation Learning of Temporal Dynamics for Skeleton-Based Action Recognition. IEEE Transactionson Image Processing (TIP). 2016.
 
  [3] Hongsong Wang and Liang Wang. Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017.
 
  [4] Fang Zhao, Yongzhen Huang, Liang Wang, Tieniu Tan. Relevance Topic Model for Unstructured Social Group Activity Recognition. Advances in Neural Information Processing Systems (NIPS). 2013.
 
  [5] Fang Zhao, Yongzhen Huang, Liang Wang, Tao Xiang, and Tieniu Tan. Learning Relevance Restricted Boltzmann Machine for Unstructured Group Activity and Event Understanding. International Journal of Computer Vision (IJCV).2016.
 
  [6] Zifeng Wu, Yongzhen Huang, Liang Wang. Learning Representative Deep Features for Image Set Analysis. IEEE Transactions on Multimedia (TMM). 2015.
 
  [7] Zifeng Wu, Yongzhen Huang, Liang Wang, Xiaogang Wang, and Tieniu Tan. A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs. IEEE Transactions on Pattern Analysis and Machine Inligence (TPAMI). 2017.
 
  注:本文轉(zhuǎn)自 智能感知與計(jì)算研究中心。
 
  作者:趙放、杜勇、王洪松、吳子豐。
 
版權(quán)與免責(zé)聲明: 凡本網(wǎng)注明“來(lái)源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智慧城市網(wǎng)www.cmr6829.com”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源(非智慧城市網(wǎng)www.cmr6829.com)的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。

編輯精選

更多

本站精選

更多

專題推薦

更多

名企推薦

更多

浙公網(wǎng)安備 33010602000006號(hào)