99久久久精品免费观看国产,后入内射无码人妻一区,最近中文字幕免费MV视频7

昆山漢吉龍測控技術有限公司

主營產品： 振動分析儀,振動分析儀,局部放電檢測相機,軸承檢測儀

聯系電話

18118173241

您現在的位置：首頁> 技術文章 > 復雜系統安全性和可靠性實驗室|從帶有噪聲標簽的數據中提取困難且確信樣本

產品分類品牌

公司信息

昆山漢吉龍測控技術有限公司

聯系人：: 劉萌

電話：: 0512-57566265

手機：: 18118173241

售后電話：: 18118173241

傳真：: 0512-57566265

地址：: 昆山市長泰路120號

郵編：: 215300

網址：: www.hojolo.com

商鋪：: http://www.cmr6829.com/st178990/

給他留言

復雜系統安全性和可靠性實驗室|從帶有噪聲標簽的數據中提取困難且確信樣本

2024-10-31　　閱讀(32)

論文題目： Me-Momentum: Extracting Hard Confident Examples from Noisily Labeled Data

論文作者：Yingbin Bai, Tongliang Liu

論文來源：ICCV-2021，中國計算機協會A類會議，DOI：10.1109/ICCV48922.2021.00918

復雜系統安全性和可靠性實驗室|從帶有噪聲標簽的數據中提取困難且確信樣本

接近決策邊界的樣本——作者稱之為難樣本，對于塑造準確分類器至關重要。但從訓練數據中提取困難確信樣本仍是較為困難的問題。在這篇文章中，作者提出了一種深度學習范式來解決這個問題，利用了深度神經網絡的記憶效應來篩選樣本。作者借鑒了物理學中的動量概念來提取包含非簡單模式并且與不準確標記的樣本糾纏在一起的困難確信樣本。作者的想法是算法前一輪提取的確信樣本可以用來學習一個更好的分類器，而更好的分類器也助于識別更困難的確信樣本。作者將這種方法稱為“記憶動量"（MeMomentum）。在基準模擬和真實世界的標簽噪聲數據上的實證結果說明了Me-Momentum提取難確信樣本的有效性，利用記憶動量方法可以使模型具有更好的分類性能。

文獻背景

實際應用中，帶標簽噪聲的數據集是普遍存在的。如果不加注意，標簽噪聲將降低學習算法的性能。帶有噪聲標簽的學習旨在減少標簽噪聲的副作用，因此已經成為機器學習中的一個重要主題。

提取具有干凈標簽的樣本——確信樣本是一種不依賴噪聲轉移矩陣的方法，與原始的帶有噪聲的訓練數據相比，提取出的樣本噪聲較少，因此分類器具有更好的性能。在只有噪聲數據的情況下，先進的方法利用了記憶效應來提取確信樣本。深度神經網絡首先會擬合具有干凈標簽的訓練數據，然后逐漸擬合具有不正確標簽的樣本。但現有方法都沒有研究如何從噪聲數據中提取接近決策邊界的難樣本。

在這篇文章中，通過交替更新確信樣本并完善分類器，作者提出了一種深度學習范式，能夠從訓練數據中提取困難確信樣本，從而實現更好的分類性能。作者的想法類似于物理學中動量的運用，將分類器看作是在假設空間中移動的粒子，從確信的數據中獲得加速度。通過正確利用之前提取的確信樣本，可以實現具有更好性能的分類器。這類似于優化中使用的動量技巧，之前的梯度信息可以用來跳出局部最小值并實現快速收斂率。在高層次上，所提出的方法建立在深度神經網絡的記憶效應和更好的確信樣本將導致更好的分類器以及更好的分類器將識別出更好的確信樣本（和困難的確信樣本）的直覺之上。因此，所提出的方法被稱為記憶動量（Me-Momentum）。

研究方法

作者提出的提取困難置信樣本并提高分類性能的記憶動量方法，在高層次上，通過交替更新確信樣本和完善分類器，Me-Momentum實現了一個正循環，即通過的確信樣本獲得更好的分類器，更好的分類器又反過來篩選出更好的確信樣本。Me-Momentum有內外兩個循環。在內循環中交替更新確信樣本和分類器。在外循環重新初始化分類器，同時保持先前提取的確信樣本，避免因內循環在先前分類器基礎上繼續訓練而對于分類器初始化的嚴重依賴。

算法流程:

算法第一步，為正循環初始化一個用于初步選擇確信樣本的分類器，使用了早期停止的策略避免網絡擬合錯誤樣本，這種初始化利用了神經網絡首先擬合干凈數據的記憶效應。（有關記憶效應相關內容可以查看文獻（Devansh Arpit, 2017），其中講述了神經網絡可以通過記憶強行擬合被隨機標注的數據。（Zhang, 2017）講述了網絡總是優先擬合更為簡單的真實模式，隨后才是記憶更為復雜的噪聲模式）

算法第二步，由于初始化的分類器是利用早期停止和記憶效應獲得的，所以分類器主要擬合的是確信樣本，因此可以認為標簽與分類器預測結果相同的樣本為確信樣本。

算法第三步，利用先前的分類器的權重初始化網絡，同時用上一步篩選出的確信樣本訓練分類器，這就實現了使用更好的訓練樣本來獲得更好的分類器。

算法第四步，反復執行二三步，使不斷篩選確信樣本和優化分類器過程在驗證精度不再提升時跳出。

算法第五步，利用隨機初始化而非使用先前的權重初始化網絡，使用先前篩選出的確信樣本訓練分類器，防止始終使用先前分類器的權重導致結果嚴重依賴初始化結果。

算法第六步，反復執行二到五步，在第五步中隨機初始化的網絡在訓練后的驗證精度不再提升時結束整個流程。

實驗驗證

在本節中，作者進行實驗來展示所提出的Me-Momentum在MNIST、CIFAR10、CIFAR100和真實世界標簽噪聲數據集 Clothing1M上的有效性。在MNIST和CIFAR上，作者生成了類別相關和實例相關的標簽噪聲（相較于需要標簽噪聲與類別相關的噪聲轉移矩陣方法，Me-Momentum可以處理實例相關噪聲），并可視化提取的困難確信樣本，從而證明了Me-Momentum始終優于基線方法。

如圖 1 所示，提取的確信樣本的可視化。第一列和第三列是內循環第一次提取的確信數據；而第二列和第四列是外循環中提取的確信數據。綠色點表示第一輪中選定的數據。藍色和紅色點分別表示中間輪和最后一輪中新提取的數據。

在人工添加了不同程度的類相關噪聲和實例相關噪聲的 MNIST, CIFAR10,CIFAR100 上不同方法分類準確率的均值和標準差如表 1、表 2、表 3 所示。

在 Clothing1M 數據集上，作者將 Me-Momentum 與基線方法進行比較，結果如表 4 所示。 “clean" 和 “noisy" 分別表示驗證數據集是干凈的和帶有噪聲的。可以觀察到 Me-Momentum 在帶有噪聲驗證數據上表現良好，超過了許多使用干凈驗證數據的基線方法。為了公平比較，作者也使用了干凈驗證數據來驗證作者的方法，在測試準確率方面取得了最高的 75.18% ，比 T-revision 高出 1% 、比 Joint Optim 高出 2.95% 。需要注意的是， Forward 和 T-revision 需要 5 萬個干凈數據來估計噪聲轉移矩陣，而 Me-Momentum 在訓練過程中不需要任何干凈數據。此外，為了展示 Me-Momentum 的魯棒性，作者使用了從頭開始訓練的 ResNet-50 進行實驗，它取得了第二高的準確率。