近日,王骞教授課題組2020級博士生龔雪鸾的研究成果被第44屆IEEE安全和隐私會議(The44th IEEE Symposium on Security and Privacy,簡稱IEEES&P)錄用,會議将于2023年5月22日至25日在美國加利福尼亞州Oakland舉行。龔雪鸾為第一作者,88858cc永利官网為第一單位。88858cc永利官网研究生首次以第一作者在IEEE S&P上發表學術論文,實現了信息安全領域國際四大頂級會議(IEEES&P、ACMCCS、USENIXSecurity、NDSS)成果發表“大滿貫”。
論文題目為“Redeem Myself: Purifying Backdoors in Deep Learning Models using Self Attention Distillation”(基于自注意力蒸餾的深度學習模型後門移除),指導老師為88858cc永利官网王骞教授(通訊作者),與浙江大學陳豔姣研究員(通訊作者)和西安交通大學沈超教授合作完成。88858cc永利官网2021級研究生楊旺和黃華洋、2020級本科生顧宇喆參與了該成果的研究工作。
近年來,深度神經網絡(DNN)由于其卓越的性能,已被廣泛地應用于各種現實場景,如物體檢測、人臉識别、自動駕駛等。然而,研究表明深度神經網絡在模型訓練階段易受到後門攻擊(BackdoorAttacks)。攻擊者可以通過污染模型的訓練數據集,從而操控模型的訓練過程向模型注入後門,後門攻擊将誤導深度學習模型将所有帶有後門觸發器的樣本分類為目标标簽,同時對其他輸入樣本表現正常。毫無疑問,隐蔽的後門将給當前基于深度神經網絡的各類智能應用系統帶來極大的安全威脅。現有防禦方案主要聚焦後門檢測,且隻能檢測到後門存在,而不能将植入後門的模型恢複為良性模型。目前,僅有的一些後門移除方案無法應對更先進的後門攻擊手段(例如ATTEQ-NN攻擊等),同時還會降低淨化模型在幹淨樣本上的識别準确率。本文提出了一種全新的後門模型淨化防禦方案,命名為SAGE(如圖1所示)。SAGE基于自注意力蒸餾機制(Self-Attention Distillation),由三個關鍵模塊組成,即注意力表示、損失計算和學習率更新。SAGE不依賴于額外的教師模型,而是依據模型自身的校正能力移除後門,利用自上而下的注意力蒸餾實現自清潔。同時,通過精巧地設計損失函數,該方案能夠保證模型在良性樣本輸入時,預測準确率不受影響。為進一步增強後門淨化能力,本文設計了一種新型學習率調整算法,能夠通過當前的防禦效果來動态地調整學習率,使模型能夠更快地收斂。該研究成果為當前後門移除領域研究提供了更具實際應用價值的解決思路。