我院博士生成果被信息安全領域國際頂級會議USENIX Security 2025錄用

2025-01-25

近日,88858cc永利官网2022級博士生張神轶撰寫的論文被第34屆USENIX安全研讨會(The 34rd USENIX Security Symposium 2025)錄用。

論文題目為“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”(《基于激活概念分析和控制的大型語言模型越獄防禦》),指導老師為88858cc永利官网王骞教授(通訊作者)、趙令辰副教授,與紐約州立大學布法羅分校Hongxin Hu教授、西安交通大學沈超教授和香港城市大學王聰教授合作完成。88858cc永利官网2023級碩士生翟雨辰和郭晟男、2022級碩士生方正參與了該成果的研究工作。

圖1 基于激活概念分析和控制的大型語言模型越獄防禦框架概覽

随着大型語言模型(Large Language Models,LLMs)的廣泛應用,其安全問題也逐漸引發關注。盡管現有安全對齊策略能夠在一定程度上限制模型輸出有害内容,但其仍然容易受到越獄攻擊(Jailbreak Attacks)的威脅。這類攻擊能夠繞過模型的安全防護,誘導其生成不合規的有害内容,帶來了顯著的安全隐患。針對這一問題,作者深入分析了越獄攻擊的機制,并基于線性表示假說(Linear Representation Hypothesis,LRH)提出了一個創新越獄防禦框架——JBShield。該框架通過定義并分析兩類關鍵概念:有毒概念(Toxic Concepts)和越獄概念(Jailbreak Concepts),揭示了越獄提示的獨特機理。研究發現,大型語言模型能夠識别提示中的有害語義并激活有毒概念,但越獄提示通過激活越獄概念,将模型的輸出從拒絕變為服從。JBShield包括兩個核心組件:越獄檢測和越獄緩解。在檢測階段,該方法通過判斷輸入是否同時激活有毒概念和越獄概念來識别越獄提示;在緩解階段,該方法通過增強有害概念并削弱越獄概念,調整模型的隐藏表示,從而确保輸出内容的安全性。實驗結果顯示,JBShield在多個開源大型語言模型上的平均越獄檢測準确率達到95%,并将多種越獄攻擊的平均成功率從61%降至2%。這一成果為大型語言模型的安全防護提供了全新的技術路線,具有重要的實際意義。

據悉,USENIX Security 于 1990年首次舉辦,已有三十多年曆史,與 IEEE S&P、ACM CCS、NDSS 并稱為信息安全領域國際四大頂級學術會議,也是中國計算機學會(CCF)推薦的A類會議,被錄用的稿件反映了網絡安全領域國際最前沿的研究水平。


Baidu
sogou