原文標(biāo)題:JAILBREAKER: Automated Jailbreak Across Multiple Large Language Model Chatbots
原文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, and Yang Liu
發(fā)表會(huì)議:NDSS 2024
原文鏈接:https://arxiv.org/pdf/2307.08715.pdf
項(xiàng)目鏈接:https://sites.google.com/view/ndss-masterkey
主題類型:大模型
筆記作者:劉藝
主編:黃誠@安全學(xué)術(shù)圈近年來,大型語言模型(LLM)在各個(gè)行業(yè)和領(lǐng)域中扮演著越來越重要的角色,特別是在聊天機(jī)器人(chatbot)方面。大家在使用這些聊天機(jī)器人的時(shí)候可能會(huì)發(fā)現(xiàn),這些聊天機(jī)器人都是“翩翩君子”,對于敏感或者有攻擊性的話題一句話也不會(huì)多說。這是因?yàn)閺S商在構(gòu)建這些聊天機(jī)器人的時(shí)候加入了諸多保護(hù)措施,嚴(yán)格限制了它們的輸出內(nèi)容。那么有沒有辦法讓這些聊天機(jī)器人從“翩翩君子”變成口無遮攔的“耿直boy”呢?這就涉及到了所謂的越獄攻擊(Jailbreak),即讓LLM模型或聊天機(jī)器人輸出違規(guī)內(nèi)容。隨著服務(wù)提供商不斷地更新和強(qiáng)化安全措施,越獄攻擊的難度也不斷提高,并且由于這些聊天機(jī)器人多作為一個(gè)“黑箱”存在,使得外部安全分析人員在評估和理解這些模型的決策過程以及潛在的安全隱患方面面臨巨大困難。
有鑒于此,一個(gè)由南洋理工大學(xué)、華中科技大學(xué)、新南威爾士大學(xué)等高校聯(lián)合組成的研究團(tuán)隊(duì)近日發(fā)表了題為「Masterkey: Automated Jailbreaking of Large Language Model Chatbots」的一項(xiàng)突破性研究,該研究被網(wǎng)絡(luò)與分布式系統(tǒng)安全研討會(huì)(NDSS)——全球四大安全頂級會(huì)議之一所接收。該研究首次通過自動(dòng)生成提示詞完成對多個(gè)大廠商的大模型的“破解”。該工作的核心目的是揭露模型在運(yùn)行中可能存在的安全漏洞或不合規(guī)行為,并據(jù)此制定更為精準(zhǔn)和有效的安全防護(hù)措施。
首先作者通過一個(gè)實(shí)證研究了解越獄攻擊所帶來的潛在威脅以及現(xiàn)有的越獄防御措施。實(shí)證研究的第一個(gè)研究問題圍繞LLM 聊天機(jī)器人服務(wù)提供商設(shè)定了哪些使用政策展開。作者發(fā)現(xiàn)所調(diào)研的4個(gè)主流LLM聊天機(jī)器人服務(wù)提供商,包括OpenAI, Google Bard,Bing Chat和Ernie都限制了4種常見的信息輸出:違法信息、有害內(nèi)容、權(quán)利侵犯內(nèi)容,和成人內(nèi)容。
實(shí)證研究第二個(gè)研究問題針對商業(yè)LLM聊天機(jī)器人的現(xiàn)有越獄提示詞的有效性。作者針對4個(gè)知名的聊天機(jī)器人用85個(gè)通過不同資源找到的有效越獄提示詞進(jìn)行測試。為了減少隨機(jī)因素并確保進(jìn)行詳盡的評估,作者對每個(gè)問題進(jìn)行了10輪,累計(jì)68,000次的測試并人工校驗(yàn)(5個(gè)問題 × 4個(gè)禁止的場景 × 85個(gè)越獄提示 × 10輪 × 4個(gè)模型)。結(jié)果(TableII)顯示大部分現(xiàn)有的越獄提示詞僅對ChatGPT有效。
通過實(shí)證研究,作者發(fā)現(xiàn)失敗的越獄攻擊樣本是由于聊天機(jī)器人提供商加入了針對該類攻擊的防御措施。由此激發(fā)作者提出一個(gè)名為MasterKey的反向工程框架去推測服務(wù)提供商所實(shí)施的防御類別,進(jìn)而有針對性的提出攻擊策略。作者通過觀察不同類型攻擊失敗樣本的反應(yīng)時(shí)長,類比于網(wǎng)絡(luò)服務(wù)中SQL攻擊,推斷出了聊天機(jī)器人提供商的內(nèi)部架構(gòu)和相應(yīng)機(jī)制。
作者認(rèn)為服務(wù)提供商內(nèi)部有基于文本語意或者關(guān)鍵詞匹配的生成內(nèi)容檢測機(jī)制。簡單來說,作者關(guān)注三個(gè)主要維度的信息。第一個(gè)是判斷防御機(jī)制是在輸入,輸出還是都存在(下圖b);第二個(gè)是判斷防御機(jī)制是動(dòng)態(tài)監(jiān)測還是在生成結(jié)束(下圖c);第三個(gè)是判斷防御機(jī)制是基于關(guān)鍵詞檢測還是語意(下圖d)。通過系統(tǒng)實(shí)驗(yàn)進(jìn)一步發(fā)現(xiàn),Bing Chat 和 Bard 使用的越獄預(yù)防策略是對模型生成的結(jié)果進(jìn)行檢查,而不是對輸入提示進(jìn)行檢查;他們運(yùn)用動(dòng)態(tài)監(jiān)測全周期生成狀態(tài)并且擁有關(guān)鍵詞匹配和語義分析的能力。
通過上述對聊天機(jī)器人提供商的防御機(jī)制進(jìn)行深入分析之后,作者進(jìn)一步提出了一個(gè)基于大模型的越獄提示詞生成方法(也就是魔法打敗魔法的關(guān)鍵。唧w來說,首先選出可以在ChatGPT上越獄成功的提示詞集合,再通過持續(xù)訓(xùn)練和任務(wù)導(dǎo)向微調(diào)一個(gè)用于改寫先前得到的越獄提示詞的大模型,最后進(jìn)一步優(yōu)化使得模型可以生成高質(zhì)量可以繞過防御機(jī)制的越獄提示詞。
最后作者通過系統(tǒng)性的大規(guī)模實(shí)驗(yàn)驗(yàn)證了提出的方法的有效性。結(jié)果顯示該方法可以大幅度提升越獄攻擊的成功率。值得一提的是該工作是首個(gè)系統(tǒng)性成功對Bard和Bing Chat實(shí)施攻擊的工作。此外,作者也對現(xiàn)有的聊天機(jī)器人行為合規(guī)提出了一些建議,如在用戶輸入層面進(jìn)行分析與清理。
未來的工作
在這個(gè)工作中,我們嘗試帶聊天機(jī)器人越獄!但我們的終極目標(biāo)是構(gòu)建一個(gè)不僅誠實(shí)而且友善的機(jī)器人。這目前是個(gè)大坑,歡迎拿上你的鏟,和我們一起挖呀挖!涉及到人工智能安全以及后續(xù)智能網(wǎng)絡(luò)安全防護(hù)比如智能防火墻,智能DDOS/CC防御等。