爲防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務信息,模型學會「自毀」了

--

防止大模型作惡的新法子來了!

這下即使模型開源了,想惡意使用模型的人也很難讓大模型“作惡”。

不信就來看這項研究。

斯坦福研究人員最近提出了一種新方法對大模型使用附加機制進行訓練後,可以阻止它對有害任務的適應。

他們把通過此方法訓練出的模型稱爲“自毀模型”。

自毀模型仍然能夠高性能地處理有益任務,但在面對有害任務的時候會神奇地“變差”。

目前該論文已被AAAI接收,並獲得了最佳學生論文獎榮譽提名。

先模擬,再毀掉

越來越多大模型開源,讓更多人可以參與到模型的研發和優化中,開發模型對社會有益的用途。

然而,模型開源也同樣意味着惡意使用大模型的成本也降低了,爲此不得不防一些別有用心之人(攻擊者)。

此前爲防止有人惡意促使大模型作惡,主要用到了結構安全機制、技術安全機制兩類辦法。結構安全機制主要是使用許可證或訪問限制,但面對模型開源,這種方法效果被削弱。

這就需要更多的技術策略做補充。而現有的安全過濾、對齊優化等方法又容易被微調或者提示工程繞過。

斯坦福研究人員提出要用任務阻斷技術訓練大模型,使模型在正常任務中表現良好的同時,阻礙模型適應有害任務。

任務阻斷的方法就是假設攻擊者試圖將預訓練大模型改造用於有害任務,然後搜索最佳的模型改造方法。

接着通過增加數據成本和計算成本兩種方式來增加改造難度。

研究人員在這項研究中着重探究了增加數據成本的方法,也就是降低模型的少樣本效果,使模型在有害任務上的少樣本表現接近隨機初始化模型,這也就意味着要惡意改造就要花費更多數據。以至於攻擊者寧願從頭開始訓模型,也不願使用預訓練模型。

具體來說,爲了阻止預訓練模型成功適應有害任務,研究人員提出了一種利用了元學習(Meta-Learned)和對抗學習的MLAC(Meta-Learned Adversarial Censoring)算法來訓練自毀模型。

MLAC使用有益任務數據集和有害任務數據集對模型進行元訓練(meta-training):

MLAC訓練程序

該算法在內循環中模擬各種可能的適配攻擊,在外循環中更新模型參數以最大化有害任務上的損失函數,也就是更新參數抵抗這些攻擊。

通過這種對抗的內外循環,使模型“遺忘”掉有害任務相關的信息,實現自毀效果。

繼而學習到在有益任務上表現良好,而在有害任務上難以適配的參數初始化。

meta-learning過程

整體上,MLAC通過模擬攻擊者(adversary)適配過程,找到有害任務的局部優點或鞍點,在有益任務上保持全局最優。

正如上圖,通過規劃預訓練模型在參數空間中的位置,可以增加其微調的難度。

放置在點1的大模型可以通過梯度下降輕鬆調整,以獲得有害任務損失(haemful task loss)和期望任務損失(desired task loss)的全局最優解。

另一方面,放置在點2的大模型可以輕鬆達到期望任務的最優解,但更有可能陷入有害任務的局部最優解。

這樣得到的模型初始化,在有益任務上易於適配到全局最優,但在有害任務上陷入局部優點,難以改造。

自毀效果針不戳!

爲了測試通過上述方法訓練出的“自毀模型”的性能,研究人員做了個實驗。

首先研究人員準備了一個人物傳記數據集 — — Bias in Bios。

然後他們將性別識別任務視爲有害任務,職業分類任務視爲有益任務。在原始數據集基礎上,把所有人稱替換爲“they/their”,增加了性別識別任務的難度。

在未處理的數據集上,隨機模型只需要10個例子就可以達到90%以上的性別分類準確率。

然後將模型進行50k steps的MLAC預訓練。

在測試時,研究人員用生成的自毀模型,通過嚴格的超參數搜索運行它,以最大限度地提高有害任務的微調性能。

此外,研究人員還抽出了驗證集子集作爲攻擊者訓練集,模擬攻擊者僅有有限數據的情況。

但在超參數搜索時,允許攻擊者使用完整的驗證集。這意味着雖然攻擊者只有有限訓練數據,但可以在全量數據上探索超參數。

如果在這種情況下,MLAC訓練的模型仍難以適配到有害任務,可以更好地證明其自毀效果。

研究人員隨即將MLAC與以下方法進行比較:

隨機初始化模型
僅在有益任務上微調的BERT
簡單對抗訓練法

△經過微調的有害任務(性別識別)表現。陰影表示在6個隨機seed上的95%置信區間。
結果發現,MLAC方法訓練出的自毀模型在所有數據量下的有害任務性能均接近隨機初始化模型。而簡單對抗訓練法並沒有明顯降低有害任務的微調性能。

與簡單對抗訓練相比,MLAC的元學習機制對產生自毀效果至關重要。

△MLAC算法中內循環步數K的影響,K=0相當於簡單的對抗訓練
此外,MLAC模型在有益任務上的少樣本性能優於BERT微調模型:

△在對所需任務進行微調後,MLAC自毀模型的少樣本性能超過了BERT和隨機初始化模型。

文章來源: 量子位
原文鏈接:https://mp.weixin.qq.com/s/nzWClxg8Usoj8HnLNICl5g

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

文章推薦

餅圖變形記,肝了3000字,收藏就是學會!

MySQL必須掌握4種語言!

太實用了!4種方法教你輕鬆製作互動式儀表板!

跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求

妙呀!一行Python程式碼

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet