精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

對抗性機器學習在受限特征應用中的挑戰

機器學習對抗攻擊防御

圖片來源:123RF(有修改)

本文是我們對最新AI 研究報道的一部分。

人們對機器學習模型的安全性越來越感興趣和擔憂。專家們知道,用于多種應用的機器學習和深度學習模型很容易受到對抗性攻擊。

但是,在 ML 模型中查找和修復對抗性漏洞說起來容易做起來難。近年來,該領域有很多研究,但大部分都集中在處理視覺數據的 ML 模型上。

我們看到機器學習在網絡數據分析、欺詐檢測和垃圾郵件過濾等應用程序中的使用越來越多,這些應用程序使用表格和文本數據。不幸的是,許多用于發現針對計算機視覺系統的對抗性攻擊的技術并不適用于這些其他類型的數據。

同時,對這些數據類型的對抗性攻擊的研究大多未能產生通用的工具和方法來創建強大的 ML 模型。

在2022 年國際人工智能聯合會議 (IJCAI) 上發表的一項新研究中,盧森堡大學的科學家們提出了新技術,可以幫助為這些其他應用找到對抗性攻擊和防御。該研究可以幫助找到解決機器學習系統中對抗性漏洞的系統方法。

受限特征空間中的對抗性攻擊

對抗性攻擊是對操縱機器學習系統行為的模型輸入的小擾動。在以下示例中,對圖像像素顏色所做的微小更改會導致圖像分類器更改其輸出。在將機器學習用于敏感功能(例如驗證用戶或檢測惡意網絡流量)的應用程序中,對抗性攻擊可能會產生嚴重的安全影響。

人工智能對抗性示例熊貓

為左邊的熊貓圖像添加一層噪聲,將其變成一個對抗樣本

為了有效,對抗性擾動必須足夠小,以將修改后的數據保持在有效范圍或“域約束”內。在計算機視覺中,這些約束相當寬松,只要求人類觀察者察覺不到對抗性擾動。

“在計算機視覺中,圖像的任何相當小的擾動都會產生有效的圖像(在人眼看來仍然是一樣的),”盧森堡大學研究科學家、對抗性攻擊新論文的合著者馬克西姆·科迪(Maxime Cordy)和防御,告訴TechTalks。“相比之下,擾亂文本很容易導致語法錯誤(拼寫或語法)或造成語義不一致。金融或惡意軟件安全等許多其他領域也是如此。”

這些其他應用程序的性質對特征施加了更嚴格的限制,這使得通過隨機擾動創建對抗性示例變得非常困難。由于對抗性機器學習的大部分研究都是在計算機視覺系統上完成的,因此對抗性攻擊基于不考慮目標系統約束的通用技術。因此,它們不適用于處理其他類型數據的 ML 模型。

Cordy 和他的同事之前進行的研究表明,不知道這些限制的對抗性攻擊大多會產生不可行的例子。

盧森堡大學的研究團隊多年來一直在進行對抗性機器學習的研究。與此同時,他們一直在與行業合作伙伴合作,研究實際應用中使用的機器學習模型的對抗魯棒性。

“我們對現實世界的金融機器學習模型進行了實證研究,并意識到對抗性攻擊需要了解‘域約束’才能產生有效的輸入,”Cordy 說。“通過對文獻的分析,我們意識到其他研究人員在其他領域也面臨同樣的問題,并提出了針對特定領域的對抗性攻擊。”

這導致團隊創建了一個可以應用于許多領域的通用框架。

對抗性攻擊和防御的通用框架

這不是第一次研究針對受限域問題的對抗性攻擊。但大多數技術都有限制,無法跨領域推廣。

一種方法是“問題空間”攻擊,它通過在將它們映射到 ML 模型的特征之前操縱域對象,例如惡意軟件代碼(用于惡意軟件檢測系統)和純文本(例如,用于垃圾郵件檢測)來工作空間。

“這些攻擊不會泛化到單個域之外,因為它們依賴于特定的轉換來改變域對象,”Cordy 說。對象操作在計算上也比處理數字特征向量更昂貴。

另一類技術是“特征空間”攻擊,它直接嘗試修改模型的輸入特征。

“在特征空間中,所有數據都歸結為數字,因此有泛化的空間,”Cordy 說。“然而,定義輸入特征有效性規則的域約束仍然受限于所考慮的域。”

一旦為一個領域開發了特征空間對抗性攻擊技術,就需要對其進行重大修改,然后才能將其應用于其他領域。

“挑戰在于提供一種語言來定義足夠表達的約束,同時使攻擊算法能夠有效地處理這些約束,”Cordy 說。

各種數據類型

圖片來源:123RF

在他們的論文中,Cordy 和他的合著者提出了一個“約束特征空間攻擊的統一框架”,它可以創建可行的示例并在不進行調整的情況下應用于不同的領域。

該框架由“約束語言”和對抗性攻擊技術組成。約束語言是定義特征邊界和特征之間關系的通用系統。然后這些特征會自動轉換為對抗性攻擊技術。

研究人員提出了兩種攻擊技術。第一個是“約束投影梯度下降”(C-PGD),是 PGD 的修改版本,一種流行的對抗性攻擊方法。C-PGD 將可微約束合并到算法最大化的損失函數中(與 ML 模型一樣,PGD 使用可微損失和基于梯度的算法來調整其參數)。然后,該算法使用后處理計算將不可微約束應用于生成的示例。

第二種攻擊技術“多目標進化對抗攻擊”(MoEvA2)使用遺傳算法,將錯誤分類、擾動距離和約束滿足作為三個優化目標。遺傳算法方法在約束不能表示為可微函數的應用中特別方便。

他們的實驗表明,與經典的對抗性攻擊技術相比,C-PGD 和 MoEvA2 顯著提高了成功率。研究人員寫道:“雖然不知道域約束的對抗性攻擊失敗了,但將約束知識作為攻擊目標可以成功生成受約束的對抗性示例。”

然而,MoEvA2 與所有其他技術相比具有明顯的優勢,并且在某些應用中可以達到 100% 的成功率。

“遺傳算法(更一般地說,黑盒搜索算法)的優勢在于它們可以直接在多目標適應度函數中包含約束滿足(在模型錯誤分類和擾動閾值旁邊),”Cordy 說。“基于梯度的攻擊需要一個可微的損失函數才能工作。使這些攻擊具有約束意識的唯一方法是將約束作為一個新的、可微分項合并到損失函數中。然而,我們觀察到的許多現實世界的約束是不可微的。這就是為什么我們的基于約束的基于梯度的攻擊(在論文中命名為 C-PGD)只能取得有限的成功。”

研究人員測試了針對神經網絡和隨機森林的攻擊技術,這些攻擊技術針對四種二進制分類應用程序進行了訓練,包括信用審批、網絡流量分類、惡意軟件檢測和網絡釣魚 URL 檢測。根據 Cordy 的說法,該技術可以很容易地擴展到更復雜的領域。

“我們的方法可以通過修改錯誤分類目標直接擴展到多類模型,”Cordy 說。“它既可以用于非目標目標(模型應將輸入分類為任何不正確),也可以用于目標目標(模型應分類為指定類別)。”

C-PGD和MoEvA2性能

C-PGD和MoEvA2在特征受限領域中優于其他對抗性攻擊技術

防御對抗性攻擊

擴展他們的工作,研究人員試圖了解他們的發現如何用于使機器學習模型對對抗性攻擊更加健壯。首先,他們使用了對抗性再訓練,這是一種常見的防御技術,其中 ML 模型對對抗性示例及其正確標簽進行額外訓練。在這種情況下,ML 模型在 C-PGD 和 MoEvA2 生成的示例上進行了重新訓練。

研究人員的研究結果表明,使用這兩種技術進行對抗性再訓練是針對受限對抗性攻擊的有效防御。然而,MoEvA2 仍然設法保持了大約 85% 的效率,據研究人員稱,這表明“該搜索算法探索的大型搜索空間保留了其有效性。”

研究人員提出了第二種防御機制,他們稱之為“工程約束”。基本上,這種方法通過添加不可微分的特征在 ML 模型中引入了一些非凸約束。

可以預料,這種新方法會使基于梯度的對抗性攻擊極其不穩定,并將其成功率降至接近于零。另一方面,MoEvA2 仍然可以保持其成功率,但搜索空間變得更大、更復雜。因此,遺傳算法需要比以前多十倍的代數才能達到以前的準確性。

研究人員看到了進一步建立和改進這些技術的潛在方向。

“作為研究人員,我們的最終目標是幫助保護現實世界的模型免受對抗性威脅,”Cordy 說。“為了這個目標,我們的工作可以通過兩種方式改進。首先,通過混合可行示例(由我們的方法產生)和不可行示例(由經典攻擊產生,這比我們的約束方法更有效)來提高對抗性訓練的計算效率。其次,通過開發自動化方法從可用輸入中學習約束來促進約束引發階段。這兩項貢獻相結合,將能夠正確評估和改進模型對現實攻擊的魯棒性。”

猜你喜歡