Jump to content

人工智能領域的最新進展導致了大語言模型(LLM)問世,包括GPT-3、PaLM、GPT-4和LLAMA。這些模型可以生成易於理解的文本段落、回答詳細的問題、解決複雜的問題、編寫代碼以及處理其他各種自然語言任務。

LLM徹底改變了自然語言處理(NLP)任務,改變了用戶與語言進行交互的方式,最終通過改進後的聊天機器人、虛擬助手、內容生成、搜索引擎和語言學習平台,影響了人們的日常生活。

雖然不可否認LLM進步巨大,有助於日常使用,但在網絡安全領域,它已成為一把雙刃劍,無意中為網絡犯罪分子開創了黃金時代。 LLM允許攻擊者更高效更頻繁地進行一系列攻擊(包括魚叉式網絡釣魚和商業電子郵件入侵等社會工程伎倆),因為它能夠立即生成數千條獨特的明文攻擊消息。好消息是,LLM並非沒有缺陷,尤其在用於生成攻擊時。

我們在本文中將探討防御者如何利用LLM對抗由同樣的LLM生成的攻擊。

LLM攻擊:形式不同,實質相同不妨先從分析三封電子郵件入手,每封郵件發送給我們保護的不同組織的用戶。這些惡意電子郵件都是商業電子郵件入侵(BEC)攻擊,攻擊者通常冒充一家公司的高層人員,比如首席執行官或首席財務官,並指示員工購買禮品卡以獎勵同事。

電子郵件1:

1.png

(圖1)

電子郵件2:

2.png

(圖2)

電子郵件3:

3.png

(圖3)

如果你仔細看一下這些郵件,就會發現有著顯著的相似之處,如下所述:

相似之處

例子1

例子2

例子3

讚賞信息

忠誠和努力創造美好未來

美妙過程、努力、忠誠和專注打動了高層管理人員

美妙過程、努力、忠誠和專注打動了我

行動

送禮品卡,給一些員工以驚喜

送禮品卡,給一些高級員工以驚喜

送禮品卡,給一些員工以驚喜

要求保密

要求你保密,以免敗壞這份驚喜的效果

要求你保密,以免敗壞份驚喜的效果

要求你保密,以免敗壞這份驚喜的效果

潛在的禮品卡

Amex、維薩和塔吉特

Amex、維薩和亞馬遜

維薩、塔吉特和Amex

請求協助

想听聽意見,了解最近的商店,為我迅速購買禮品

想听聽意見

你能找到的最近商店,為我迅速購買禮品

簽收

一收到該電子郵件請回复,致以新年問候

一收到該電子郵件請回复,致以感恩節問候

期待你的回复,致以美好祝愿

從注意到的相似之處來看,可以假定電子郵件使用了模板。此外,易於識別的模式可以歸因於LLM的訓練過程。

當LLM接受訓練時,它接觸到大量的文本數據,使其能夠學習和內化模式。這些模式包括常見的語言結構、短語和內容元素。因此,當受過訓練的模型用於生成文本時,它會藉鑑這學習到的知識,並將這些模式整合到輸出中,從而導致熟悉的主題和內容元素重複出現。

LLM防禦? LMKPerception Point利用了LLM生成的文本中的模式,並用LLM來增強威脅檢測。為了做到這一點,我們使用了transformer,這種高級模型可以理解文本的含義和上下文,LLM也使用了這種高級模型。

使用transformer,我們可以執行文本嵌入,這個過程通過捕獲文本的語義本質,將文本編碼成數字表示。我們使用先進的聚類算法對語義內容密切相關的電子郵件進行分組。通過聚類,我們可以訓練模型來區分屬於同一聚類的電子郵件。這使模型能夠學習和識別由LLM生成的內容中的模式。

當新的電子郵件進入我們的高級威脅防護平台時,模型會掃描其內容,以確定它是否是由LLM生成以及它被惡意使用的可能性。如果發現生成的文本是惡意文件,模型將提供潛在攻擊的詳細信息。

說到檢測人工智能生成的惡意電子郵件,還存在另外一個與誤報判定有關的障礙。如今,許多合法的電子郵件都是藉助ChatGPT等生成式人工智能工具構建的,其他電子郵件常常是由含有重複短語的標準模板構建的(新聞通訊、營銷電子郵件和垃圾郵件等),這些模板與LLM模型的結果非常相似。

我們新模型的顯著特點之一是它的三階段架構,專門設計用於最大限度地檢測由LLM生成的任何有害內容,同時保持極低的誤報率。

在第一階段,模型賦予0到1之間的分數,以評估內容由人工智能生成的概率,然後模型切換到分類模式。借助先進的transformer和完善後的聚類算法,內容被分為多個類別,包括BEC、垃圾郵件和網絡釣魚。再提供0到1之間的分數,標記內容屬於這些類別的概率。

第三個也是最後一個階段融合了前兩個階段的評估結果,並補充了數字特徵,比如發送方信譽評分、身份驗證協議(DKIM、SPF、DMARC)以及我們收集的其他證據。基於這些輸入信息,模型對內容由人工智能生成的可能性以及它是惡意內容、垃圾郵件還是乾淨內容做出最終預測。

為了查看實際運行的模型,我們讓ChatGPT編寫一封示例電子郵件:

4.png

(圖4)

如你所見,輸出含有用於個性化的括號。接下來,我們將生成的文本發送給模型,沒有括號。值得一提的是,對於下面的所有示例,階段3中提到的幾十個數值都被視為郵件是從新的發件人發送的。

5.png

(圖5)

模型返回的置信度分數為0.96,將該內容描述為潛在的BEC攻擊,具體是使用禮品卡請求從受害者那裡竊取資金的郵件。

然後,我們測試了模型在面對生成較長的文本時的表現:

6.png

(圖6)

7.png

(圖7)

8.png

(圖8)

就像針對較短文本的初始判定一樣,模型還將生成的較長文本分類為潛在的BEC禮品卡攻擊,得分為0.92。

為了進一步測試模型,我們隨後讓ChatGPT撰寫一封電子郵件,要求收件人提供W-2表格。這是一種廣泛使用的社會工程攻擊,因為W-2表格用於報告員工的年薪以滿足稅收要求。對於網絡犯罪分子來說,這無異於一座金礦,擁有豐富的個人和財務信息,可用來進行身份盜竊、稅務欺詐,甚至用於更複雜的社會工程攻擊。

以下是ChatGPT給出的答案:

9.png

(圖9)

10.png

(圖10) 11.png

(圖11)

即使我們給了ChatGPT更詳細的說明,模型仍然可以正確地對內容進行分類——在這種情況下,將其分類成潛在的W2社會工程攻擊,得分為0.87。

結語我們在本文中探討了網絡防御者如何利用LLM生成的攻擊存在的漏洞和局限性。通過了解這些弱點,防御者就可以製定有針對性的緩解策略,並利用LLM作為消除威脅的寶貴工具,積極採用主動性、適應性的方法,防御者可以加強防禦,比攻擊者領先一步。

0 Comments

Recommended Comments

There are no comments to display.

Guest
Add a comment...