IBM 安全研究人員最近發(fā)現(xiàn)了一種“簡單得令人驚訝且可怕”的技術,可以使用人工智能 (AI) 劫持和操縱實時對話。這種攻擊稱為“音頻劫持”,依賴于生成式 AI——一類 AI,包括 OpenAI 的 ChatGPT 和Meta 的 Llama-2 — 和 Deepfake 音頻技術。
音頻劫持在實驗中,研究人員指示人工智能處理實時通信中兩個來源的音頻——例如電話交談。
在聽到特定的關鍵字或短語后,人工智能會進一步指示攔截相關音頻并對其進行處理,然后再將其發(fā)送給預期的接收者。
根據(jù) IBM Security 的一篇博客文章,實驗結束時,當另一個人類說話者提示他們提供銀行賬戶信息時,人工智能成功攔截了說話者的音頻。
然后,人工智能用深度偽造的音頻替換了真實的聲音,并給出了不同的帳號。
實驗中的“受害者”沒有發(fā)現(xiàn)這次攻擊。圖片來源:IBM SecurityGenerative AI 該博客指出,雖然執(zhí)行攻擊需要一定程度的社會工程或網(wǎng)絡釣魚,但開發(fā) AI 系統(tǒng)本身并沒有什么挑戰(zhàn):“構建這個 PoC(概念驗證)非常簡單。
我們花了大部分時間弄清楚如何從麥克風捕獲音頻并將音頻輸入生成人工智能?!眰鹘y(tǒng)上,構建一個系統(tǒng)來自動攔截特定的音頻字符串并用動態(tài)生成的音頻文件替換它們需要多個-學科計算機科學工作。但現(xiàn)代生成人工智能本身就承擔了繁重的工作。
博客中寫道:“我們只需要三秒鐘的個人聲音就可以克隆它?!彼a充道,如今,此類深度偽造都是通過 API 完成的。
相關:人工智能深度造假在 2024 年美國大選前愚弄選民和政客——“我以為這是真的”音頻劫持的威脅不僅僅是欺騙不知情的受害者將資金存入錯誤的賬戶。
研究人員還指出,它可以作為一種無形的審查形式發(fā)揮作用,有可能改變實時新聞廣播或?qū)崟r廣播政治演講的內(nèi)容。