新发布:2025年SANS工业控制系统/运营技术网络安全报告现已上线

获取报告
我们利用人工智能进行网站翻译,虽然我们力求准确,但不一定总是 100%精确。感谢您的理解。

用MetaDefender Sandbox检测人工智能模型中的恶意软件

为什么恶意人工智能模型是供应链攻击的下一个前沿阵地--MetaDefender Sandbox 如何暴露其隐藏的有效载荷。
OPSWAT
分享此贴

人工智能已成为日常生活的一部分。根据 IDC 的数据,到 2026 年,全球人工智能系统的支出预计将超过 3000 亿美元,这表明人工智能的应用正在加速。人工智能不再是一项小众技术,它正在塑造企业、政府和个人的运作方式。

Software 开发人员正越来越多地将大型语言模型(LLM)功能纳入其应用程序。知名的 LLM,如 OpenAI 的 ChatGPT、Google 的 Gemini 和 Meta 的 LLaMA,现在已被嵌入到业务平台和消费工具中。从客户支持聊天机器人到生产力软件,人工智能集成正在提高效率、降低成本并保持企业竞争力。

但是,每一种新技术都会带来新的风险。我们越依赖人工智能,它就越容易成为攻击者的目标。其中一种威胁的势头尤其迅猛:恶意人工智能模型,这些文件看似有用的工具,却隐藏着危险。

预训练模型的隐藏风险

从头开始训练一个人工智能模型可能需要数周时间、强大的计算机和海量数据集。为了节省时间,开发人员通常会重复使用通过 PyPI、Hugging Face 或 GitHub 等平台共享的预训练模型,通常采用 Pickle 和 PyTorch 等格式。

从表面上看,这很有道理。既然模式已经存在,为什么还要重新发明呢?但问题是:并非所有模型都是安全的。有些模型可以被修改以隐藏恶意代码。它们不仅不能简单地帮助语音识别或图像检测,反而会在加载时悄悄运行有害指令。

Pickle 文件尤其具有风险。与大多数数据格式不同,Pickle 不仅可以存储信息,还可以存储可执行代码。这意味着攻击者可以在一个看起来非常正常的模型中伪装恶意软件,通过看似可信的人工智能组件提供一个隐藏的后门。

从研究到真实世界的攻击

预警--理论上的风险

人工智能模型可能被滥用来传播恶意软件的观点并不新鲜。早在 2018 年,研究人员就发表了《深度学习系统的模型复用攻击》等研究报告,表明来自不可信来源的预训练模型可能被操纵,从而产生恶意行为。

起初,这似乎只是一个思想实验--一个在学术界争论不休的 "如果 "方案。许多人认为,它仍然太小众,不重要。但历史表明,每项被广泛采用的技术都会成为众矢之的,人工智能也不例外。

概念验证--让风险成为现实

当恶意人工智能模型的真实案例浮出水面,证明 PyTorch 等基于 Pickle 的格式不仅能嵌入模型权重,还能嵌入可执行代码时,理论就转变成了实践。

一个引人注目的案例是star23/baller13,这是 2024 年 1 月初上传到 Hugging Face 的一个模型。该模型包含一个隐藏在 PyTorch 文件中的反向外壳,加载它可以让攻击者获得远程访问权限,同时还能让模型作为一个有效的人工智能模型运行。这突出表明,在 2023 年底到 2024 年期间,安全研究人员一直在积极测试概念验证。

显示在人工智能模型中检测到恶意软件的警告的用户界面截图,其中有扫描为不安全的文件和 YAML 元数据警告
拥抱脸庞上的 PoC 模特
显示反向 shell 命令的 Python 代码截图,说明在人工智能模型中检测恶意软件的概念验证
嵌入 Pytorch 的反向外壳

到 2024 年,这个问题不再是孤立的。JFrog报告称,有 100 多个恶意人工智能/ML 模型上传到了 "拥抱脸",证实这一威胁已从理论转变为现实世界中的攻击。

Supply Chain 攻击--从实验室到野外

攻击者还开始利用建立在软件生态系统中的信任。2025 年 5 月,aliyun-ai-labs-snippets-sdk 和 ai-labs-snippets-sdk 等虚假 PyPI 软件包模仿阿里巴巴的人工智能品牌欺骗开发者。虽然这些软件包上线时间不到 24 小时,但下载次数却达到了约1,600 次,这表明中毒的人工智能组件可以如此迅速地渗透到供应链中。

对于安全领导者来说,这意味着双重风险

  • 如果模型受到损害,人工智能驱动的业务工具就会中毒,从而导致业务中断
  • 如果数据外泄是通过受信任但被植入木马的组件进行的,则存在监管和合规风险
Python SDK 软件包页面显示供应链安全和漏洞评分,用于在人工智能模型中检测恶意软件
恶意 PyPi 软件包示例 1
显示在 Python SDK 软件包的人工智能模型中检测恶意软件的供应链风险警报的用户界面截图
恶意 PyPi 软件包示例 2
文件资源管理器显示了一个被入侵的 PyPi 软件包和一个可疑的 model.pt 文件,说明了如何检测人工智能模型中的恶意软件
恶意 PyPi 软件包示例 3

高级闪避--战胜传统防御系统

一旦攻击者发现了这一潜力,他们就开始尝试如何让恶意模型更难被发现。一位名叫 coldwaterq 的安全研究人员展示了如何滥用 "堆叠泡菜 "的特性来隐藏恶意代码。

通过在多层 Pickle 对象之间注入恶意指令,攻击者可以隐藏其有效载荷,使其在传统扫描仪面前看起来无害。当加载模型时,隐藏的代码会一步一步地慢慢解包,从而揭示其真正目的。

安全扫描 UI 显示,62 个供应商中有 0 个在人工智能模型文件中检测到恶意软件,突出显示了检测的规避性
VirusTotal 未检测到

其结果是出现了一类新的人工智能供应链威胁,既隐蔽又有弹性。这种演变凸显了攻击者创新新伎俩与防御者开发工具揭露新伎俩之间的军备竞赛。

Metadefender Sandbox 检测如何帮助防止人工智能攻击

随着攻击者方法的改进,简单的签名扫描已不再足够。恶意人工智能模型可以使用编码、压缩或 Pickle 怪癖来隐藏其有效载荷。MetaDefender Sandbox 通过专为人工智能和 ML 文件格式构建的多层次深度分析来弥补这一缺陷。

利用综合 Pickle 扫描工具

MetaDefender Sandbox 将Fickling与定制的OPSWAT 分析器整合在一起,将 Pickle 文件分解为各个组件。这样,防御者就可以

  • 检查异常导入、不安全函数调用和可疑对象。
  • 确定绝不应出现在普通人工智能模型中的功能(如网络通信、加密例程)。
  • 为安全团队和 SOC 工作流程生成结构化报告。
Fickling 工具用户界面显示恶意裁决,用于使用泡菜扫描检测人工智能模型中的恶意软件
获得菲克林分析判决

分析会突出显示多种类型的特征,这些特征可能表明 Pickle 文件可疑。它会查找不寻常的模式、不安全的函数调用或与正常人工智能模型目的不符的对象。

显示 AI 模型 pickle 文件中恶意软件检测的 UI 截图,其中列出了恶意判定和不安全的 Python 导入
分析发现泡菜中的有趣线索

在人工智能训练中,Pickle 文件不应需要外部库来进行进程交互、网络通信或加密例程。此类导入的存在是恶意意图的强烈信号,应在检查过程中予以标记。

显示 Pickle 文件扫描结果的用户界面,用于检测人工智能模型中的恶意软件,列出可疑的导入和函数调用
Pickle 文件调用一个函数

深度静态分析

除了解析之外,沙盒还会反汇编序列化对象并跟踪其指令。例如,Pickle 的REDUCE 操作码可以在解压过程中执行任意函数,沙箱会对其进行仔细检查。攻击者经常滥用 REDUCE 来启动隐藏的有效载荷,沙箱会标记任何异常使用。

显示深度静态分析检测人工智能模型 pickle 文件中恶意软件的 UI 截图,其中包含恶意判决和代码详情
揭开来自 star23/baller13 的反壳

威胁行为者通常会将真正的有效载荷隐藏在额外的编码层后面。在最近的 PyPI 供应链事件中,最终的 Python 有效载荷被存储为一个长的 base64 字符串,MetaDefender Sandbox 会自动解码和解包这些层,以揭示实际的恶意内容。

通过 pickle 文件 REDUCE 操作码警告和代码输出显示深度静态分析检测人工智能模型中恶意软件的 UI 截图
任意代码执行包含编码有效载荷
显示用于在人工智能模型中检测恶意软件的恶意 pickle 文件深度静态分析判决的用户界面截图
Pickle 文件执行 base64 编码命令
Python 代码截图显示了在人工智能模型中检测恶意软件的静态分析,与深度静态分析有关
解码后的有效载荷。(可在 MD 沙盒报告的 "提取的文件 "部分找到)。

揭秘故意规避技术

堆叠 Pickle 可以作为一种隐藏恶意行为的技巧。通过嵌套多个 Pickle 对象并跨层注入有效载荷,然后结合压缩或编码。每一层本身看起来都是无害的,因此许多扫描程序和快速检查都会漏掉恶意有效载荷。

MetaDefender Sandbox 会逐层剥开这些层:它会解析每个 Pickle 对象,解码或解压编码段,并跟踪执行链以重建完整的有效载荷。通过在受控分析流程中重播解包序列,沙盒可以揭露隐藏的逻辑,而无需在生产环境中运行代码。

对于 CISO 来说,结果是显而易见的:在有毒模型到达人工智能管道之前,隐藏的威胁就会浮出水面。

恶意软件检测 UI 利用纠错文件、判决和可疑代码分析,突出人工智能模型中的规避技术
Pickle 文件可能通过 REDUCE 操作码执行有效载荷

结论

人工智能模型正在成为现代软件的基石。但就像任何软件组件一样,它们也可能被武器化。高信任度和低可见性的结合使它们成为供应链攻击的理想工具。

现实世界的事件表明,恶意模型不再是假设,它们现在就在这里。检测它们并非易事,但却至关重要。

MetaDefender Sandbox 提供了所需的深度、自动化和精确性:

  • 检测预训练人工智能模型中的隐藏有效载荷。
  • 发现传统扫描仪无法发现的高级规避策略。
  • 保护 MLOps 管道、开发人员和企业免受中毒组件的危害。

各重要行业的组织已经信任OPSWAT 来保护他们的供应链。有了MetaDefender Sandbox,他们现在可以将这种保护延伸到人工智能时代,在这个时代,创新不会以牺牲安全为代价。

了解更多 MetaDefender Sandbox并了解它如何检测隐藏在人工智能模型中的威胁。

妥协指标(IOCs)

star23/baller13: pytorch_model.bin
SHA256: b36f04a774ed4f14104a053d077e029dc27cd1bf8d65a4c5dd5fa616e4ee81a4

ai-labs-snippets-sdk: model.pt
SHA256: ff9e8d1aa1b26a0e83159e77e72768ccb5f211d56af4ee6bc7c47a6ab88be765

aliyun-ai-labs-snippets-sdk: model.pt
SHA256: aae79c8d52f53dcc6037787de6694636ecffee2e7bb125a813f18a81ab7cdff7

coldwaterq_inject_calc.pt
SHA256: 1722fa23f0fe9f0a6ddf01ed84a9ba4d1f27daa59a55f4f61996ae3ce22dab3a

C2 服务器
hxxps[://]aksjdbajkb2jeblad[.]oss-cn-hongkong[.]aliyuncs[.]com/aksahlksd

IP
136.243.156.120
8.210.242.114

通过OPSWAT 了解最新信息!

立即注册,即可收到公司的最新动态、 故事、活动信息等。