关于MetaDefender Cloud
MetaDefender Cloud是OPSWAT基于云的高阶威胁防御和恶意软件分析平台。我们独有的深度 CDR 与 20 多个最佳反病毒引擎的多重扫描相结合,可保护企业免受零日攻击和日益复杂的恶意软件的侵害。MetaDefender Cloud我们的沙盒结合使用OPSWAT的世界级威胁情报数据库进行的实时散列、IP 和域分析,可以帮助恶意软件研究人员深入了解现有和潜在的威胁。
目前,MetaDefender Cloud 平台每天可支持客户提出的 500 多万次扫描请求,平均扫描时间仅为 0.4 秒。
我们为什么要开发MetaDefender 即服务(MDaaS)?
满足市场需求,为客户提供更好的支持
我们希望确保MetaDefender Cloud 能够进行扩展,以满足不断变化的需求,以及随着越来越多的应用程序迁移到云端,对高阶应用安全服务和日益复杂的 DevOps 安全服务不断增长的需求。随着文件流量的增加,MetaDefender Cloud 必须保持并提高其性能,以确保为我们的最终客户提供流畅的用户体验。
加强监测和预测扩展
我们决定将内部部署架构迁移到基于微服务和基础设施即代码的云原生 Kubernetes,以便在当前的部署和监控模式上提供无缝一致的体验。
MetaDefender 作为服务架构

随着我们向 MDaaS 迁移,我们的Multiscanning 服务已从基于 Windows 的AMI 迁移到基于 Kubernetes 的集群。管理员现在可以为每个引擎配置可扩展性。由于引擎的性能各不相同,因此可以对速度较慢的引擎进行扩展,以保持快速的扫描时间。
文件处理流程如下
外部请求者向 "request "Kafka 主题 (1) 发送信息,其中包含请求指令,如使用 AV1、AV2 等扫描文件,使用Deep CDR 对文件进行消毒,以及使用Sandbox 对文件进行分析等。
2. 之后,订阅接收消息的 Lambda 提取器 (2) 会将请求分成若干不同的命令,并将它们发送到另一个 Kafka 主题 (3),然后在那里对它们进行分类并分配给相关的引擎。(4)
引擎处理(4)是系统的核心。它包含多个引擎容器,在亚马逊弹性 Kubernetes 服务(EKS)上运行,并能根据工作负载进行扩展或缩小。每个引擎处理一个特定请求,以提高处理性能。
4. 在处理过程中,还使用 S3 存储桶 (5) 来存储输入和输出文件。
与此同时,可用的日志处理模块(6)接收来自引擎的日志,并将其传送到日志分析系统。
6. 文件处理完毕后,每个引擎得出的结果将返回到 "结果 "Kafka 主题 (7)
随后,使用 AWS Lambda (8) 的微服务聚合器将结果合并为一份报告,并将其发送到 Kafka 主题 (9) 返回给请求者。
技术挑战和解决方案
预测发动机行为和处理异常
传统的 MDCore AMI 部署允许引擎在一台功能强大的计算机上运行,引擎之间可以共享资源(CPU、内存、磁盘、网络等)。然而,在微服务架构中,每个引擎都在一个功能较弱的容器中单独运行。因此,在这种情况下,我们很难确定系统的资源需求。
为了解决这个问题,我们利用旧系统的历史数据为每个引擎设定了基线,并添加了 Datadog 监控。我们不断监控引擎的行为,并对基础设施进行微调,直到产品实现卓越的性能。
在性能和托管成本之间保持平衡
有了新的架构,MetaDefender Cloud 可以轻松扩展,以适应客户的无限需求,并以最佳水平运行。然而,这也意味着维护成本可能会按比例激增。如果没有支出检查或治理模式,扩展可能无法控制,导致云服务账单的增加远远超出最初分配的预算。
因此,经常与利益攸关方进行建筑审查,以确保在稳定和平衡成本的情况下获得一致的经验。
环境模拟
在没有真实数据的情况下,在非生产环境中模拟生产负载是一项挑战。为了解决这个问题,我们建立了并行的工作流程,使真实数据同时通过新旧架构,让我们能够并行评估两者的关键指标。这种 "苹果对苹果 "的比较使我们能够快速有效地确定新架构优于旧架构的地方,以及新架构需要改进的地方。
监测、报告和控制
实时云基础设施监控
MetaDefender Cloud 非常重视在其系统中构建强大的监控功能,以提供清晰的系统健康状况视图。像MDaaS这样的服务,每秒可处理超过44个请求(RPS),错误率仅为0.6%,依赖多个上游系统和合作伙伴生态系统作为其流量来源,并同时为不同的内部和外部下游系统产生大量流量,因此必须将指标、警报和日志功能强大地结合起来。

Datadog 中按环境分列的高非正常流量警报
除了 CPU、内存和性能等标准系统健康指标外,我们还增加了几个 "服务边缘 "指标,如队列增长、服务响应时间、状态蛋糕和日志记录,以捕捉来自上游或下游系统的任何异常。此外,我们还为重要指标添加了趋势分析,以帮助捕捉长期的性能下降。我们使用名为 Datadog 的实时流处理应用程序对 MDaaS 进行了检测(您可以在此了解更多信息)。它使我们能够以特定容器的粒度通过网络实时跟踪事件,从而使调试变得更加容易。最后,我们发现针对特定服务的警报非常有用,有助于更快地找出问题的根本原因。

在 Datadog 中创建需要网站可靠性工程师关注的异常事件
使用 Datadog 平台的 SaaS 监控使团队能够更快、更轻松地入驻,并消除了对持续工具维护、容量扩展、更新或管理的需求。这些优势意味着团队有更多的时间开发核心产品,而无需自行创建监控解决方案。

成果
- 通过迁移到 MDaaS,引擎微服务现在更加灵活,有助于满足FedRAMP 中度基线安全控制要求。
- 现在,应用程序性能监控通过实时警报和仪表板得到了增强。新的微服务架构使管理员能够轻松有效地监控应用程序和每个组件。它还有利于轻松部署和扩展。
- 由于基础架构被定义为代码,因此用户可以轻松编辑和分发配置,同时确保基础架构的理想状态。这意味着您可以创建可重现的基础架构配置。
了解更多 MetaDefender Cloud或联系我们获取更多信息。