NVIDIA扩大AI推理性能优势，在x86和Arm服务器上取得佳绩

雷小五

2021-09-25 15:37:35

最新一轮的MLPerf推论基准（V 1.1）于北京时间9月23日公布，Nvidia在本轮测试中再次占据主导地位，取得了较好成绩。自 2018 年年初以来，Nvidia一直主导着 MLPerf 基准（训练和推理），连续三次在推理测试中创造性能和能效纪录。

（来源：Nvidia官网）据了解，MLPerf 是国际最具影响力的AI性能基准评测，在2018年由AI行业的领导者所创办，现由2020 年 12 月成立的非盈利性机器学习开放组织MLCommons 联盟管理。“MLCommons有一个明确的使命——加速机器学习创新。我们很高兴能在MLPerf的基础上继续发展，并通过全球的合作伙伴，扩大其范围和影响。”MLCommons联盟主席彼得•马特森（Peter Mattson）说道。MLCommons的创始成员包括：
（来源：MLCommons官网）其他成员目前还有：
（来源：MLCommons官网）为了始终站在行业前沿，MLCommons会定期进行测试并添加能够代表当前 AI 领域水平的新工作负载。MLPerf 推论是一个完整的系统基准，测试机器学习模型、软件和硬件，提供了公平的竞争环境，推动整个行业的创新。与之前的MLPerf推理类似，本次测试提交内容包括两个部分：封闭式和开放式。封闭式提交使用相同的参考模型，以确保跨系统公平竞争；而开放式的参与者则被允许提交各种模型。推理是指计算机通过AI软件使用深度学习模型来对对象进行识别或预测，从而发现人类所无法捕捉的结果。根据MLCommons发布的结果，NVIDIA AI平台驱动的系统在全部7项推理性能测试中都位居前列。NVIDIA是唯一取得所有MLPerf测试结果的公司。“NVIDIA在 MLPerf 测试中运行数据中心和边缘的每个工作负载、每个场景、每个用例。我们是唯一这样做的公司。”NVIDIA高级产品经理大卫·萨尔瓦托（David Salvator）说。
（来源：NVIDIA 官网）值得注意的是，这是Arm服务器首次参与的测试。Arm架构正凭借不断增长的能效性能和软件生态系统占据着世界各地越来越多的数据中心。在本次的一项测试中，Arm服务器的性能超过了类似配置的x86服务器，同时其他测试两者提供的性能也几乎相同。“最新推理结果表明，Arm CPU和NVIDIA GPU驱动的Arm系统已经能够应对各种AI工作负载。”Arm高性能计算和工具高级总监大卫·莱孔伯（David Lecomber）说道。
（来源：NVIDIA 官网）本次测试，7家OEM厂商提交了22个GPU加速的平台，大多数都是NVIDIA认证系统。与上一次的MLPerf推理基准测试相比，NVIDIA提升了高达20% 的性能和15% 的能效。据了解，NVIDIA能够取得如此成绩的一个关键是其完整的软件栈。该软件栈仍旧处在不断改进中。NVIDIA会将这些代码加入到自己的深度学习框架中。MLPerf给软硬工程师设计不同场景的AI平台搭建了一个良性生态。在采购设备时我们需要有一个衡量性能的基准，否则，就难以对产品的价格有一个合理的判断。这个道理也可用于运行AI 应用程序的服务器系统。这就是MLPerf 基准测试存在的意义。本轮测试中大多数系统在短短 5 个月内改进了 5%~30%，有一些提交的内容甚至改进了两倍以上，这表明软件优化的价值将对 AI 工作负载产生了实际影响。在AI计算平台的选择方面，MLPerf基准测试给用户提供了重要指导。MLCommons执行主任大卫·坎特（David Kanter）表示：“在如此短的时间内所展示的进展非常出色。我们很高兴看到更多的软件解决方案提供商加入 MLPerf 社区，帮助改进机器学习。”机器学习不同于传统软件（开发人员训练应用程序而不是编程），它需要一套全新的技术，类似于推动工业革命的精密测量、原材料和制造领域的突破。机器学习在医疗保健和汽车安全等领域具有巨大的潜力，并通过语音接口、自动翻译和自然语言处理等技术改善信息获取和理解。人工智能工作负载的日益多样化，使得企业需要各种AI 优化的硬件架构。这些可以分为三个主要类别：AI 加速 CPU、AI 加速 GPU 和专用硬件 AI 加速器。虽然人工智能硬件取得了长足进步，但 AI 模型复杂性的增长率远远超过了硬件进步。总体来说，在测试中，Nvidia 相对缺乏竞争对手。不过，这也有测试参与者数量有限的原因，这是 MLPerf 目前存在的一个问题。谷歌过去参与过，但没有参与此轮推理测试。同样，较新的人工智能系统，如Cerebras和Graphcore，也未参与。这将如何影响MLCommons这个年轻的组织的长期计划尚不清楚。-End-参考：https://mlcommons.org/en/news/mlperf-inference-v11/https://blogs.nvidia.com/blog/2021/09/22/mlperf-ai-inference-arm/https://www.hpcwire.com/2021/09/22/the-latest-mlperf-inference-results-nvidia-gpus-hold-sway-but-here-come-cpus-and-intel/

相关阅读