赋能未来AI：AMD 发布 ROCm 7 和 AMD Developer Cloud

2025年6月13日 15 : 54 电脑报原创

摘要

· AMD ROCm™ 7 通过显著的性能提升、分布式推理、企业级解决方案以及对 Radeon 和 Windows 更广泛的支持，携手开源社区推动 AI 向前发展。

· AMD Developer Cloud 提供对 AMD Instinct MI系列 GPU 的即时访问，无需本地硬件，配备预配置的开发环境和免费额度，助力 AI 开发与部署的高效推进。

· 不断扩展的 AMD AI 生态系统展示了 ROCm 在实际场景中的应用，推动可扩展、开放的 AI 创新。

开发者优先。这是我们在构建 ROCm™ 7 和 AMD Developer Cloud 时秉持的核心理念。因为在 AMD，我们不仅是在打造 AI 工具——我们更是在为开发者打造这些工具。

无论你是正在探索首个大语言模型想法的研究生，调整下一代注意力机制的科研人员，还是在超大规模环境中推进生产任务的团队，我们的目标都是让你的工作变得更轻松、更高效、更出色。ROCm面向所有人，适用于各种场景。

在过去的一年中，我们将重点转向提升在关键模型和框架上的推理与训练能力，并持续扩大客户基础。我们对开发者支持的承诺带来了更完善的开箱即用体验、更简化的配置流程，以及更高水平的社区参与。因此，客户正以前所未有的速度部署 AI 能力，这也促使我们加快新功能的发布节奏。Llama 4、Gemma 3 和 Deepseek 等主流模型现已获得首日支持，我们与开源社区的合作也达到前所未有的紧密程度，进一步体现了我们在履行推动开放且创新的 AI 生态系统的承诺。

在 Advancing AI 2025 上，我们分享了一个愿景。这不仅关乎性能图表或参数指标，更关乎易用性与可扩展性。我们希望让任何拥有 GitHub 账户的人都能使用 MI系列级别的 GPU；希望通过简单的 pip install 即可安装 ROCm；希望用户能在几分钟内从零开始运行 Triton kernel Notebook。

借助 ROCm 7 和 AMD Developer Cloud，这一愿景已成为现实。它开放、无障碍，并为你以自己的方式构建 AI 未来做好了准备。

让我们深入了解。

ROCm 7：加速开发者赋能与大规模 AI 性能提升

借助 ROCm 7.0，AMD 正在从算法到基础设施的各个层面加速 AI 创新，为软件栈重新带来真正的竞争与开放。ROCm 7.0 旨在满足生成式 AI 和高性能计算（HPC）工作负载不断增长的需求，同时通过提升易用性、效率以及活跃的社区协作，重塑开发者体验。

我们很高兴宣布，具备多项新功能与增强特性的 ROCm 7 将于 2025 年第三季度全面开放使用。以下是即将推出的一些重要特性预览：

性能提升：ROCm 7 在性能方面实现了大幅跃升，其推理能力相比上一代 ROCm 6 提升超过 3.5 倍，训练性能提升达到 3 倍。这一成果得益于在易用性、性能优化以及对 FP4、FP6 等低精度数据类型支持方面的改进。同时，通信栈的进一步增强也优化了 GPU 利用率和数据传输效率。
分布式推理：ROCm 7 引入了面向分布式推理的强大解决方案，依托包括 SGLang、vLLM 和 llm-d 等框架在内的开源生态系统的合作。通过采用开放策略，ROCm 7 与这些合作伙伴共同构建共享接口和底层原语，在 AMD 平台上实现高效的分布式推理能力。
企业级 AI 解决方案：ROCm Enterprise AI 作为一款强大的 MLOps 平台首次亮相，专为企业环境中的无缝 AI 运营而设计。它包含利用行业特定数据进行模型微调的工具，并支持结构化与非结构化工作流的集成。同时，通过生态系统内的合作伙伴，开发了诸如聊天机器人和文档摘要等参考应用。

ROCm 在 Radeon 和 Windows 上的支持：ROCm 7 将使用体验扩展至云端之外，支持在锐龙笔记本和工作站上的开发，实现从云端到终端的一致创新。预计自 2025 年下半年起，ROCm 将集成于主流发行版本中，将 Windows 打造为一流且全面支持的操作系统，确保在家庭和企业环境中的跨平台能力和高效性能。

图 1 展示了 ROCm 7 在 AI 推理性能方面的显著提升¹。

图 2 显示在 AI 训练中，ROCm 7 相较于 ROCm 6 平均实现了 3 倍的性能提升²。

合作共建开放 AI 生态系统

重点 ROCm 生态合作伙伴：

Meta —— 在 AMD Instinct GPU 上运行排名、推荐和内容生成工作负载，包括通过 ROCm 改进支持的 Llama 模型。
Microsoft —— Instinct MI系列产品现已在 Azure 平台上支持专有和开源模型的生产运行。
Red Hat® OpenShift® AI —— 通过 ROCm 支持 Red Hat OpenShift AI，实现混合云环境下可扩展的 LLM 推理和 AI 运营。
Cohere — 利用 vLLM 和 ROCm 在 AMD Instinct GPU 上部署拥有 1040 亿参数的 Command R+ 模型，支持企业级推理需求。

这项深度的合作伙伴协作确保开发者能够使用业界领先的工具，享受持续的性能提升，并在开放的环境中快速迭代和部署。

AMD Developer Cloud：无障碍接入世界级计算资源

作为对 ROCm 7 的补充，AMD Developer Cloud 现已广泛面向全球开发者和开源社区开放。该全托管环境提供即时访问 AMD Instinct MI系列 GPU 的能力，无需任何硬件投资或本地配置。

AMD Developer Cloud 亮点：

零配置环境：可即时启动基于云的 Jupyter Notebook，无需安装。只需 GitHub 账户或邮箱即可轻松完成设置。
预装 Docker 容器与灵活性：预装了主流 AI 软件的 Docker 容器，最大限度减少了设置时间，同时允许开发者根据具体需求自定义代码。
生态系统首日支持 MI系列GPU 系统，包括 vVLLM、SGLang、HAO AI 实验室、斯坦福 AI 实验室等合作伙伴。
首日支持：包括针对 PyTorch 和 Triton CL 的 Instinct MI系列GPU Cis。
可扩展的计算选项：
- 小型：1 个 MI系列 GPU（192 GB 显存）
- 大型：8 个 MI系列 GPU（1536 GB 显存）
免费开发者额度：可申请 25 小时免费云使用时间，通过 ROCm Star Developer Certificate 等项目最多可额外获得 50 小时使用时间。

无论您是在微调大语言模型（LLM）、进行推理性能基准测试，还是构建可扩展的推理架构，AMD Developer Cloud 都为您提供即刻启动所需的工具与灵活性，并实现无限扩展。

不断壮大的 AI 生态系统

AMD Developer Cloud 的独特之处不仅在于其基础设施，更在于支持并伴随其发展的充满活力的生态系统。

Developer Cloud 生态亮点：

OpenAI、Midjourney 和 Hugging Face：这些领先的 AI 创新者与 AMD 合作，加速推理和训练工作流，展示了大规模实际应用的成熟度和性能表现。
Red Hat® OpenShift® AI + AMD：通过 ROCm 在 OpenShift AI 上实现 Kubernetes 原生的 AI 生命周期管理及安全的混合云支持。
伯克利天空计算实验室（Berkeley Sky Computing Lab）与 vLLM：与 AMD 合作，利用 AMD Instinct GPU 和 ROCm 软件栈推进分布式推理技术。
Cohere 和 Modular Inc：在基于 ROCm 的 AMD 硬件上部署企业级大语言模型（LLM），构建优化的 AI 基础设施。

这些合作表明，AMD Developer Cloud 不仅仅是一个计算平台，更是推动下一代 AI 创新的起点。从企业应用到开源实验，日益壮大的 AMD 合作伙伴生态系统正在积极塑造面向每一位云用户的工具和服务。

MI系列GPU-080 — 由 AMD 性能实验室于 2025 年 5 月 15 日进行测试，测试 AMD ROCm 6.x 软件（vLLM 0.3.3）与 AMD ROCm 7.0 预览版软件（vLLM 0.8.5）在配备（8）块 AMD Instinct MI系列 GPU 的系统上运行 Llama 3.1-70B（TP2）、Qwen 72B（TP2）和 Deepseek-R1（FP16）模型时的推理性能（以每秒处理标记数 TPS 计），测试的批量大小范围为 1-256，序列长度为 128-204。所述性能提升为所测试的三款大语言模型（LLM）平均 TPS 的提升幅度。

硬件配置
1P AMD EPYC™ 9534 CPU 服务器，配备 8 个 AMD Instinct™ MI系列（192GB，750W）GPU，Supermicro AS-8125GS-TNMR2，NPS1（每个插槽 1 个 NUMA），1.5 TiB 内存（24 条 DIMM，4800 MT/s，64 GiB/DIMM），4 个 3.49TB Micron 7450 存储，BIOS 版本：1.8。

软件配置
Ubuntu 22.04 LTS，Linux 内核 5.15.0-119-generic。

Qwen 72B 和 Llama 3.1-70B：ROCm 7.0 预览版软件，PyTorch 2.7.0。

Deepseek R-1：ROCm 7.0 预览版，SGLang 0.4.6，PyTorch 2.6.0。

对比版本：

Qwen 72B 和 Llama 3.1-70B：ROCm 6.x GA 版本软件，PyTorch 2.7.0 和 2.1.1。

Deepseek R-1：ROCm 6.x GA 版本软件，SGLang 0.4.1，PyTorch 2.5.0。

服务器配置可能有所不同，导致测试结果存在差异。性能表现会因配置、软件版本、vLLM 版本以及是否使用最新驱动和优化措施而异。

MI系列GPU-081 — 由 AMD 性能实验室于 2025 年 5 月 15 日进行测试，测试ROCm 7.0 预览版软件和 Megatron-LM 在配备（8）块 AMD Instinct MI系列 GPU 的系统上运行 Llama 2-70B（4K）、Qwen1.5-14B、Llama3.1-8B 模型及自定义 Docker 容器时的训练性能（TFLOPS），并与采用类似配置的 AMD ROCm 6.0 软件系统进行对比。

硬件配置
1P AMD EPYC™ 9454 CPU，8 个 AMD Instinct MI系列GPU（192GB，750W）GPU，American Megatrends International LLC BIOS 版本：1.8。

软件配置
Ubuntu 22.04 LTS，Linux 内核 5.15.0-70-generic。
ROCm 7.0，Megatron-LM，PyTorch 2.7.0。

对比版本：
ROCm 6.0 公共发布版本软件，Megatron-LM 代码分支：

hanl/disable_te_llama2 用于 Llama 2-7B，

guihong_dev 用于 Llama 2-70B，

renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B，
PyTorch 2.2。

服务器配置可能有所不同，导致测试结果存在差异。性能表现会因配置、软件版本、vLLM 版本以及是否使用最新驱动和优化措施而异。