Пуснат Radeon Open Compute “ROCm” Stack v3.1 с RAS за Vega 7nm, поддръжка на SLURM за по-добро управление на ресурсите, но Navi все още липсва

Хардуер / Пуснат Radeon Open Compute “ROCm” Stack v3.1 с RAS за Vega 7nm, поддръжка на SLURM за по-добро управление на ресурсите, но Navi все още липсва 2 минути четене

AMD Radeon



Radeon Open Compute или “ROCm” стек нова версия вече е на разположение за изтегляне. Radeon Open Compute v3.1 носи със себе си немалко функции, но странно е, че все още липсва поддръжка за AMD Navi, както и за GFX10.

ROCm, най-широко приеманата универсална платформа за GPU-ускорени изчисления, вече е на версия 3.1. Последната актуализация на модулната платформа, която позволява на производителите на хардуер да изграждат драйвери, които поддържат ROCm рамката, включва някои дългоочаквани функции като RAS поддръжка за 7nm Vega и SLURM поддръжка за AMD графични процесори. По все още неизвестни причини обаче ROCm все още няма пълна поддръжка за следващото поколение AMD Navi Architecture.

Какво е новото в Radeon ROCm v3.1:

Най-голямата и най-очевидна промяна в новата инсталация на Radeon ROCm v3.1 е в структурата на директорията за инсталиране на ROCm. Нова инсталация на инструментариума ROCm инсталира пакетите в / opt / rocm- папка. Преди това пакетите с инструменти ROCm бяха инсталирани в / opt / rocm папка.



Новата версия на ROCm има подобрена поддръжка за надеждност, достъпност и сервизност (RAS) за графични процесори Vega 7nm. Тази 7nm работа на Vega вероятно е под микроскопа все още за Вега-базиран 'Арктур' изчислителен ускорител идва тази година. Поддръжката включва:



  • UMC RAS ​​- HBM ECC (непоправима инжекция за грешка), оттегляне на страницата, възстановяване на RAS чрез GPU (BACO) нулиране
  • GFX RAS - GFX, MMHUB ECC (непоправима инжекция за грешка), възстановяване на RAS чрез GPU (BACO) нулиране
  • PCIE RAS - PCIE_BIF ECC (непоправима инжекция за грешка), възстановяване на RAS чрез GPU (BACO) нулиране

Radeon ROCm v3.1 също получава SLURM поддръжка за AMD графични процесори. SLURM или Simple Linux Utility за управление на ресурси е една от изключително предпочитаните и лесно използвани системи за управление на клъстери и планиране на задачи за Linux клъстери. SLURM е предпочитан, тъй като е с отворен код, устойчив на грешки и силно мащабируем.

Тази система вече може да взаимодейства добре с графичните процесори на AMD. Последната версия 20.02.0 на SLURM включва AMD плъгини, които позволяват на SLURM да открива и конфигурира AMD графични процесори автоматично. Той също така събира и отчита енергийната консумация на графични чипове. Поддръжката на SLURM е полезно допълнение предвид нарастващия брой суперкомпютърни внедрения, използващи Radeon GPU и други по-големи AMD GPU клъстери.

Въпреки включването на няколко функции, все още няма признаци за поддръжка на GFX10 / Navi в ROCm. The Страница на GitHub за ROCm е актуализиран, за да отразява всички промени, бележки за инсталиране и известни проблеми.



Етикети AMD