MLPerf Training 4.1: первое появление NVIDIA B200 и Google Trillium в обучении ИИ
Сегодня MLCommons представила актуальные результаты тренировки, которые впервые включают ускорители NVIDIA B200 и Google TPUv6p Trillium. И B200, и TPUv6e дебютировали в тестах Inference 4.1 . Однако к инференсу предъявляют другие требования, чем к обучению. NVIDIA изначально разрабатывала GPU Blackwell с основным фокусом на инференсе. Но, конечно, с тренировкой он тоже должен справляться.
В то время как для инференса в версии 4.1 мы впервые увидели результаты Instinct MI300X, они отсутствуют в результатах обучения. Здесь в бенчмарках доминируют NVIDIA и Google, которые используют огромные кластеры для обучения. Например, для TPUv5 это 1.024 узла (Pod) с общим числом 4.096 ускорителей. У NVIDIA речь идёт даже о суперкомпьютере EOS с 1.452 узлами и 11.616 ускорителями H100.
Для предварительной версии TPUv6p, также известного как Trillium, Google пошла настолько далеко, что здесь работают вместе 768 узлов ...