Google представила ИИ-чипы TPU 8t и TPU 8i, которые легли в основу её гиперкомпьютера
Они специализированы
Компания Google представила свои новые ИИ-чипы Tensor Processor Unit (TPU) уже восьмого поколения. Они как раз лежат в основе того, что компания называет своим гиперкомпьютером.
На сей раз чипов два: TPU 8t и TPU 8i. Они были разработаны совместно с Google DeepMind для решения сложных задач в области ИИ и адаптации к развивающимся архитектурам моделей в масштабе.
Чипы отличаются по задачам, на которые они ориентированы. TPU 8t компания называет мощным тренировочным центром. Он создан для сокращения цикла разработки передовых моделей с месяцев до недель.
- Масштабируемость колоссальная: один суперпроцессор TPU 8t теперь масштабируется до 9600 чипов и двух петабайт общей высокоскоростной памяти, обеспечивая вдвое большую межчиповую пропускную способность по сравнению с предыдущим поколением. Эта архитектура обеспечивает вычислительную мощность в 121 эксафлопс и позволяет самым сложным моделям использовать единый, огромный пул памяти.
- Максимальная эффективность использования: Благодаря интеграции технологии TPUDirect, обеспечивающей в 10 раз более быстрый доступ к хранилищу и позволяющей напрямую загружать данные в TPU, TPU 8t помогает обеспечить максимальную эффективность использования всей системы.
- Практически линейное масштабирование: наша новая сеть Virgo Network в сочетании с JAX и нашим программным обеспечением Pathways позволяет TPU 8t обеспечивать практически линейное масштабирование для до миллиона чипов в одном логическом кластере.
TPU 8i в пресс-релизе указан, как система логических рассуждений. Этот чип разработан для обработки сложной, совместной, итеративной работы множества специализированных агентов, часто объединяющихся в сложные потоки для предоставления решений и аналитических данных по самым сложным задачам.
- Преодоление «барьера памяти» : чтобы предотвратить простой процессоров, TPU 8i сочетает 288 ГБ высокоскоростной памяти с 384 МБ встроенной SRAM — в 3 раза больше, чем у предыдущего поколения — таким образом, активный рабочий набор модели полностью сосредоточен на чипе.
- Эффективность благодаря процессорам Axion : мы удвоили количество физических процессоров на каждом сервере, перейдя на наши собственные процессоры Axion на базе архитектуры Arm. Используя архитектуру с неоднородной памятью (NUMA) для изоляции, мы оптимизировали всю систему для достижения превосходной производительности.
- Масштабирование моделей MoE : Для современных моделей смешанного экспертного взаимодействия (MoE) мы удвоили пропускную способность межсетевого взаимодействия (ICI) до 19,2 Тбит/с. Наша новая архитектура Boardfly уменьшает максимальный диаметр сети более чем на 50%, обеспечивая работу системы как единого, целостного блока с низкой задержкой.
- Устранение задержек: наш новый встроенный механизм ускорения коллективных вычислений (CAE) разгружает глобальные операции, снижая задержку на кристалле до 5 раз и сводя к минимуму задержки.