Анализ: Учитывая всю шумиху вокруг NVL72 от Nvidia, недавно анонсированного Helios от AMD и грядущих стоечных систем Intel Jaguar Shores, можно не сомневаться, что дни восьмиступенчатых серверов HGX сочтены.
Предупреждение о спойлере: они, вероятно, никуда не денутся в ближайшее время, заявил журналистам вице-президент AMD по решениям для центров обработки данных на прошлой неделе на мероприятии House of Zen, посвященном продвижению искусственного интеллекта. Не помогает и то, что эти стоечные архитектуры большие, сложные и энергоемкие, не говоря уже о дороговизне. По оценкам, NVL72 от Nvidia GB200 продаются по цене около 3,5 миллионов долларов за штуку. Даже если AMD удастся обойти своего гораздо более крупного конкурента, это слишком много для любого предприятия, в то время как большинство C-suite все еще пытаются найти приложение для искусственного интеллекта, которое действительно окупит себя.
С другой стороны, эталонный дизайн 72-графического процессора AMD Helios — ознакомьтесь с нашим обзором первого дня здесь — не был разработан с учетом требований предприятий. «Компания Helios начала свою деятельность с разработки специального дизайна для двух высококлассных заказчиков, руководствуясь непосредственно их требованиями», — пояснил Форрест Норрод из The House of Zen.
«Мы считаем, что Helios или его производные являются хорошим решением для гиперскейлеров и многих облачных систем второго уровня и нео-облаков, а также для некоторых предприятий. Но, опять же, это не единственное, чем мы занимаемся», — добавил Норрод.Переход к стоечной архитектуре подчеркивает изменение аппетитов разработчиков моделей. Норрод отметил, что до этого момента подавляющее большинство базовых моделей обучалось на восьмиступенчатых графических процессорах, таких как Nvidia DGX H100.»Я действительно думаю, что в будущем для больших тренажеров потребуется большая, масштабируемая область применения — чем больше, тем лучше», — сказал он. «Семьдесят два [графических процессора] — это интересная точка отсчета; я думаю, многим людям хотелось бы увидеть 256, 512, 1 КБАЙТ».
Эти более крупные области вычислений предлагают ряд преимуществ для учебных нагрузок, требующих больших объемов вычислений и памяти.
Сеть — одно из самых больших узких мест при обучении. По сравнению с Ethernet со скоростью 800 Гбит/с масштабируемые межсоединения, используемые в системах AMD Helios или Nvidia Vera-Rubin NVL144, работают примерно в 18 раз быстрее.
Ранее компания Nvidia подсчитала, что ее системы GB200 NVL72 с 72 графическими процессорами работают в 4 раза быстрее, чем аналогичное количество H100, несмотря на то, что производительность с плавающей запятой при заданной точности всего в 2,5 раза выше.
Другими словами, чем больше графических процессоров вы сможете разместить в масштабируемой сети, тем лучше.
Когда дело доходит до логических выводов, все не так однозначно. В зависимости от размера модели, ее базовой архитектуры и того, оптимизируете ли вы пропускную способность или задержку, для ее работы может потребоваться всего восемь графических процессоров.
Несомненно, именно поэтому AMD и Nvidia продолжают инвестировать в форм-фактор, создавая такие системы, как MI355X или B200, несмотря на то, что они продвигаются к созданию все более крупных и энергоемких стоечных систем, включая, по крайней мере, одну мощностью 600 киловатт.Отчасти это объясняется тем фактом, что стартапы в области искусственного интеллекта по большей части строят свои модели с наименьшим общим знаменателем. Например, когда прошлым летом компания Meta запустила Llama 3.1 405B, она была настолько большой, насколько это было возможно, и все еще работала на типичной системе H100, которая на тот момент была одним из наиболее часто используемых графических серверов на рынке.»Я думаю, что из-за привычности установленной базы «улей из восьми человек» будет очень популярен в течение длительного времени», — сказал Норрод. «Это то, что люди знают, и это то, над чем они много работали».
Но поскольку в стоечных системах область вычислений расширяется с восьми ускорителей до 72 и более, нет оснований полагать, что количество параметров не увеличится, и они будут заполняться по мере необходимости. что ж.
Вероятно, в ближайшее время вы не сможете запустить модель с 10 триллионами параметров на FP8 на восьми графических процессорах, но вы могли бы использовать GB300 NVL72 или стойку Helios.
«Когда [Nvidia] выпустит NVL72 — если они заставят его работать — многие ребята также будут делать выводы об этом размере», — сказал Норрод. «Со временем многие ребята найдут способы делать множество инновационных вещей, используя модуль такого размера для логических выводов».
Несмотря на это, восьмиступенчатые системы, вероятно, останутся популярными среди корпоративных заказчиков. По сравнению с эталонными моделями GPU slinger для монтажа в стойку, эти блоки на 8 графических процессоров, возможно, менее мощные, но они также гораздо менее сложные, далеко не такие дорогие и для их установки не требуется водяное охлаждение.
«Мы собираемся рассказать о том, как множественные, очень множественные ставки, — сказал Норрод. «Поскольку Nvidia на данный момент является стандартом де-факто, мы считаем, что существует максимально возможный vector для действительно крупных игроков, 72-дюймовые [графические процессоры] для небольшой группы игроков и восемь — для небольшой группы игроков. Таково наше предположение». ®