Category:

В чем заключается исключительность Nvidia?

Я за 2-3 года пересмотрел достаточно выступлений Хуанга, чтобы понимать его преимущества, поэтому выделю самое главное.

▪️Межпроцессорное взаимодействие через интерконнект (NVLink и NVSwitch).

Не имеет значение, насколько производителен изолированный чип – какой бы совершенной не была архитектура чипа, в обучении и развертывании нейросетей имеет значение масштабирование. Буквально, непрерывное «размножение» чипов, работающих по единому алгоритму.

Скорость обучения модели зависит не от того, как быстро считает один чип, а от того, как быстро эти чипы обмениваются данными между собой. В ИИ фабриках тысячи или сотни тысяч чипов объединяются в «единый кибернетический организм».

Оказывается, что ценность Nvidia скорее даже не в чипах Blackwell, а в интерконнекторах, т.е. умение связывать десятки, а далее тысячи и сотни тысячи чипов в единую систему.

Nvidia NVLink: это проприетарный протокол связи, позволяющий GPU общаться друг с другом на скорости до 1.8 TB/s (терабайт в секунду), минуя медленный центральный процессор (CPU) и стандартную шину PCIe.

AMD и другие используют открытые стандарты (как Ethernet или Infinity Fabric), которые пока проигрывают в латентности и пропускной способности при масштабировании на тысячи устройств. У Nvidia здесь монополия на эффективность кластера.

▪️Сетевая инфраструктура (Spectrum-X/Mellanox). Nvidia владеет технологией, которая оптимизирует передачу данных внутри дата-центра именно под задачи ИИ, используя технологии вроде In-Network Computing (когда часть вычислений происходит прямо в сетевых коммутаторах), снижая задержки, повышая скорость обмена данными.

Сетевое оборудование Nvidia через коммутаторы Spectrum-X и InfiniBand управляет трафиком так, чтобы чипы никогда не простаивали в ожидании данных.

Это позволяет объединить вычислительные кластеры в вычислительные модули, фермы, а далее масштабировать уже на весь завод, что делает вычисления согласованными и синхронизированными.

AMD вынуждена полагаться на партнеров (Broadcom, Cisco) и стандартный Ethernet, что создает барьер для масштабирования вычислительных кластеров.

▪️Архитектура вычислительных кластеров в рамках "Rack-Scale" против "Chip-Scale".

Подход Nvidia (GB200 NVL72): инженеры Nvidia соединили 72 чипа Blackwell в единую стойку, которая работает как один гигантский графический процессор. Благодаря технологии NVLink пятого поколения, все 72 чипа общаются друг с другом на скорости 1.8 ТБ/с (иногда сопоставимо, чем память внутри самого чипа у многих конкурентов). Для операционной системы это выглядит не как "кластер серверов", а как одна видеокарта с колоссальной памятью. 

Чипы AMD MI325X и MI355X объединяются в стандартные серверные узлы по 8 штук (формат UBB/OAM). Для создания суперкомпьютера эти узлы связываются друг с другом через стандартный Ethernet (RoCE v2) или InfiniBand, а не через проприетарный "rack-scale" интерконнект, как у Nvidia, что снижается эффективность обмена данными в несколько раз.

▪️Ну и самое главное – CUDA движок, целый стек супероптимизированных библиотек под различные задачи. Железо – не столь критичное, если нет программной обвязки – стабильные драйвера + библиотеки, SDK, компиляторы, программные оболочки, оптимизированные в единую экосистему ИИ.

CUDA и программный стек – это нервная система и мозг ИИ. С 2007 года миллионы студентов и ученых учились программировать именно на CUDA. Все научные статьи, все прорывные алгоритмы изначально пишутся под CUDA. Это целый мир, созданный под компьютерные игры, но отмасштабированный и оптимизированный под ИИ. 

Я даже не собираюсь вдаваться в подробности, это отдельный мир, но именно благодаря CUDA движкам все работает. Железо можно «скопировать», но не экосистему, ее можно только вырастить (здесь нужны поколения разработчиков).

▪️ А еще Nvidia строит ИИ фабрики под ключ – это отдельная тема.

Как заметили, я даже не касался чипов Blackwell. AMD продает отличные чипы (двигатель), а Nvidia продает гоночные болиды с командой механиков и инженеров вместе с моторхоумом.

Кто сможет сломать доминирование Nvidia?

Сейчас Nvidia держит около 88% общемирового рынка вычислительной мощности под ИИ в расчете на FLOPS, но Китай быстро развивается, а в США наступают AMD, Google и Amazon.

Это не так просто – сейчас «голое» железо мало, что решает. Например, последнее поколение чипов AMD не так далеки от легендарных Blackwell, но выручка AMD – 32 млрд, а у Nvidia – 187 млрд с потенциалом выхода на 250-270 млрд.

Что здесь не так?

Nvidia контролирует всю архитектуру ИИ фабрики:

🔘Вычислительные кластеры в полном стеке (GPU/CPU и вся сопряженная инфраструктура).

🔘Интерконнект и высокоразвитая сетевая инфраструктура для взаимодействия чипов между собой, как «единый организм», как в рамках вычислительного кластера, так и по всем фермам/модулям, вплоть до целостной ИИ фабрики (NVLink/InfiniBand/Ethernet Spectrum-X).

🔘DPU/контроль трафика (BlueField-4 и арм-платформы с NVLink Fusion) для связывания всей инфраструктуры в единую оболочку с минимальными задержками.

🔘Программная экосистема на всех программных слоях (CUDA и связанные модули) через оптимизированные до совершенства драйвера, библиотеки, компиляторы, SDK, оптимизированный фрейморки, специализированный ИИ софт и т.д.

Любой серьёзный фреймворк (PyTorch, JAX, TensorFlow, Triton, множество MLOps-решений) первым делом оптимизируется под CUDA.

Вокруг CUDA сформирован многолетний человеческий капитал: университетские курсы, SDK, терабайты кода и тысячи готовых ИТ решений.

CUDA – это отраслевой стандарт, который позволяет работать ИИ чипам с предельной нагрузкой, а оптимизированное железо устраняет задержки в обмене данных. Так и формируется успех.

AMD с ROCm, всё ещё догоняет по зрелости и удобству, а CUDA держит преимущество и по производительности, и по экосистеме.

Это и есть ответ на вопрос, как сломать доминирование Nvidia – помимо чипов уровня Blackwell (даже по отдельности это произведение инженерного искусства), необходимы аналоги NVLink, Spectrum-X и высокоразвитая экосистема ИИ стека (от драйверов до готовых ИИ решений).

Миграция крупных кодовых баз с CUDA на ROCm/HIP – это масштабный инженерный и валидационный проект, который мало кто хочет финансировать в момент, когда у него очередь на GPU и горит задница перед венчурными инвесторами, вложившихся миллиардами в проекты на энтузиазме и без концепции монетизации. Очевидно, что все идут по «готовым путям» и по оптимизированной траектории.

AMD продаёт конкурентное железо, но экосистема и инструменты отстают, а для крупного заказчика именно они определяют риск и стоимость владения. Google и Amazon замкнуты сами на себя, а все остальные пока существуют больше на уровне прототипов. 

Крупные игроки сидят на сотнях миллионах строк кода, собранных вокруг CUDA / NVIDIA Triton / TensorRT, на отлаженных MLOps-процессах, мониторинге, профилировании под Nvidia и связанной ИТ инфраструктуре. Нельзя просто так взять и перейти без ущерба для производительности и эффективности.

Что предлагает AMD? Мы вам отличные чипы, но … соберите и настройте их сами, которые нужно долго собирать в «единое целое», проигрывая в итоге по межпроцессорному взаимодействию для ИИ решений, написанных на плохо оптимизированной инфраструктуре ROCm. При этом мы не гарантируем, что через 3 года не перепишем архитектуру и вам не придется заново оптимизировать код под новые библиотеки. С вас $1 млрд за чипы. 

Что предлагает Nvidia? Мы вам с нуля построим ИИ-фабрику, все подключим, откалибруем, настроим и оптимизируем, а с вас $45 млрд за 1ГВт мощностей. 

С точки зрения крупного дата-центр архитектора преимущество здесь у того, кто закрывает всю архитектуру и её эволюцию, а не один слой.

Чтобы сломать Nvidia, необходимо:

• Догнать не только по FLOPS/HBM, но и по ИИ и ИТ экосистеме;

•  Жестко демпинговать для завоевания клиентской базы и воспитания поколения разработчиков;

•  Выстроить сетевую и системную инфраструктуру хотя бы на уровне партнёрств;

•  Профинансировать массовую миграцию экосистемы (буквально, когда инженеры AMD сами будут «пилить» код).

Надеюсь, понятно объяснил логику доминирования Nvidia?