Фундаментальные ограничения современных LLMs
Интересное интервью Ильи Суцкевера (бывшего главного инженера OpenAI, а ныне основателя Safe Superintelligence). Это его первое публичное выступление с декабря 2024, но учитывая, что он является архитектором современного ядра LLM, его взгляд ценен.
Идеи Ильи практически полностью пересекаются с моими концепциями, высказанными в нескольких циклах материалов по ИИ в этом году, поэтому перескажу, по сути, собственные идеи словами Ильи, но с более научным обрамлением.
Главный тезис Ильи заключается в том, что период с 2012 по 2020 годы был «эпохой исследований», которая сменилась «эпохой масштабирования» (2020–2025), когда доминировал простой рецепт: больше данных + больше вычислений = лучше результат.
Дополню от себя: это выражается в экспоненциальном росте капитальных расходов, достигающих 400 млрд в 2025 среди бигтехов США и зеркалировании выручки у производителей оборудования для развертывания ИИ.
• Предел данных: предварительное обучение (pre-training) упирается в конечность доступных данных. Простое увеличение масштаба модели больше не дает прежнего качественного скачка.
• Смена парадигмы: если раньше вопрос «на каких данных учить?» не стоял (ответ был «на всех»), то теперь, особенно в RL (обучении с подкреплением), отбор данных и создание среды становятся критическими задачами.
• Возврат к исследованиям: индустрия снова входит в фазу, где прогресс зависит не столько от размера кластера, сколько от новых идей и алгоритмов.
Чрезвычайно неэффективное использование вычислительных мощностей:
🔘Современная архитектура трансформеров (Илья входил в число ключевых инженеров, которые преобразовали прототип архитектуры в текущую конфигурацию LLMs) была создана в 2017 на всего двух чипах в эквиваленте Blackwell, сейчас ИИ фабрики требуют миллионов чипов.
🔘Современные модели, несмотря на огромные объемы обучения, обобщают знания значительно хуже людей – им требуются миллионы и миллиарды примеров, чтобы совершать элементарные операции, где у людей уходят часы (10 часов практики, чтобы научиться водить машину у человека на базовом уровни и десятки тысяч часов обучающих видео у моделей).
🔘Pre-training – это статистическая проекция мира, созданная людьми. Модель не учится на реальности, она учится на текстовой проекции реальности, созданной людьми. Pre-training дает широту знаний, но не дает глубины физического понимания причинно-следственных связей. Поэтому модели галлюцинируют – у них нет «заземления» в реальности, только в статистике слов.
🔘Чрезвычайная узконаправленность – LLMs демонстрируют выдающиеся результаты в формализованных и натреннированных задачах, но небольшое отклонение в сторону – модель сразу рассыпается, эффективность снижается (человек способен обеспечивать более эффективный трансфер опыта из одной дисциплины в другую, а LLM – нет).
🔘Имитация компетентности – компании «надрачивают» бенчмарки, чтобы казаться сильнее, создавая инфоповоды (подтверждает мои опасения), бенчмарки больше не показательны. Это создает иллюзию интеллекта, которая рассыпается при смене контекста. «Ум» в тестах не всегда транслируется в надежность в реальных задачах.
🔘Нет функции ценности по интерпретации Ильи. Для LLMs нужно дойти до конца итерации, чтобы оценить результат, тогда как человек за счет интуиций и композиции эмоций может заранее понимать неправильный путь решения.
Например, чувство дискомфорта или неуверенности возникает до завершения задачи, позволяя корректировать путь.
Если модель думала 100 или 1000 шагов и в конце ошиблась, весь этот вычислительный путь часто отбрасывается или маркируется как негативный, где огромная энергия тратится впустую, а человек намного раньше (в процессе решения) понимает ошибочность пути.
LLM могут генерировать правдоподобный текст, но не обладают внутренней «интуицией» о правильности направления рассуждений, пока не получат внешний фидбек.
Основное концептуальное ядро в интервью – уже уперлись в потолок, дальнейшее масштабирование неэффективно, необходимо снова возвращаться к алгоритмам.
🔘Нынешний хайп вокруг «AGI - универсального интеллекта», который якобы возникнет сам собой из триллионов транзисторов - это маркетинговый миф. AGI не достигается методом масштабирования, нужна другая архитектура.
🔘Качественные данные конечны. Стратегия «просто добавить больше данных» (Scaling Era – куда бигтехи инвестируют сотни миллиардов) уперлась в потолок доступного человеческого контента.
Модели выходят на плато по эффективности, дальше неизбежная деградация в связи с «заражением» моделей синтетическими данными, сгенерированными нейросетями (обучение на синтетических данных).
Обучение моделей на данных, сгенерированных другими моделями, приводит к потере «хвостов распределения» (редких, но важных знаний) и усреднению реальности. Это математически неизбежная деградация дисперсии, ведущая к «цифровому инцесту» и вшитыми в процесс обучения галлюцинациям.
🔘Убывающая отдача инвестиций. Каждая следующая итерация (после экспоненциального роста в начале) требует несоизмеримо больше ресурсов ради минимального прироста качества. В 2026 году этот застой станет очевидным, кульминация в следующем году.
🔘Дальнейший прогресс только через физический мир. Текст имеет низкую пропускную способность по сравнению с визуальным опытом. LLM изучают статистические корреляции в описаниях мира, а не динамические связи физической реальности.
🔘Современные модели не являются ИИ в широком смысле, т.к. не обладают механизмом самообучения, критерием истинности и необходимым пулом характеристик, проявляющим наличие интеллекта (чисто формально, свыше 90% человеческой популяции также не обладают интеллектом).
🔘Текущие LLM технически можно обвязать внешними «агентами», планировщиками, инструментами и заставить выглядеть более разумными. Но ядро остаётся тем же: статистический предсказатель последовательностей, а не миро-ориентированный разум.
🔘Необходим переход от статических корреляций к казуальным и причинно-следственным связям в условиях динамического мира с неустойчивыми и противоречивыми связями, не поддающимися формализации (переход от статики с замороженными весами к непрерывному дообучению).
🔘Необходима модификация алгоритмов с авторегрессии (генерации следующего токена) к абстрактной симуляции мира и от пассивного наблюдения к активному взаимодействую с окружающим пространством.
🔘Проблема современный нейросетей в том, что нет динамического создания новых связей в ответ на опыт. Нет цикла «действие → мир → наблюдение → обновление».
Отсутствие цикла «действие → ошибка → самокоррекция весов» в реальном времени с бесконечным циклом повторов и коррекций ошибок делает текущие модели «умными идиотами», запертыми в статической вселенной своих обучающих данных.
🔘Концепция ИИ агентов неработоспособна. Почему? Без умения эффективно дробить задачи на подмодули и удерживать иерархию приоритетов, без наличия критерия истинности и без функционала самокоррекции, любой автономный агент неизбежно уйдет по неверной траектории в процессе итерации последовательности шагов.
Необходимо помнить про фундаментальные ограничения памяти и контекстного окна у LLMs, проблема стабильности и качества выходных токенов при расширении контекстного окна (склонность к галлюцинациям при перегруженной памяти).
LLM-ядро обеспечивает мощную аппроксимацию распределений и извлечение закономерностей, но без внешнего контура проверки/памяти/действий оно не даёт устойчивых свойств агентности: долговременных целей, причинной идентификации, надёжной самокоррекции.
Все это ставит текущую концепцию развитии ИИ крайне уязвимой с точки зрения способности возврата денежного потока – непропорционально много ресурсов в слишком неустойчивое равновесие и низкий прирост производительности.
На самом деле, восторженная презентация последних моделей оказалась не настолько блестящей, как было показано на рекламных слайдах. Все актуальные проблемы остались, скачка интеллекта не произошло.