На днях компания Anthropic выложила очередное исследование настроения на рынке в духе «всё, копирайтеры/дизайнеры/аналитики вымерли, GPT-10 сделает всё за вас».
И тут же мне на глаза попалась работа парней из Nature.
Они доказали то, о чём догадывались все, кто хоть раз копался в нутре нейросетей: если кормить ИИ только его же синтетическим контентом, он не становится умнее. Он превращается в цифрового имбецила. Этот эффект назвали коллапсом моделей машинного обучения.
И вот тут-то весь нарратив «ИИ заменит человека» начинает трещать по швам.
Да, я работаю с этими системами, обучаю их и вижу их слабые места изнутри. Давайте без соплей и громких лозунгов разберёмся, почему именно это открытие ставит жирный крест на идее полной замены человека алгоритмом.
Но сначала — что вообще за коллапс такой?
Что такое коллапс моделей ИИ? Это не баг, это смертельный диагноз для ИИ.
Если коротко и без зауми — модель тупеет в геометрической прогрессии, когда учится на своих же ответах.
Представь, что ты сделал ксерокопию с документа. Всё норм. Затем с этой копии сделал ещё одну. Ещё норм, но пара пылинок уже въелась. На десятой итерации ты получишь серое пятно. С нейросетями та же фигня.
LLM, Midjourney, диффузионки — всем хана, если обучать их на синтетических данных.
Почему это важно в споре «заменит ли ИИ человека»? Потому что интернет уже забит сгенерированным шлаком под завязку. Модели будущего, если мы будем тупо скрести веб, начнут жрать собственный переваренный продукт, теряя связь с реальностью.
И вот тут мы подходим к самому мясу.
Как работает коллапс модели: 4 механизма, которые загоняют ИИ в тупик
Чтобы понять, почему тупая машина не встанет на твоё место, нужно глянуть, как именно она скатывается в бездну.
1. Потеря хвостов распределения — тихий убийца разнообразия
Этот механизм называют ранним коллапсом.
Любая модель — это вероятностный попугай. Она не думает, а угадывает наиболее «вероятное» слово или пиксель.
В реальных данных, созданных людьми, есть так называемые «хвосты» — редкие, странные, уникальные события.
Допустим, в мире есть малоизвестный рецепт бабушкиного пирога с черникой и розмарином. В исходных данных он занимает свою крошечную долю процента. Модель первого поколения, обученная на людях, ещё может его упомянуть (с ошибками). Но в её синтетическом датасете она уже слегка «замылит» розмарин, ведь статистически чаще встречается просто черника.
Второе поколение, обучаясь на этом, вообще забудет про розмарин. Третье — будет генерировать просто «пирог». Вуаля — культурный слой стёрт. Знания усреднились.
С точки зрения статистики, модель «забывает» исходное распределение. Она начинает предсказывать не правду, а среднюю температуру по больнице.
Именно поэтому ответ на вопрос «заменит ли ИИ человека» очевиден: он не способен создавать новое, он способен только пережёвывать и усреднять старое до состояния безвкусной каши.
2. Ошибка функциональной аппроксимации — или почему модель врёт, но выглядит уверенно
Это мой любимый пункт.
Каждая нейросеть пытается построить суперсложную математическую функцию, которая имитирует наше мышление. Но её мощности не бесконечны.
Когда модель учится на идеальных человеческих данных, она строит кривую, похожую на реальность. Когда она начинает есть синтетику, функция упрощается. Вместо сложного ландшафта получается узкий пик.
Модель больше не генерирует «возможные миры», она генерирует один и тот же усреднённый мир. Внешне текст может быть связным. Но он абсолютно пустой.
Ты читаешь простыню текста от GPT и чувствуешь: воды много, смысла ноль. Это не твой косяк как читателя. Это ошибка функциональной аппроксимации. Коллапсирующая модель уже не отражает реальное распределение данных, она просто штампует «вероятностные клише».
3. Усиление смещения (Bias Reinforcement)
Окей, тут совсем страшно.
Мы знаем, что модели могут быть предвзятыми. Но коллапс делает из этого катастрофу.
Допустим, модель первого поколения чуть-чуть переоценивает популярность какого-то политика или лекарства. Второе поколение, обучаясь на этих данных, усиливает этот перекос. Третье — делает доминирующей темой.
Это создает иллюзию консенсуса там, где его нет.
Именно это и убивает аргумент «ИИ заменит человека в принятии решений». Ты правда доверишь стратегию компании алгоритму, который экспоненциально усиливает свои же галлюцинации?
Помню, как в одной рекламной кампании мы чуть не улетели в трубу, когда рекомендательная система начала предлагать только хиты продаж, полностью убив дискавери новых нишевых товаров. Продажи рухнули через месяц, потому что клиентам стало скучно. Это был мини-коллапс в реальном бизнесе, просто потому что модель начала вариться в собственном соку.
4. Накопление галлюцинаций
Галлюцинации — это не просто забавные ответы. При коллапсе они становятся системой.
Первое поколение ошиблось на 2%. Второе, обученное на этих 2% ошибок, ошибается на 5% и добавляет своих. Через несколько циклов мы имеем датасет, состоящий на 30% из бреда.
Но это не просто мусор.
Это мусор, который выглядит как истина.
https://loginom.ru/sites/default/files/blogpost-files/distribution-lost.svg
Именно поэтому «синтетические данные» — это троянский конь. Если интернет превратится в свалку ИИ-контента, новые модели будет нечем кормить.
«Так значит, ИИ заменит человека?» — Теперь точный ответ
Нет. Потому что мы нужны им как воздух. Буквально.
Исследователи Nature доказали: без постоянной инъекции живых человеческих данных модели ИИ деградируют до нуля. Это называется фундаментальная проблема коллапса.
Вот простой расклад:
Замкнутый круг синтетики — когда мы ленимся и просим GPT писать статьи, которые потом попадают в интернет и используются для обучения новых версий GPT, мы не развиваем технологии, мы убиваем их.
Проклятие усреднения — машина не умеет мечтать и ошибаться по-человечески. Она стремится к статистической середине. Но прогресс человечества всегда двигался через безумные идеи, ошибки и «хвосты» распределения.
Стратегии выживания: Как мы удерживаем ИИ от маразма
Разработчики не идиоты. Они видят проблему и пытаются её решить. Но, смотри, что общего у всех решений.
1. Разбавление синтетики «живой кровью»
Единственный работающий способ — мешать синтетические данные с реальными данными от людей.
Мы используем обратную связь от пользователей (RLHF), просим экспертов править ответы, собираем реальные диалоги.
Без этого — коллапс. Это значит, что труд человека не обесценивается. Он становится единственным лекарством от цифрового слабоумия.
2. Отслеживание происхождения данных (Data Provenance)
Умные компании сейчас вбухивают кучу денег в инструменты, которые умеют отличать «настоящие» данные от синтетических. GDPR в Европе вообще требует документировать, откуда данные взялись.
Почему? Потому что обучать модель на чистой синтетике — это тупо и убыточно. Это как строить дом из говна и палок.
3. Сохранение редких событий
Мы намеренно ищем «странные» кейсы и подсовываем их модели, чтобы она не теряла хвосты. Без людей, которые находят эти аномалии, модель превращается в банальную попсу.
FAQ: Вопросы, которые мне задают каждую неделю
Заменит ли ИИ человека, если использовать только идеальные данные?
Термин «идеальные данные» — утопия. Реальный мир хаотичен и меняется. Если вы зафиксируете данные вчерашнего дня, завтра модель устареет и начнёт ошибаться на новых вводных. Нужен постоянный поток новой человеческой информации.
Может ли коллапс быть незаметным?
Да. Самое страшное — поздний коллапс. Модель может проходить тесты на «отлично», но при этом полностью утратить способность к нестандартным решениям. Вы заметите это только когда она провалит реальную кризисную задачу.
Правда ли, что Midjourney уже коллапсирует?
Мы видим, как картинки становятся всё более пластиковыми и однотипными. Это прямой признак зацикленности на своих же паттернах. Без новых стилей, нарисованных живыми художниками, генеративный арт превратится в бесконечный повтор «того самого красивого лица».
Как понять, что моя рабочая модель начала коллапсировать?
Простой чек-лист:
Ответы стали слишком общими.
Модель игнорирует важный, но редкий контекст.
Результаты разных запросов стали похожи друг на друга как две капли воды.
Если увидели это — значит, модель наелась синтетики.
Итог, или почему я сейчас выдохнул с облегчением
Коллапс моделей — это техническое доказательство того, что алгоритму никогда не стать человеком.
Да, ИИ изменит рынок труда. Он убьёт рутину, автоматизирует шаблоны, заставит нас учиться быстрее. Но он не заменит нас. Ему просто не из чего будет генерировать смысл без нашей постоянной подпитки.
Феномен коллапса моделей — это инстинкт самосохранения реальности. Машина нуждается в человеке, как цветок в поливе. Прекрати мы создавать новое, творить, ошибаться и писать глупости — и весь ИИ превратится в белый шум.
Самая главная мысль, которую я вынес из этого: будущее не за заменой, а за симбиозом.
Человек → генератор энтропии и творческого безумия.
ИИ → вычислитель и упаковщик.
Не будь как те ребята, которые до сих пор верят в восстание машин и сидят сложа руки. Пробуй новое, давай обратную связь, создавай «живые данные». Ты нужен системе больше, чем она тебе.
А что думаешь ты? Случалось ли тебе сталкиваться с тупостью нейросетей, которая похожа на начало коллапса? Делись в комментах, будет жарко.
Источники и ссылки:
Shumailov, I., Shumaylov, Z., Zhao, Y. et al. AI models collapse when trained on recursively generated data. Nature 631, 755–759 (2024). Ссылка на Nature
Обсуждение проблем синтетических данных на Arxiv: The Curse of Recursion: Training on Generated Data Makes Models Forget
Официальный текст GDPR (Статья 5 — принципы обработки данных): GDPR.eu
