Почему нейросети могут сломаться уже через несколько лет?

22-5-2026 Hi News Hi News 62

Нейросети могут стать глупее уже через несколько лет, но это можно остановить Нейросети вроде ChatGPT и Gemini потребляют баснословное количество энергии и учатся на человеческих текстах. Но что случится, когда качественного контента, написанного людьми, станет критически мало? Новое исследование показало, что если модели начнут обучаться в основном на текстах, сгенерированных другими моделями, они неизбежно начнут деградировать . Хорошая новость в том, что ученые нашли удивительно простой способ это предотвратить. Что такое модельный коллапс у нейросетей простыми словами Представьте, что вы делаете ксерокопию документа, потом ксерокопию этой копии, потом копию копии копии. С каждым поколением текст становится все менее разборчивым, пока не превращается в мутное пятно . Примерно то же самое происходит с нейросетями, когда они учатся на текстах, которые сами же и сгенерировали. Это явление называют модельным коллапсом , термин появился в 2024 году и было упомянуто в научном журнале Nature . Когда новая модель обучается на данных, созданных предыдущей моделью, она теряет некоторую информацию. С каждым повторным обучением разнообразие ответов становится меньше, а ошибки накапливаются. ПОДПИШИСЬ НА "СУНДУК АЛИ-БАБЫ" В ТЕЛЕГРАМ, ЧТОБЫ УЗНАВАТЬ О СКИДКАХ САМЫМ ПЕРВЫМ И это подтверждено математически. Центральная предельная теорема гарантирует, что каждое поколение обучения на синтетических данных уменьшает разброс и уничтожает редкие, но критически важные паттерны. Исследования в области текста, кода и генерации изображений подтверждают эту теоретическую модель и показывают измеримую деградацию уже через пять поколений. Читайте также: Почему ИИ всегда соглашается с вами и редко спорит Почему в интернете заканчивается человеческий контент Нейросети учатся на текстах из интернета: книгах, статьях, форумах, Википедии, научных работах. Но этот ресурс конечен. По оценке исследовательской группы Epoch AI , общий запас качественного публичного текста составляет около 300 триллионов токенов, и при нынешних темпах языковые модели полностью исчерпают его в период с 2026 по 2032 год . Будь в курсе новых событий по максимуму — подписывайся на наш канал в Max! При этом ИИ потребляет данные быстрее, чем люди их создают . Текстовые генераторы производят миллиарды слов ежедневно, генераторы изображений заполняют фотобанки, а ИИ-ассистенты пишут код, который попадает в публичные репозитории. Весь этот искусственный контент неизбежно перетекает обратно в обучающие выборки новых моделей, создавая замкнутый цикл деградации. Компании уже начали скупать контент у издательств и медиа. OpenAI и Google наперегонки заключают лицензионные сделки на качественные источники данных. Но это лишь отсрочка, а не решение проблемы . Отличия ИИ-контента от человеческого На первый взгляд текст, написанный нейросетью , может выглядеть неотличимо от человеческого. Но с точки зрения обучения разница очень большая. Человеческие тексты несут живой опыт: сомнения, ошибки, компромиссы, запреты и негласные правила, по которым люди реально принимают решения. Контент от нейросетей этого не дает. Это всего лишь пересказ того, что нейросеть уже знает , поэтому в них почти нет нового опыта. Человеческие данные содержат нюансы, которые синтетические тексты теряют Если нейросеть снова и снова учится на собственных текстах, она начинает закреплять свои ошибки . Обучающие данные становятся беднее и однообразнее, а предвзятость усиливается. Поэтому ответы ИИ со временем могут становиться все более шаблонными, блеклыми и неточными. В худшем случае модель начинает уверенно выдавать выдумки за факты. Читайте также: Правда ли, что нейросети скоро сделают изучение языков бесполезным Как предотвратить модельный коллапс нейросети 14 мая 2026 года в журнале Physical Review Letters вышло исследование, которое предлагает неожиданно элегантное решение проблемы. Исследователи изучили так называемое обучение в замкнутом цикле . Это процесс, при котором модель многократно обучается на данных, сгенерированных ею самой. Оказалось, что для спасения модели иногда достаточно совсем немного настоящих данных . Даже один реальный пример, добавленный в обучающую выборку, может не дать ИИ скатиться в модельный коллапс, хотя почти все остальные данные будут искусственными. По словам профессора Яссера Руди, авторы специально взяли простую модель, чтобы без лишней математики понять сам механизм. Так они показали, что даже крошечная порция реальной информации работает как якорь и не дает модели начать генерировать бессмыслицу. Почему будущее нейросетей зависит от людей Важно подчеркнуть, что пока модельный коллапс не произошел в полном масштабе в реально работающих системах. Но это не значит, что проблемы нет. Модельный коллапс уже происходит, а пользователи продолжают делать именно то, что его усугубляет — массово генерировать контент с помощью ИИ и выкладывать его в открытый доступ. Нынешнее исследование — это первый шаг. Команда надеется, что, показав закономерности на простых, но мощных моделях, они смогут сформулировать принципы предотвращения коллапса для более сложных языковых моделей, вроде тех, что стоят за ChatGPT. Следующий этап — проверить, работает ли принцип на сложных моделях . Если да, это может стать практическим инструментом для разработчиков. Как отметил Руди, инженеры, создающие следующий ChatGPT, могут использовать наши результаты для разработки моделей, которые не схлопываются. Читайте также: Что будет, если все нейросети вдруг перестанут работать? В итоге получается, что чем мощнее становятся нейросети, тем сильнее они зависят от людей . Машины могут генерировать миллиарды слов в секунду, но без человеческого контента эти слова постепенно теряют смысл. Оказывается, даже одного примера от живого человека бывает достаточно, чтобы удержать ИИ от саморазрушения.
Batafsil | Подробно | Read more... Hi News