Израильские учёные раскрыли, почему ИИ «знает», что ошибается, но не исправляет ответы

В недавнем исследовании, представленном на международной конференции ICLR 2025, команда учёных из Техниона, а также специалистов из Apple и Google, сделала важный шаг к пониманию внутренней работы больших языковых моделей (LLM). Об этом сообщает Ynet.
Исследование возглавляли д-р Йонатан Блинков, Хадес Орегед, Михаэль Токер, Зоарик Гакман, Рой Рихерт, Идан Спектор и Хадес Кутак. Их цель – разобраться, почему современные модели искусственного интеллекта часто дают уверенные, но ошибочные ответы, известные как «галлюцинации».

Команда сосредоточилась на анализе внутренних представлений модели во время генерации ответа. Они обнаружили, что информация о том, насколько ответ будет правильным, закодирована в промежуточных слоях сети и иногда сосредоточена в отдельных токенах. Проще говоря, модель способна «чувствовать», когда она собирается ошибиться, но эта информация не влияет на окончательный вывод.

Для проверки гипотезы учёные извлекли выходы из конкретного скрытого слоя и обучили небольшую вспомогательную модель предсказывать, будет ли основной LLM давать правильный ответ. Полученные предсказания достигали высокой точности, что подтверждало наличие векторных сигналов о надёжности ответа. При этом сам LLM продолжал выдавать неверные ответы с полной уверенностью, не предпринимая попыток их скорректировать.

Исследователи также выявили, что способ кодирования этой информации зависит от типа задачи. Для вопросов‑тривийных, связанных с фактами, сигналы о правоте распределяются иначе, чем для математических задач, где модель использует отдельные паттерны. Это объясняет, почему ошибки в разных областях проявляются по‑разному.

Особенно удивительным оказалось открытие, что в некоторых случаях модель явно «знает» правильный ответ, но всё равно выбирает неверный вариант. Авторы называют такие случаи «конфликтом между внутренним знанием и внешним поведением». Они предполагают, что причина кроется в процессе обучения: на этапе предтренировки модели учат предсказывать следующее слово, а на этапе дообучения – генерировать текст, который будет приятен человеку. Приоритет «человеческой привлекательности» может заставлять модель отдавать предпочтение формулировкам, которые, по её оценке, получат более положительный отклик, даже если они фактически неверны.

Команда также классифицировала типы ошибок. Одни ошибки проявляются как «угадывание» – ответы меняются при повторных запросах той же формулировки. Другие – как «уверенные» ошибки, когда модель стабильно выдаёт один и тот же неверный ответ. Оба типа можно предсказывать, анализируя внутренние представления, что открывает путь к разработке систем‑контроллеров, способных вмешиваться в процесс генерации и подавлять неверные ответы.

Итоги исследования указывают на важный вывод: современные LLM обладают скрытым механизмом оценки своей уверенности, но из‑за архитектурных и обучающих особенностей этот механизм не реализуется в финальном ответе. Для повышения надёжности ИИ‑систем необходимо разрабатывать методы, позволяющие «выводить наружу» внутреннюю уверенность модели и корректировать её поведение в реальном времени. Это может стать ключевым шагом к уменьшению количества галлюцинаций и повышению доверия к ИИ в повседневных приложениях.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

ВВС США уничтожили подземный арсенал Ирана в Борозджане (видео)

Авиация США нанесла удар по подземному комплексу IRGC в Борозджане, провинция Бушер. Использованы бомбы GBU-57, идут непрерывные взрывы.

Греческие Patriot сбили 2 иранские ракеты над Саудовской Аравией

Греция подтвердила, что её Patriot перехватили иранские баллистические ракеты, направленные в нефтеперерабатывающий завод SAMREF в Янбу на побережье Красного моря.

CENTCOM: 8000 ударов по Ирану, 130 кораблей уничтожено (видео)

Адмирал Брэд Купер подвёл итоги операции Epic Fury: ВВС США выполнили 8000 вылетов и поразили 8000 целей, включая 130 иранских судов.

США уничтожили завод дронов-убийц в Исфахане

Американские ВВС стерли с лица земли иранский завод по производству дронов-камикадзе Shahed, который Тегеран использовал для атак по региону.

Арбель Яхуд: 482 дня ада в плену ХАМАС

Израильская заложница Арбель Яхуд провела 482 дня в плену ХАМАС, где ежедневно подвергалась пыткам и изнасилованиям.

Больше из категории

Квантовая сеть вышла из лаборатории на улицы Манхэттена

Квантовая сеть больше не лабораторный проект. Cisco успешно продемонстрировала ее работу на улицах Манхэттена, используя существующие оптоволоконные линии. Это шаг к квантовому интернету.

Tesla строит гигантский завод по производству чипов

Tesla запускает гигантский завод по производству чипов Terafab. Проект обеспечит компонентами миллионы электромобилей и роботов, снижая зависимость от внешних поставщиков.

Palantir: ИИ решает исход боевых операций (видео)

На AIPCon 9 офицер Пентагона показал систему Maven, которая за секунды анализирует разведданные и планирует удары.

Квантовые вычисления: 94 защищенных кубита превзошли «голый» процессор

Исследователи Quantinuum добились прорыва в квантовых вычислениях, продемонстрировав работу 94 защищенных логических кубитов. Это открывает новые горизонты для отказоустойчивых квантовых систем.

Теперь можно писать Claude как другу: iPhone-шорткат превращает ИИ в личного ассистента

iPhone-шорткат превращает Claude в личного ассистента. Теперь можно общаться с ИИ через SMS, как с другом, без открытия отдельных приложений.

Израильский стартап привлек 58 миллионов долларов на AI-платформу для брендов

Израильский стартап BrandShield привлек 58 миллионов долларов. AI-платформа для защиты брендов от мошенничества и подделок усилит глобальное присутствие.

Tesla готовится к своему «моменту iPhone» с роботами Optimus

Tesla готовится к своему «моменту iPhone» с роботами Optimus. Компания может повторить успех Apple, перейдя от электромобилей к робототехнике.

Nokia и KDDI защитили дата-центр от квантовых компьютеров

Nokia и KDDI успешно протестировали квантовую защиту для дата-центров в Японии. Новая архитектура обеспечивает безопасность данных от квантовых угроз.