Среда, 4 февраля, 2026

Израильские учёные раскрыли, почему ИИ «знает», что ошибается, но не исправляет ответы

В недавнем исследовании, представленном на международной конференции ICLR 2025, команда учёных из Техниона, а также специалистов из Apple и Google, сделала важный шаг к пониманию внутренней работы больших языковых моделей (LLM). Об этом сообщает Ynet.
Исследование возглавляли д-р Йонатан Блинков, Хадес Орегед, Михаэль Токер, Зоарик Гакман, Рой Рихерт, Идан Спектор и Хадес Кутак. Их цель – разобраться, почему современные модели искусственного интеллекта часто дают уверенные, но ошибочные ответы, известные как «галлюцинации».

Команда сосредоточилась на анализе внутренних представлений модели во время генерации ответа. Они обнаружили, что информация о том, насколько ответ будет правильным, закодирована в промежуточных слоях сети и иногда сосредоточена в отдельных токенах. Проще говоря, модель способна «чувствовать», когда она собирается ошибиться, но эта информация не влияет на окончательный вывод.

Для проверки гипотезы учёные извлекли выходы из конкретного скрытого слоя и обучили небольшую вспомогательную модель предсказывать, будет ли основной LLM давать правильный ответ. Полученные предсказания достигали высокой точности, что подтверждало наличие векторных сигналов о надёжности ответа. При этом сам LLM продолжал выдавать неверные ответы с полной уверенностью, не предпринимая попыток их скорректировать.

Исследователи также выявили, что способ кодирования этой информации зависит от типа задачи. Для вопросов‑тривийных, связанных с фактами, сигналы о правоте распределяются иначе, чем для математических задач, где модель использует отдельные паттерны. Это объясняет, почему ошибки в разных областях проявляются по‑разному.

Особенно удивительным оказалось открытие, что в некоторых случаях модель явно «знает» правильный ответ, но всё равно выбирает неверный вариант. Авторы называют такие случаи «конфликтом между внутренним знанием и внешним поведением». Они предполагают, что причина кроется в процессе обучения: на этапе предтренировки модели учат предсказывать следующее слово, а на этапе дообучения – генерировать текст, который будет приятен человеку. Приоритет «человеческой привлекательности» может заставлять модель отдавать предпочтение формулировкам, которые, по её оценке, получат более положительный отклик, даже если они фактически неверны.

Команда также классифицировала типы ошибок. Одни ошибки проявляются как «угадывание» – ответы меняются при повторных запросах той же формулировки. Другие – как «уверенные» ошибки, когда модель стабильно выдаёт один и тот же неверный ответ. Оба типа можно предсказывать, анализируя внутренние представления, что открывает путь к разработке систем‑контроллеров, способных вмешиваться в процесс генерации и подавлять неверные ответы.

Итоги исследования указывают на важный вывод: современные LLM обладают скрытым механизмом оценки своей уверенности, но из‑за архитектурных и обучающих особенностей этот механизм не реализуется в финальном ответе. Для повышения надёжности ИИ‑систем необходимо разрабатывать методы, позволяющие «выводить наружу» внутреннюю уверенность модели и корректировать её поведение в реальном времени. Это может стать ключевым шагом к уменьшению количества галлюцинаций и повышению доверия к ИИ в повседневных приложениях.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Фермеры против реформы: «Смотрич ставит нас к стенке»

Фермеры Израиля протестуют против реформы молочной отрасли. Министр Смотрич продвигает изменения, которые, по мнению фермеров, приведут к закрытию хозяйств.

Резервист ЦАХАЛа тяжело ранен при обстреле в секторе Газа

Резервист ЦАХАЛа получил тяжелые ранения в секторе Газа. Инцидент произошел на севере сектора. Готовится ответ на обстрелы.

ЦАХАЛ меняет правила игры: как армия готовится к новому этапу

ЦАХАЛ вводит новую директиву о призыве харедим, впервые устанавливая четкие рамки службы. Это решение направлено на восполнение нехватки боевых кадров и адаптацию армии к новым реалиям.

Тройное убийство в Бейт-Берль: месть за кровь (видео)

В Бейт-Берле трое мужчин получили огнестрельные ранения и скончались в больнице. Полиция считает причиной месть за давний конфликт.

ЦАХАЛ расчищает границу: ЮНИФИЛ обвиняет в нарушении резолюции 1701

ЦАХАЛ начал операцию в Южном Ливане, расчищая границу от растительности. ЮНИФИЛ обвиняет Израиль в нарушении резолюции 1701 ООН.

Top Tags:

Больше из категории

SpaceX запустит миллион спутников для дата-центров в космосе

SpaceX готовит грандиозный проект: вывод до миллиона спутников для создания космических дата-центров. Это изменит будущее облачных вычислений и обработки данных.

Квантовый прорыв: Стэнфордские ученые приблизили эру миллионных кубитов

Стэнфордские ученые сделали прорыв в создании квантовых компьютеров. Разработаны оптические резонаторы, приближающие эру миллионных кубитов и ускоряющие сложные вычисления.

1200 дунамов пустыни накормят Израиль: беспрецедентное соглашение открывает новую эру в Рамат-Негеве

1200 дунамов пустыни выделено для расширения исследований в области сельского хозяйства. Новое соглашение открывает беспрецедентные возможности для инноваций в Рамат-Негеве.

IonQ покупает SkyWater: квантовые компьютеры получат американскую прописку

IonQ покупает SkyWater, крупнейшего производителя полупроводников в США, за 1,8 млрд долларов. Это позволит ускорить разработку квантовых компьютеров и обеспечить их производство в Америке.

SpaceX вывела на орбиту 25 спутников Starlink

SpaceX успешно запустила 25 спутников Starlink. Ракета Falcon 9 стартовала с базы Ванденберг, выведя аппараты на низкую околополярную орбиту Земли.

Nvidia тратит $20 млрд на стартап: ответ Google в гонке ИИ

Nvidia вложила $20 млрд в стартап, чтобы усилить позиции в гонке ИИ. Это ответ на растущее влияние Google и переход к инференсу.

Израильские ученые разработали революционную технологию для борьбы с ожирением

Израильские ученые создали прорывную технологию лечения ожирения. Микророботы доставляют лекарства в жировые клетки, обещая высокую эффективность и безопасность. Ожидается, что метод изменит подходы к борьбе с лишним весом.

Израильские ученые открывают новые горизонты в терагерцовых технологиях

Израильские ученые из Техниона совершили прорыв в терагерцовых технологиях, разработав инновационные двухмерные материалы. Это открывает беспрецедентные возможности для создания следующего поколения квантовых устройств.

Популярные категории