В недавнем исследовании, представленном на международной конференции ICLR 2025, команда учёных из Техниона, а также специалистов из Apple и Google, сделала важный шаг к пониманию внутренней работы больших языковых моделей (LLM). Об этом сообщает Ynet.
Исследование возглавляли д-р Йонатан Блинков, Хадес Орегед, Михаэль Токер, Зоарик Гакман, Рой Рихерт, Идан Спектор и Хадес Кутак. Их цель – разобраться, почему современные модели искусственного интеллекта часто дают уверенные, но ошибочные ответы, известные как «галлюцинации».
Команда сосредоточилась на анализе внутренних представлений модели во время генерации ответа. Они обнаружили, что информация о том, насколько ответ будет правильным, закодирована в промежуточных слоях сети и иногда сосредоточена в отдельных токенах. Проще говоря, модель способна «чувствовать», когда она собирается ошибиться, но эта информация не влияет на окончательный вывод.
Для проверки гипотезы учёные извлекли выходы из конкретного скрытого слоя и обучили небольшую вспомогательную модель предсказывать, будет ли основной LLM давать правильный ответ. Полученные предсказания достигали высокой точности, что подтверждало наличие векторных сигналов о надёжности ответа. При этом сам LLM продолжал выдавать неверные ответы с полной уверенностью, не предпринимая попыток их скорректировать.
Исследователи также выявили, что способ кодирования этой информации зависит от типа задачи. Для вопросов‑тривийных, связанных с фактами, сигналы о правоте распределяются иначе, чем для математических задач, где модель использует отдельные паттерны. Это объясняет, почему ошибки в разных областях проявляются по‑разному.
Особенно удивительным оказалось открытие, что в некоторых случаях модель явно «знает» правильный ответ, но всё равно выбирает неверный вариант. Авторы называют такие случаи «конфликтом между внутренним знанием и внешним поведением». Они предполагают, что причина кроется в процессе обучения: на этапе предтренировки модели учат предсказывать следующее слово, а на этапе дообучения – генерировать текст, который будет приятен человеку. Приоритет «человеческой привлекательности» может заставлять модель отдавать предпочтение формулировкам, которые, по её оценке, получат более положительный отклик, даже если они фактически неверны.
Команда также классифицировала типы ошибок. Одни ошибки проявляются как «угадывание» – ответы меняются при повторных запросах той же формулировки. Другие – как «уверенные» ошибки, когда модель стабильно выдаёт один и тот же неверный ответ. Оба типа можно предсказывать, анализируя внутренние представления, что открывает путь к разработке систем‑контроллеров, способных вмешиваться в процесс генерации и подавлять неверные ответы.
Итоги исследования указывают на важный вывод: современные LLM обладают скрытым механизмом оценки своей уверенности, но из‑за архитектурных и обучающих особенностей этот механизм не реализуется в финальном ответе. Для повышения надёжности ИИ‑систем необходимо разрабатывать методы, позволяющие «выводить наружу» внутреннюю уверенность модели и корректировать её поведение в реальном времени. Это может стать ключевым шагом к уменьшению количества галлюцинаций и повышению доверия к ИИ в повседневных приложениях.