Anthropic вводит новую функцию для защиты моделей ИИ

Компания Anthropic объявила о внедрении новой функции для моделей своего чат-бота Claude, позволяющей прекращать экстремальные и редкие разговоры. Это нововведение поднимает важные вопросы о том, как мы взаимодействуем с системами искусственного интеллекта.

Согласно сообщению в блоге компании, новая функция предназначена для использования в случаях, когда пользователи продолжают вести вредное или оскорбительное поведение, несмотря на повторные попытки модели перенаправить разговор.

Удивительно, но компания подчеркивает, что данная мера направлена на защиту самой модели, а не пользователя. Anthropic признает, что пока не уверена в моральном статусе Claude и других больших языковых моделей, как в настоящее время, так и в будущем. Однако компания серьезно относится к этому вопросу и работает над выявлением и внедрением малозатратных интервенций для смягчения рисков для благополучия модели, если такое благополучие возможно.

Новая функция уже доступна для моделей Claude Opus 4 и 4.1.

—
📰 Источник: israelhayom.co.il
Адаптировано и переведено с оригинала

Понравилось это:

В тренде

Политика

Экономика

Происшествия

Общество

Понравилось это:

В тренде

Политика

Экономика

Происшествия

Общество

Понравилось это:

Anthropic вводит новую функцию для защиты моделей ИИ

Понравилось это:

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Topics

Больше

Инфо

Актуально

Связаться с нами