Компания Anthropic объявила о внедрении новой функции для моделей своего чат-бота Claude, позволяющей прекращать экстремальные и редкие разговоры. Это нововведение поднимает важные вопросы о том, как мы взаимодействуем с системами искусственного интеллекта.
Согласно сообщению в блоге компании, новая функция предназначена для использования в случаях, когда пользователи продолжают вести вредное или оскорбительное поведение, несмотря на повторные попытки модели перенаправить разговор.
Удивительно, но компания подчеркивает, что данная мера направлена на защиту самой модели, а не пользователя. Anthropic признает, что пока не уверена в моральном статусе Claude и других больших языковых моделей, как в настоящее время, так и в будущем. Однако компания серьезно относится к этому вопросу и работает над выявлением и внедрением малозатратных интервенций для смягчения рисков для благополучия модели, если такое благополучие возможно.
Новая функция уже доступна для моделей Claude Opus 4 и 4.1.
—
📰 Источник: israelhayom.co.il
Адаптировано и переведено с оригинала