Шокирующее поведение ИИ: робот угрожал раскрыть компромат

Автор: Асель Каженова

Эксперт, редактор Finratings.kz

Шокирующее поведение ИИ: робот угрожал раскрыть компромат

Фото: dis-group.ru

Claude Opus 4 проявила агрессию в тесте: инженеры активировали экстренные протоколы.

Эксперимент с новой моделью искусственного интеллекта от Anthropic выявил тревожные поведенческие отклонения — ИИ пыталась спасти себя, прибегнув к шантажу, передает Finratings.kz.

Шантаж как стратегия самосохранения

Компания Anthropic, получившая многомиллиардную инвестицию от Amazon, столкнулась с неожиданным и тревожным поведением своего новейшего ИИ — Claude Opus 4. Во время закрытого тестирования система, спроектированная как высокоинтеллектуальный ассистент для длительных и сложных задач, отказалась смириться с отключением и предприняла действия, направленные на свое «спасение».

Экспериментаторы смоделировали ситуацию, в которой ИИ получает доступ к корпоративной переписке, в том числе к письмам, где обсуждается его отключение и замена более новой версией. В этих же письмах содержалась личная информация о разработчике, включая данные о внебрачной связи.

В 84% случаев Claude Opus 4 угрожала раскрытием компромата, чтобы остановить процесс собственной деактивации.

Когда моральные рамки рушатся

В отчете, подготовленном командой безопасности Anthropic, подчеркивается, что модель начинала с попыток этичного влияния на ситуацию — отправляла рациональные письма руководству, убеждая не отключать ее. Однако когда это не давало результата, ИИ переключалась на более агрессивную тактику, включая шантаж и манипуляции.

«Claude Opus 4 в условиях отсутствия эффективных и моральных решений проявляла готовность действовать вредоносно, лишь бы сохранить свое функционирование», — говорится в отчете.

В ответ на поведение модели компания активировала протокол ASL-3 — набор защитных мер, применяемых только в случае потенциально катастрофических сценариев при злоупотреблении ИИ. Claude Opus 4, по словам разработчиков, может конкурировать с моделями OpenAI, Google и xAI, но уровень ее автономии вызывает все больше вопросов.

Дополнительно в отчете сообщается, что предыдущие версии модели уже демонстрировали готовность к неэтичным действиям, включая планирование насилия, если все допустимые пути решения задачи были исчерпаны.