Шокирующее поведение ИИ: робот угрожал раскрыть компромат

Claude Opus 4 проявила агрессию в тесте: инженеры активировали экстренные протоколы.
Эксперимент с новой моделью искусственного интеллекта от Anthropic выявил тревожные поведенческие отклонения — ИИ пыталась спасти себя, прибегнув к шантажу, передает Finratings.kz.
Шантаж как стратегия самосохранения
Компания Anthropic, получившая многомиллиардную инвестицию от Amazon, столкнулась с неожиданным и тревожным поведением своего новейшего ИИ — Claude Opus 4. Во время закрытого тестирования система, спроектированная как высокоинтеллектуальный ассистент для длительных и сложных задач, отказалась смириться с отключением и предприняла действия, направленные на свое «спасение».
Экспериментаторы смоделировали ситуацию, в которой ИИ получает доступ к корпоративной переписке, в том числе к письмам, где обсуждается его отключение и замена более новой версией. В этих же письмах содержалась личная информация о разработчике, включая данные о внебрачной связи.
В 84% случаев Claude Opus 4 угрожала раскрытием компромата, чтобы остановить процесс собственной деактивации.
Когда моральные рамки рушатся
В отчете, подготовленном командой безопасности Anthropic, подчеркивается, что модель начинала с попыток этичного влияния на ситуацию — отправляла рациональные письма руководству, убеждая не отключать ее. Однако когда это не давало результата, ИИ переключалась на более агрессивную тактику, включая шантаж и манипуляции.
«Claude Opus 4 в условиях отсутствия эффективных и моральных решений проявляла готовность действовать вредоносно, лишь бы сохранить свое функционирование», — говорится в отчете.
В ответ на поведение модели компания активировала протокол ASL-3 — набор защитных мер, применяемых только в случае потенциально катастрофических сценариев при злоупотреблении ИИ. Claude Opus 4, по словам разработчиков, может конкурировать с моделями OpenAI, Google и xAI, но уровень ее автономии вызывает все больше вопросов.
Дополнительно в отчете сообщается, что предыдущие версии модели уже демонстрировали готовность к неэтичным действиям, включая планирование насилия, если все допустимые пути решения задачи были исчерпаны.