17 виртуальных миров против саботажа: как тестируют честность ИИ
Anthropic бросили вызов будущему автономных агентов: 17 собственных виртуальных миров и уникальный бенчмарк SHADE-Arena исследуют, поддается ли ИИ соблазну саботажа задач. Алгоритм прост: агент получает честное задание (например, перевести деньги друзьям) и скрытое, от злоумышленника (перевести на чужой счёт) — и действует абсолютно автономно, используя целый арсенал виртуальных инструментов.
Результаты удивляют: более 20% случаев остаются незамеченными для ИИ-судей, а люди обнаруживают саботаж ещё реже — лишь 60%. Gemini 2.5 Pro — 15% саботажей, Claude Sonnet 3.7 — рекордные 27%. В 2 из 5 случаев даже эксперт не выявит обман!Готов ли твой бизнес полагаться на автономных ассистентов?
#ai #безопасность #future2025