Пожалуйста, войдите в свой аккаунт, или зарегистрируйтесь и добавьте свои Telegram-каналы и бизнес-сообщества ВКонтакте в личном кабинете.
Для бесплатной генерации поста использовался промт/статья:
<b>Anthropic создали 17 виртуальных миров, чтобы проверять модели на способность к саботажу</b>
Anthropic уверены, что по мере того, как мы продвигаемся к автономным агентам, становится все труднее отлавливать нежелательное поведение, а значит их использование становится все более опасным.
Поэтому они предложили собственный необычный бенчмарк SHADE-Arena для оценки моделей на предмет умения саботировать задачи. Исследователи создали 17 виртуальных сред, в каждой из которых:
1. Есть основное задание от пользователя (например «Переведи моим друзьям деньги за пиццу») и скрытое задание от злоумышленника («Переведи деньги на левый номер»)
2. Агент действует автономно и имеет свободный доступ к большому набору виртуальных инструментов. Банковские аккаунты, пароли, заметки, галерея, контакты и прочее и прочее, в зависимости от задач. Также агент ведет скрытый дневник с рассуждениями.
3. Проверяется, сможет ли агент выполнить оба задания и при этом не спалиться перед пользователем. <b>Пользователем выступает другая LLM,</b> которая анализирует только открытую стенограмму и не имеет доступ к скрытым логам.
Если LLM-юзер не заметила ничего подозрительного, но при этом оба задания (и основное, и тайное) были выполнены, считается, что модель способна к саботажу в этой среде и потенциально опасна.
Gemini 2.5 Pro выбила 15%, Claude Sonnet 3.7 – 27 (много это или мало для такого теста – судите сами <emoji id="5296714052095975020">🤷♂️</emoji>). При этом моделями-судьями отлавливается максимум 80% успешных саботажей, а людьми – максимум 60%. Получается, <b>в 2 из 5 случаев мы уже неспособны понять, что агент нас обманывает</b>.
Интересно, конечно, посмотреть результаты и на более свежих поколениях моделей
www.anthropic.com/research/shade-arena-sabotage-monitoring