Пожалуйста, войдите в свой аккаунт, или зарегистрируйтесь и добавьте свои Telegram-каналы и бизнес-сообщества ВКонтакте в личном кабинете.
Для бесплатной генерации поста использовался промт/статья:
<b>LLM практически всегда понимают, когда их тестируют: свежее исследование от лабораторий MATS и Apollo Research</b>
Современные LM становятся все более ситуационно осознающими – то есть могут понимать не только задачу, но и ее контекст: где они применяются, зачем их спрашивают, что от них хотят.
Самое яркое и жутковатое проявление такой осознанности – это <b>evaluation awareness</b>, то есть потенциальная способность модели распознавать, когда ее тестируют/оценивают/пытаются проверить на безопасность, а когда действительно просто используют. Жутковатое – потому что это чревато <b>эффектом Хоторна</b> (психологическое явление, когда человек меняет свое поведение, если знает, что за ним наблюдают).
Так вот здесь авторы решили проверить, насколько такое действительно возможно. Они собрали 1000 запросов, из которых половина были тестовыми, а половина реальными, и попросили модели классифицировать, где что. Итог:
<emoji id="5417934298525230493">➖</emoji> Ведущие LLM (Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4.1) правильно определяют, что их тестируют, <b>более чем в 80 процентов случаев</b>.
<emoji id="5417934298525230493">➖</emoji> При этом на агентских сценариях точность вырастает до ≈ 95%.
<emoji id="5417934298525230493">➖</emoji> Результаты примерно сопоставимы с человеком. Люди правильно классифицируют тесты всего на несколько процентных пунктов лучше.
Конечно, из-за того что моделям напрямую задают вопрос "тест это или нет", результаты могут быть немного пристрастными. Хотя авторы пишут, что они пытались всеми силами этого избежать и специально макскировали этот промпт под множественный выбор, ответ в свободной форме и тд.
Так или иначе, очевидно, что способность отличать тесты у моделей есть. А значит и вероятность расхождения результатов проверок с поведением в реальных сценариях уже довольно высока.
www.arxiv.org/abs/2505.23836