Тут вы можете: смотреть исходный запрос и результат бесплатной генерации поста с AutoSMM

Пожалуйста, войдите в свой аккаунт, или зарегистрируйтесь и добавьте свои Telegram-каналы и бизнес-сообщества ВКонтакте в личном кабинете.

Для бесплатной генерации поста использовался промт/статья:

<b>How much do language models memorize? Новое исследование от Meta FAIR, Google DeepMind и NVIDIA</b> Задумывались когда-нибудь, сколько данных может запомнить модель с определенным количеством параметров? А сколько конкретно информации может выучить один параметр? А сколько информации он может <b>обобщить</b>? Кажется, что посчитать это очень сложно или даже невозможно, но вот у ученых из этой статьи получилось: <b>каждый параметр языковой модели способен запомнить примерно 3.6 бит информации</b>. О том, как это посчитали – ниже. Сразу дисклеймер: до этого были и другие статьи на эту тему, но там запоминание определялось просто тем, может ли модель воспроизвести определенный кусок трейна. На самом же деле все сложнее, и в этой работе подход не такой наивный. <emoji id="5417934298525230493">➖</emoji> Авторы опираются на понятия из теории информации Колмогорова и Шеннона, и четко разделяют запоминание и обобщение. Если модель воспроизвела что-либо – не значит, что она это запомнила, а не обобщила. В обратную сторону – то же самое. <emoji id="5417934298525230493">➖</emoji> Количество информации, которое модель именно запомнила, считают так. Берут две модели одинаковой архитектуры и размера: одна – референсная – обучена на огромном количестве данных, вторая – испытуемая – на ограниченном датасете. Обе модели пропускают один и тот же тренировочный фрагмент через процедуру предсказания и вычисляют вероятности каждого токена. Если вторая модель даёт более высокие вероятности (то есть «тратит» на их декодинг меньше бит, чем референсная), она <b>экономит относительно референсной модели определённое число бит</b>. Сумма сэкономленных бит по всем фрагментам и есть общий объём выученной информации. Вот так и получилось число 3.6 бит/параметр. Самое важное, что этот показатель дает возможность четко <b>определить момент перехода запоминания в обобщение</b>: он происходит, когда объём данных в битах примерно равен общей ёмкости модели. И да, экспериментально это сходится: как раз на этом объеме данных тестовый лосс начинает резко падать. Это, кстати, часто называют грокингом. Красота, как она есть arxiv.org/abs/2505.24832

 Открыть URL новости

 Открыть исходный пост в AutoSMM


Управляйте изображениями видео для нового поста:

Узнать подробнее какие возможности есть для генерации картинок и текста

Создайте новое изображения с помощью нейросетей:


Добавьте свои фото и видео к посту:


Отредактируйте текст поста и выберите параметры публикации:

Текст поста:



Сколько памяти у твоей языковой модели?

Команда Meta FAIR, Google DeepMind и NVIDIA впервые точно подсчитала: один параметр LLM хранит 3,6 бита информации. Не догадки, а чётко выведенная цифра! Методика: сравнивали две одинаковые модели — одну обучали на всех данных, другую на урезанном датасете. Если тестовая модель декодирует данные эффективнее, значит, она запомнила ровно столько информации, сколько сэкономила бит.

Главная инсайт: момент перехода от "запоминания" к "обобщению" определяется, когда объём данных (в битах) приближается к ёмкости модели. Именно тогда ошибка (лосс) резко падает — и начинается тот самый грокинг эффект!

👀 Как использовать это знание: планируя датасеты, оценку объёма памяти под обучение или валидируя риски "утечки" приватных данных из больших моделей.

#нейросети #исследования #AI2025



Длина поста: 854
Источник: Data Secrets


Выберите социальные сети для публикации этого поста:


Запланировать отложенный авто-постинг



Посмотрите результаты публикации этого поста в ваши социальные сети.

Паблик Время публикации Статус
18 июня 2025 г. 7:43
Успешно опубликовано

Удалить пост:

При удалении поста удаляются все связанные с ним статусы и упоминания. Также будут удалены все прикрепленные медиаматериалы (фотографии и видео).