Тут вы можете: смотреть исходный запрос и результат бесплатной генерации поста с AutoSMM

Пожалуйста, войдите в свой аккаунт, или зарегистрируйтесь и добавьте свои Telegram-каналы и бизнес-сообщества ВКонтакте в личном кабинете.

Для бесплатной генерации поста использовался промт/статья:

How much do language models memorize? Новое исследование от Meta FAIR, Google DeepMind и NVIDIA Задумывались когда-нибудь, сколько данных может запомнить модель с определенным количеством параметров? А сколько конкретно информации может выучить один параметр? А сколько информации он может обобщить? Кажется, что посчитать это очень сложно или даже невозможно, но вот у ученых из этой статьи получилось: каждый параметр языковой модели способен запомнить примерно 3.6 бит информации. О том, как это посчитали – ниже. Сразу дисклеймер: до этого были и другие статьи на эту тему, но там запоминание определялось просто тем, может ли модель воспроизвести определенный кусок трейна. На самом же деле все сложнее, и в этой работе подход не такой наивный. <emoji id="5417934298525230493">➖</emoji> Авторы опираются на понятия из теории информации Колмогорова и Шеннона, и четко разделяют запоминание и обобщение. Если модель воспроизвела что-либо – не значит, что она это запомнила, а не обобщила. В обратную сторону – то же самое. <emoji id="5417934298525230493">➖</emoji> Количество информации, которое модель именно запомнила, считают так. Берут две модели одинаковой архитектуры и размера: одна – референсная – обучена на огромном количестве данных, вторая – испытуемая – на ограниченном датасете. Обе модели пропускают один и тот же тренировочный фрагмент через процедуру предсказания и вычисляют вероятности каждого токена. Если вторая модель даёт более высокие вероятности (то есть «тратит» на их декодинг меньше бит, чем референсная), она экономит относительно референсной модели определённое число бит. Сумма сэкономленных бит по всем фрагментам и есть общий объём выученной информации. Вот так и получилось число 3.6 бит/параметр. Самое важное, что этот показатель дает возможность четко определить момент перехода запоминания в обобщение: он происходит, когда объём данных в битах примерно равен общей ёмкости модели. И да, экспериментально это сходится: как раз на этом объеме данных тестовый лосс начинает резко падать. Это, кстати, часто называют грокингом. Красота, как она есть arxiv.org/abs/2505.24832

Открыть URL новости

Открыть исходный пост в AutoSMM

Управляйте изображениями видео для нового поста:

Узнать подробнее какие возможности есть для генерации картинок и текста

‹

↻

✖

›

Создайте новое изображения с помощью нейросетей:

Что вы хотите сгенерировать на изображение к посту:

Модель для генерации:

Добавьте свои фото и видео к посту:

Добавить свои файлы (фото / видео)

Выберите файл для отображения его имени

Отредактируйте текст поста и выберите параметры публикации:

Текст поста:

Сколько памяти у твоей языковой модели?

Команда Meta FAIR, Google DeepMind и NVIDIA впервые точно подсчитала: один параметр LLM хранит 3,6 бита информации. Не догадки, а чётко выведенная цифра! Методика: сравнивали две одинаковые модели — одну обучали на всех данных, другую на урезанном датасете. Если тестовая модель декодирует данные эффективнее, значит, она запомнила ровно столько информации, сколько сэкономила бит.

Главная инсайт: момент перехода от "запоминания" к "обобщению" определяется, когда объём данных (в битах) приближается к ёмкости модели. Именно тогда ошибка (лосс) резко падает — и начинается тот самый грокинг эффект!

👀 Как использовать это знание: планируя датасеты, оценку объёма памяти под обучение или валидируя риски "утечки" приватных данных из больших моделей.

#нейросети #исследования #AI2025

Длина поста: 854

Источник: Data Secrets

Мне нужна реклама для увеличения продаж

Выберите социальные сети для публикации этого поста:

Опубликовать пост для продвижения в Вконтакте (Удалить эмодзи и хэштеги):

Добавить кнопку в пост? (Только для Telegram)
Введите название кнопки:
Укажите URL адрес для кнопки:

Запланировать отложенный авто-постинг

Выбрать дату:

дд.мм.гггг
Выбрать время:

чч:мм
Выбрать социальную сеть:

Посмотрите результаты публикации этого поста в ваши социальные сети.

Паблик	Время публикации	Статус
Аня диджитал	18 июня 2025 г. 7:43	Успешно опубликовано

Заказать рекламу для увеличения подписчиков и роста продаж

Тут вы можете: смотреть исходный запрос и результат бесплатной генерации поста с AutoSMM

Статусы генерации изображения:

Для бесплатной генерации поста использовался промт/статья:

Управляйте изображениями видео для нового поста:

Создайте новое изображения с помощью нейросетей:

Что вы хотите сгенерировать на изображение к посту:

Модель для генерации:

Добавьте свои фото и видео к посту:

Отредактируйте текст поста и выберите параметры публикации:

Текст поста:

Выберите социальные сети для публикации этого поста:

Добавить кнопку в пост? (Только для Telegram)

Введите название кнопки:

Укажите URL адрес для кнопки:

Запланировать отложенный авто-постинг

Выбрать дату:

Выбрать время:

Выбрать социальную сеть:

Посмотрите результаты публикации этого поста в ваши социальные сети.

Удалить пост: