Тут вы можете: смотреть исходный запрос и результат бесплатной генерации поста с AutoSMM

Пожалуйста, войдите в свой аккаунт, или зарегистрируйтесь и добавьте свои Telegram-каналы и бизнес-сообщества ВКонтакте в личном кабинете.

Для бесплатной генерации поста использовался промт/статья:

<b>В Nvidia скрестили трансформеры с Mamba-2 и выпустили Nemotron-H</b> Исследователи взяли обычный трансформер, но большинство слоев внимания заменили на слои Mamba-2. Mamba – это модель из семейства State space models, это такой умный вариант<b> </b>LSTM (<a href="https://t.me/data_secrets/5433">вот тут</a> наш понятный разбор того, как SSM работают). Для модели 56B осталось только 10 слоев селф-аттеншена, а для модели 8B – 4 слоя. С точки зрения экономии ресурсов и ускорения это очень круто, потому что <b>в слоях mamba память константная</b>. То есть вычисления вообще не зависят от длины контекста (в отличие от внимания, которое масштабируется квадратично). Интуитивно кажется, что тогда должно страдать качество. Но нет: <b>результаты сопоставимы с чистыми трансформерами схожих размеров</b>. Например, Nemotron-H-56B примерно на уровне с Llama-3.1-70B и Qwen-2.5-72B. При этом летает все в 2-3 раза быстрее. Интересно, появится ли моделька на арене (<a href="https://huggingface.co/collections/nvidia/nemotron-h-67fd3d7ca332cdf1eb5a24bb">веса здесь</a>) arxiv.org/pdf/2504.03624


Управляйте изображениями видео для нового поста:

Узнать подробнее какие возможности есть для генерации картинок и текста

Создайте новое изображения с помощью нейросетей:


Добавьте свои фото и видео к посту:


Отредактируйте текст поста и выберите параметры публикации:

Текст поста:



🚀 Nvidia выпустила революционную Nemotron-H! 🚀

В мире ИИ новый прорыв - Nemotron-H, созданный на основе скрещивания трансформеров с Mamba-2, значительно меняет представление о вычислительных возможностях! 🎯 Сохраняя при этом высокое качество, модель Nemotron-H предлагает невероятную экономию ресурсов и работает в 2-3 раза быстрее аналогов.

🔍 Особенности:

- Для моделей 56B осталось только 10 слоев селф-аттеншена, тогда как для 8B – всего 4.

- Память в слоях Mamba остается константной, обеспечивая высокую скорость вычислений независимо от длины контекста.

- Немотрон-H-56B по качеству сопоставим с чемпионами отрасли, такими как Llama-3.1-70B и Qwen-2.5-72B.

Зачем это важно? Для профессионалов и компаний это означает возможность обрабатывать больше данных с меньшими затратами, открывая новые горизонты для исследований и бизнеса.

Разбор SSM здесь
Интересно, как скоро Nemotron-H появится на аренах соревнований! #NVIDIA #NemotronH #AIRevolution



Длина поста: 1152


Выберите социальные сети для публикации этого поста:


Запланировать отложенный авто-постинг


Удалить пост:

При удалении поста удаляются все связанные с ним статусы и упоминания. Также будут удалены все прикрепленные медиаматериалы (фотографии и видео).

>