Пожалуйста, войдите в свой аккаунт, или зарегистрируйтесь и добавьте свои Telegram-каналы и бизнес-сообщества ВКонтакте в личном кабинете.
Для бесплатной генерации поста использовался промт/статья:
Яндекс запускает бета-версию ризонинга
На претрейн-модели делают SFT на ответах YandexGPT 5 Pro. После этого проводят еще один SFT с оптимизированным датасетом, а потом большой этап обучения с подкреплением + RLHF. Для ускорения обучения гоняют все на решении от самого Яндекса – YaFSDP (есть в опенсорсе).
Экспериментируют и с онлайн RL, и с оффлайн: проводят обучение на парах вопрос-ответ со стадии SFT YandexGPT 5 Pro.. Занятно посмотреть, что в итоге будет на релизе.
Попробовать уже можно в чате с Алисой, нужно просто активировать модель в настройках.
Плюсом Яндекс дает возможность тут же потестить DeepSeek R1. Похоже на Perplexity, который предлагает сразу несколько SOTA-моделей на выбор. Это нужно для того чтобы собрать максимальное количество обратной связи. Ризонинг все-таки более нишевый, чем обычные LLM, поэтому важно понять, насколько такой продукт полезен российскому пользователю и собрать датасет реальных запросов и задач.
Хабр