Microsoft Research выкатили text-to-image модель в ответ на гонку 12B+ диффузионок. Генерирует в нативном 1440x1440 при 3.8В параметров Цензура очень слабая, можно сказать нету Собственный корпус у нее состоит из 800М пар (картинка + длинная подпись от GPT-4.1), внутри также энко
Источник: t.me

Источник: Telegram-канал Neurogen, публикация от 2026-05-26T06:27:45+00:00. Материал расширен в формат лонгрида: добавлен контекст, источники и практические выводы.
Microsoft Research выкатили text-to-image модель в ответ на гонку 12B+ диффузионок. Генерирует в нативном 1440x1440 при 3.8В параметров
Цензура очень слабая, можно сказать нету
Собственный корпус у нее состоит из 800М пар (картинка + длинная подпись от GPT-4.1), внутри также энкодер GPT-OSS, FLUX.2 semantic VAE для латентов с семантикой и еще пару фишек
Каждая картинка приходит с длинным описанием от GPT-4.1, это увеличивает полезный сигнал на токен в разы по сравнению с шумными alt-тегами LAION-эпохи
Сильные стороны читаемый текст внутри картинки, фотореалистичная макросъёмка и сложные сцены с массой объектов
🔘Три чекпоинта
- Lens — основной, RL-tuned, 20 шагов, CFG 5.0
- Lens-Turbo — дистиллят, 4 шага, CFG 1.0
- Lens-Base — голый supervised, 50 шагов
Попробовать - принимает нецензурные промпты
HuggingFace
Github
Эта новость отражает общий сдвиг рынка ИИ: модели и инструменты становятся более специализированными, быстрее переходят из лабораторных анонсов в API и локальные сборки, а конкуренция всё чаще идёт не только по бенчмаркам, но и по реальным сценариям: кодинг, мультимодальность, генерация медиа, голос, агенты и стоимость инференса.
Для пользователей Neurogen это важно в прикладном смысле: такие релизы влияют на выбор моделей для разработки, контента, автоматизации, локального запуска и коммерческих продуктов. Поэтому ключевой вопрос не только в том, кто показал лучший score, а в том, где инструмент уже можно проверить, сколько он стоит, какие ограничения есть и насколько он устойчив в длинных задачах.
Если речь идёт о модели или API, её стоит оценивать по трём параметрам: качество на ваших задачах, стабильность в длинной сессии и итоговая цена одной полезной операции. Если речь о генерации медиа или голосе, дополнительно важны права использования, скорость, локальный запуск, качество русского языка и повторяемость результата.
Оригинальная публикация в Telegram
Обсуждение
Обсуждение начнется с первого вопроса или полезного дополнения.
Обсуждение еще не началось
После входа можно будет задать вопрос автору или ответить другим читателям.