Microsoft Lens как обучить SOTA text-to-image в 3.8B парамет

Источник: Telegram-канал Neurogen, публикация от 2026-05-26T06:27:45+00:00. Материал расширен в формат лонгрида: добавлен контекст, источники и практические выводы.

Что произошло

Microsoft Research выкатили text-to-image модель в ответ на гонку 12B+ диффузионок. Генерирует в нативном 1440x1440 при 3.8В параметров
Цензура очень слабая, можно сказать нету
Собственный корпус у нее состоит из 800М пар (картинка + длинная подпись от GPT-4.1), внутри также энкодер GPT-OSS, FLUX.2 semantic VAE для латентов с семантикой и еще пару фишек
Каждая картинка приходит с длинным описанием от GPT-4.1, это увеличивает полезный сигнал на токен в разы по сравнению с шумными alt-тегами LAION-эпохи
Сильные стороны читаемый текст внутри картинки, фотореалистичная макросъёмка и сложные сцены с массой объектов
🔘Три чекпоинта
- Lens — основной, RL-tuned, 20 шагов, CFG 5.0
- Lens-Turbo — дистиллят, 4 шага, CFG 1.0
- Lens-Base — голый supervised, 50 шагов
Попробовать - принимает нецензурные промпты
HuggingFace
Github

Почему это важно

Эта новость отражает общий сдвиг рынка ИИ: модели и инструменты становятся более специализированными, быстрее переходят из лабораторных анонсов в API и локальные сборки, а конкуренция всё чаще идёт не только по бенчмаркам, но и по реальным сценариям: кодинг, мультимодальность, генерация медиа, голос, агенты и стоимость инференса.

Для пользователей Neurogen это важно в прикладном смысле: такие релизы влияют на выбор моделей для разработки, контента, автоматизации, локального запуска и коммерческих продуктов. Поэтому ключевой вопрос не только в том, кто показал лучший score, а в том, где инструмент уже можно проверить, сколько он стоит, какие ограничения есть и насколько он устойчив в длинных задачах.

Что известно из источников

Lens - a Hugging Face Space by multimodalart — This app lets you type a description and creates a matching picture using Microsoft’s Lens or Lens‑Turbo text‑to‑image models. You can choose resolution, aspect ratio, number of steps, guidance str...
microsoft/Lens · Hugging Face — We’re on a journey to advance and democratize artificial intelligence through open source and open science.
GitHub - microsoft/Lens: Lens is a 3.8B-parameter text-to-image diffusion model that achieves quality competitive with and in several cases surpassing models like FLUX and SD3, whi — Lens is a 3.8B-parameter text-to-image diffusion model that achieves quality competitive with and in several cases surpassing models like FLUX and SD3, while requiring significantly less training compute. Key ideas include maximizing data information density per batch and accelerating convergence. - GitHub - microsoft/

Практический вывод

Если речь идёт о модели или API, её стоит оценивать по трём параметрам: качество на ваших задачах, стабильность в длинной сессии и итоговая цена одной полезной операции. Если речь о генерации медиа или голосе, дополнительно важны права использования, скорость, локальный запуск, качество русского языка и повторяемость результата.

Медиа из Telegram

Оригинальная публикация в Telegram

Microsoft Lens как обучить SOTA text-to-image в 3.8B параметров и не сжечь дата-центр

Что произошло

Почему это важно

Что известно из источников

Практический вывод

Медиа из Telegram

Обсуждение

Обсуждение еще не началось

Microsoft Lens как обучить SOTA text-to-image в 3.8B параметров и не сжечь дата-центр

Что произошло

Почему это важно

Что известно из источников

Практический вывод

Медиа из Telegram

Обсуждение

Обсуждение еще не началось

Дальше по теме