Moonshot обновили свой опенсорс флагман для кодинга, за коротко время уже второй раз крупно апгрейдятся Параметров у нее 1Т, активных 32В, контекст дефолтный 256К Резкий скачок в производительности на ключевых бенчмарках, ориентированных именно на программирование и агентные сцен
Источник: t.me

Источник: Telegram-канал Neurogen, публикация от 2026-06-12T18:00:43+00:00. Материал расширен в формат лонгрида: добавлен контекст, источники и практические выводы.
Moonshot обновили свой опенсорс флагман для кодинга, за коротко время уже второй раз крупно апгрейдятся
Параметров у нее 1Т, активных 32В, контекст дефолтный 256К
Резкий скачок в производительности на ключевых бенчмарках, ориентированных именно на программирование и агентные сценарии
- +21,8% на Kimi Code Bench v2
- +11,0% на Program Bench
- +31,5% на MLS Bench Lite
Код стал выглядеть эстетичнее и лучше решает комплексные ml-инженерные задачи, где раньше у опенсорсов был большой пробел
Рассуждение стало эффективнее, команда заявляет о снижении overthinking примерно на 30% относительно K2.6. На практике это значит, что модель меньше жуёт одну и ту же мысль в цепочке reasoning, быстрее приходит к ответу и тратит меньше токенов а значит, и денег пользователя на одну и ту же задачу
Сделали заметно сильнее в длинных кодинг-сессиях, лучше следует промптам и доводит сквозные задачи до конца с более высокой success rate
Это критически важно именно для агентных workflow, где модель должна самостоятельно планировать, писать, запускать и чинить код в несколько итераций
Также анонсировал скорый запуск 6x High-Speed Mode - режима с шестикратным ускорением инференса
Kimi Code
API
Hugging Face
Эта новость отражает общий сдвиг рынка ИИ: модели и инструменты становятся более специализированными, быстрее переходят из лабораторных анонсов в API и локальные сборки, а конкуренция всё чаще идёт не только по бенчмаркам, но и по реальным сценариям: кодинг, мультимодальность, генерация медиа, голос, агенты и стоимость инференса.
Для пользователей Neurogen это важно в прикладном смысле: такие релизы влияют на выбор моделей для разработки, контента, автоматизации, локального запуска и коммерческих продуктов. Поэтому ключевой вопрос не только в том, кто показал лучший score, а в том, где инструмент уже можно проверить, сколько он стоит, какие ограничения есть и насколько он устойчив в длинных задачах.
Если речь идёт о модели или API, её стоит оценивать по трём параметрам: качество на ваших задачах, стабильность в длинной сессии и итоговая цена одной полезной операции. Если речь о генерации медиа или голосе, дополнительно важны права использования, скорость, локальный запуск, качество русского языка и повторяемость результата.


Обсуждение
Обсуждение начнется с первого вопроса или полезного дополнения.
Обсуждение еще не началось
После входа можно будет задать вопрос автору или ответить другим читателям.