Я дал 10 ведущим LLM (GPT-5.5, Gemini 3 Pro, Claude Opus 4.8, DeepSeek, Grok, Qwen, Kimi, GLM, MiniMax и Gemini Flash) один и тот же промпт Дал им реальные группы, реальную сетка, фиксированную дату. И попросил назвать чемпиона, финалистов и группу смерти Половина поставила на Ис
Источник: t.me

Источник: Telegram-канал Neurogen, публикация от 2026-06-12T14:43:21+00:00. Материал расширен в формат лонгрида: добавлен контекст, источники и практические выводы.
Я дал 10 ведущим LLM (GPT-5.5, Gemini 3 Pro, Claude Opus 4.8, DeepSeek, Grok, Qwen, Kimi, GLM, MiniMax и Gemini Flash) один и тот же промпт
Дал им реальные группы, реальную сетка, фиксированную дату. И попросил назвать чемпиона, финалистов и группу смерти
Половина поставила на Испанию, но самое интересное не это
Аргентину в финал или топ-3 засунули 9 из 10 нейросетей
А вот группой смерти 7 из 10 назвали группу I (Франция, Сенегал, Норвегия, Ирак) тут консенсус почти полный
Я собрал все ответы на отдельный сайт с раскладкой по каждой модели, полными разборами и дашбордом консенсуса
👉 https://rzaev77.github.io/neuromundial-2026/
тут на сайте вы можете почитать сам промпт и полный разбор от каждой модели
Финал — 19 июля. После него сделаю вскрытие кто из ии оказался правым, а кто сел в лужу 😏
🚨 Сразу говорю, это не значит что надо идти и заряжать родительскую квартиру на Испанию
Эта новость отражает общий сдвиг рынка ИИ: модели и инструменты становятся более специализированными, быстрее переходят из лабораторных анонсов в API и локальные сборки, а конкуренция всё чаще идёт не только по бенчмаркам, но и по реальным сценариям: кодинг, мультимодальность, генерация медиа, голос, агенты и стоимость инференса.
Для пользователей Neurogen это важно в прикладном смысле: такие релизы влияют на выбор моделей для разработки, контента, автоматизации, локального запуска и коммерческих продуктов. Поэтому ключевой вопрос не только в том, кто показал лучший score, а в том, где инструмент уже можно проверить, сколько он стоит, какие ограничения есть и насколько он устойчив в длинных задачах.
Если речь идёт о модели или API, её стоит оценивать по трём параметрам: качество на ваших задачах, стабильность в длинной сессии и итоговая цена одной полезной операции. Если речь о генерации медиа или голосе, дополнительно важны права использования, скорость, локальный запуск, качество русского языка и повторяемость результата.


Обсуждение
Обсуждение начнется с первого вопроса или полезного дополнения.
Обсуждение еще не началось
После входа можно будет задать вопрос автору или ответить другим читателям.