Локальная генерация музыки и звуков из текста Stable Audio 3 - семейство открытых моделей для генерации аудио. Я собрал портативную сборку под Windows, чтобы запускать всё локально без танцев с pip, venv и CUDA 🔘Что внутри: - Stable Audio 3 Small-Music (433M) - музыка, до 120 сек
Источник: t.me

Источник: Telegram-канал Neurogen, публикация от 2026-05-30T15:36:18+00:00. Материал расширен в формат лонгрида: добавлен контекст, источники и практические выводы.
Локальная генерация музыки и звуков из текста
Stable Audio 3 - семейство открытых моделей для генерации аудио. Я собрал портативную сборку под Windows, чтобы запускать всё локально без танцев с pip, venv и CUDA
🔘Что внутри:
- Stable Audio 3 Small-Music (433M) - музыка, до 120 секунд
- Stable Audio 3 Small-SFX (433M) - звуковые эффекты, до 120 с
- Stable Audio 3 Medium (1.4B) - флагман, до 380 секунд
- T5Gemma как текстовый кондишн (вшит в кеш, работает офлайн)
- Gradio web UI + полноценный CLI
- Кликабельные запускалки под каждую модель
- Автодетект SOCKS5-прокси для тех, кто притворяется жителем другой страны
- hf_transfer для быстрых параллельных загрузок весов
🔘Как пользоваться:
1. Распакуй архив в любую папку (лучше без пробелов в пути)
2. Запусти setup.bat (один раз - поставит зависимости и
скачает модели, ~17 ГБ; качает и через твой wпH)
3. Выбери модель:
- либо кликни gui.bat - покажет меню (1-музыка / 2-звуки / 3-medium)
- либо сразу нужный ярлык:
gui-music.bat - музыка (small-music)
gui-sfx.bat - звуковые эффекты (small-sfx)
gui-medium.bat - флагман medium (нужно 6-7 ГБ VRAM)
Откроется браузер с интерфейсом.
4. Либо через консоль: run.bat --model small-music -p "lo-fi beat" --duration 30 -o output\beat.wav
В комплекте ещё:
- download.bat - дозакачать / починить веса моделей
- fix_pagefile.bat - правит ошибку "файл подкачки слишком мал"
(WinError 1455) при загрузке моделей, если у тебя маленький
фиксированный файл подкачки
🔘Требования:
- Windows 10/11 64-bit
- NVIDIA GPU с CUDA 12.6
- 4 ГБ VRAM хватит для small-моделей; medium требует 6-7 ГБ
(в 4 ГБ не влезет - используй small)
- ~25 ГБ свободного места (17 ГБ модели + ~5 ГБ окружение)
- Hugging Face аккаунт + accept лицензий на трёх страницах
моделей (ссылки в README)
⚠️flash-attn под Windows ставится криво, поэтому medium идёт через fallback-attention - чуть медленнее, но работает. Small-моделям flash-attn не нужен вообще
Скачать
Эта новость отражает общий сдвиг рынка ИИ: модели и инструменты становятся более специализированными, быстрее переходят из лабораторных анонсов в API и локальные сборки, а конкуренция всё чаще идёт не только по бенчмаркам, но и по реальным сценариям: кодинг, мультимодальность, генерация медиа, голос, агенты и стоимость инференса.
Для пользователей Neurogen это важно в прикладном смысле: такие релизы влияют на выбор моделей для разработки, контента, автоматизации, локального запуска и коммерческих продуктов. Поэтому ключевой вопрос не только в том, кто показал лучший score, а в том, где инструмент уже можно проверить, сколько он стоит, какие ограничения есть и насколько он устойчив в длинных задачах.
Если речь идёт о модели или API, её стоит оценивать по трём параметрам: качество на ваших задачах, стабильность в длинной сессии и итоговая цена одной полезной операции. Если речь о генерации медиа или голосе, дополнительно важны права использования, скорость, локальный запуск, качество русского языка и повторяемость результата.



Обсуждение
Обсуждение начнется с первого вопроса или полезного дополнения.
Обсуждение еще не началось
После входа можно будет задать вопрос автору или ответить другим читателям.