Транскрипция и диаризация Собрал портативную Windows-сборку WhisperX — это быстрое распознавание речи на базе Whisper с пословной разметкой времени и разделением говорящих. Установка одной кнопкой, без admin-прав, без CUDA Toolkit, без Anaconda. После установки папку можно скопир
Источник: t.me

Источник: Telegram-канал Neurogen, публикация от 2026-05-14T06:28:50+00:00. Материал расширен в формат лонгрида: добавлен контекст, источники и практические выводы.
Транскрипция и диаризация
Собрал портативную Windows-сборку WhisperX — это быстрое распознавание речи на базе Whisper с пословной разметкой времени и разделением говорящих.
Установка одной кнопкой, без admin-прав, без CUDA Toolkit, без Anaconda. После установки папку можно скопировать на любой Windows-комп с NVIDIA-картой и просто запустить.
🔘Функционал
- расшифровка интервью, лекций, подкастов
- субтитры (SRT / VTT) к видео и стримам
- разделение по говорящим в записях встреч и созвонов
- всё локально, ничего не уходит в облако
В отличие от веб-сервисов бесплатно, неограниченно по длине, и приватно
🔘Что нужно
- Windows 10 / 11, 64-бит
- NVIDIA с драйвером R555+ (RTX или GTX 10+ серии) — будет в десятки раз быстрее
- Либо просто CPU — медленнее, но работает без видеокарты
- 8 ГБ ОЗУ минимум, 16+ ГБ для крупных моделей
- ~6 ГБ места на диске после установки + место под модели
🔘 Как поставить
1. Скачайте репозиторий ZIP-ом или git clone https://github.com/rzaev77/whisperx-portable.git
2. Распакуйте куда угодно — главное, чтобы в пути не было кириллицы (Python embeddable этого не любит)
3. Дважды кликните setup.bat. Первый раз качается ~3–5 ГБ, занимает 10–30 минут
4. После завершения — WhisperX.bat запускает GUI
Если у вас нет NVIDIA-карты, перед setup.bat запустите:
powershell -ExecutionPolicy Bypass -File tools\setup.ps1 -Backend cpu
🔘Как пользоваться
Через GUI: выбираете аудио/видео, ставите модель (large-v3 для качества, medium для скорости), язык (например ru), нажимаете «Транскрибировать». Результаты — в папке output/.
Через drag-and-drop: бросаете файл на WhisperX-CLI.bat — он сам прогонит транскрипцию с настройками по умолчанию.
Из консоли:
WhisperX-CLI.bat input.mp3 --model large-v3 --language ru --output_format srt
🔘Полезные советы
Модели: tiny → base → small → medium → large-v3. Чем больше, тем точнее и медленнее. Для русского large-v3 — оптимум.
Если не хватает VRAM (ошибка CUDA out of memory): поставьте compute_type=int8 и batch_size=4 в GUI. Так влезает даже на 6 ГБ.
Скорость: на RTX 3060 час аудио → ~3-5 минут на large-v3 с compute_type=float16. На CPU тот же час — до 30-60 минут.
Качество выше: оставьте «Выравнивание (временные метки слов)» включённым — получите точные тайминги по словам, удобно для субтитров.
Форматы: srt для субтитров, txt для чистого текста, json если нужна машинная обработка с таймкодами и говорящими.
Папка переносится: после setup.bat можно скопировать всю папку на флешку и запускать на другом компе с NVIDIA-картой. Без переустановки.
🗣 Диаризация (разделение говорящих)
Чтобы получить «Спикер 1: …», «Спикер 2: …»:
1. Регистрируетесь на huggingface.co
2. Принимаете соглашение на странице модели pyannote
3. Создаёте токен с правом чтения: https://huggingface.co/settings/tokens
4. Вставляете токен в поле «Токен HF» в GUI, ставите галку «Включить диаризацию»
Токен сохранится в config.json рядом — больше вводить не придётся.
🔘Если что-то сломалось
`Could not load library cudnn_*.dll` → драйвер NVIDIA старее R555. Обновите с [nvidia.com](https://www.nvidia.com/Download/index.aspx) или переустановите с -Backend cpu.
CUDA out of memory → меньше модель, compute_type=int8, batch_size=4.
Кириллица в консоли как ??? → у вас старая версия Windows без поддержки UTF-8 в консоли. Сама работа не пострадает, только сообщения.
Полный сброс: powershell -ExecutionPolicy Bypass -File tools\setup.ps1 -Force — стирает runtime/ и переустанавливает.
Подробности — в docs/TROUBLESHOOTING.md.
GITHUB
Эта новость отражает общий сдвиг рынка ИИ: модели и инструменты становятся более специализированными, быстрее переходят из лабораторных анонсов в API и локальные сборки, а конкуренция всё чаще идёт не только по бенчмаркам, но и по реальным сценариям: кодинг, мультимодальность, генерация медиа, голос, агенты и стоимость инференса.
Для пользователей Neurogen это важно в прикладном смысле: такие релизы влияют на выбор моделей для разработки, контента, автоматизации, локального запуска и коммерческих продуктов. Поэтому ключевой вопрос не только в том, кто показал лучший score, а в том, где инструмент уже можно проверить, сколько он стоит, какие ограничения есть и насколько он устойчив в длинных задачах.
Если речь идёт о модели или API, её стоит оценивать по трём параметрам: качество на ваших задачах, стабильность в длинной сессии и итоговая цена одной полезной операции. Если речь о генерации медиа или голосе, дополнительно важны права использования, скорость, локальный запуск, качество русского языка и повторяемость результата.

Оригинальная публикация в Telegram
Обсуждение
Обсуждение начнется с первого вопроса или полезного дополнения.
Обсуждение еще не началось
После входа можно будет задать вопрос автору или ответить другим читателям.