Whisper CUDA NVidia 3060
Jul 06, 25Предыстория
В один момент надоело смотреть видосы, от которых нужна только суть и можно было бы прочитать текстом за 10 минут (вместо ролика на 40 минут). Подключаем ИИ для этой проблемы. DeepSeek предложил для перевода аудио/видео в текст на локальном ПК несколько сеток:
- Whisper от OpenAI
- Vosk
- SpeechRecognition + PocketSphnix
- NVIDIA NeMo
Я остановился на первом варианте, но как обычно всё работало через CPU и получалось совсем не то, что хотел. Поэтому методом google+github discussions получилось решить проблему.
Решение
В дискуссиях github есть решение, которым я воспользовался.
Через команду nvidia-smi.exe
узнаем версию CUDA:
Актуальная версия на сегодня CUDA Toolkit 12.9 Update 1, но PyTorch поддерживает только старые версии от 11.8 до 12.8. Поэтому идем на сайт Archive of Previous CUDA Releases, выбираем релиз 12.8 (ссылочка), выбираем exe_network (нет смысла качать 2 Гбайт), открываем и при выборе компонентов ставим галочку только на CUDA->Runtime. Ждем скачивания и установки.
После идем на https://pytorch.org/get-started/locally, выбираем версию 12.8 и в строке Run this Command получаем команду для выполнения:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
Перед этим удаляем пакеты, которые работают на CPU. У меня стоит Anaconda3, вызываем ‘Anaconda Prompt’ и выполняем следующее:
pip3 uninstall torch torchvision torchaudio
pip3 cache purge
После выполняем полученную выше с сайта команду. Открываем наш Python Notebook, накидываем следующий код:
import torch
print('CUDA enabled:', torch.cuda.is_available())
print('CUDA version:', torch.version.cuda)
cuda_id = torch.cuda.current_device()
print('ID of current CUDA device ',cuda_id)
print('Name of current CUDA device ',torch.cuda.get_device_name(cuda_id))
У меня получилось следующее:
CUDA enabled | True |
CUDA version | 12.8 |
ID of current CUDA device | 0 |
Name of current CUDA device | NVIDIA GeForce RTX 3060 |
Так, далее проверяем, что в PATH прописан пункт до ffmpeg. Если его нету, то идем на сайт https://ffmpeg.org/download.html#build-windows, скачиваем, распаковываем и прописываем путь до exe файла:
Ну и пишем следующий код:
!whisper "D:\Videos\MyVideo.mp4" --model medium --device cuda --language ru
В месте, где вы запустили, появятся файлы с разрешениями .json/.srt/.tsv/.txt/.vtt Вроде всё, приятного использования