Распознавание речи без интернета: как работает локальный голосовой ввод
Как устроено локальное распознавание речи на компьютере без облака — нейросети, размер моделей, реальная скорость. Подробный гайд для тех, кто хочет понимать что под капотом.
В 2018 году единственный способ получить нормальное распознавание речи был такой: записать голос микрофоном, отправить файл в облако (Google, Microsoft, Yandex, Apple), подождать секунду-другую, получить текст. Без интернета — хуже не придумаешь.
В 2026 это уже не так. Локальное распознавание речи на обычном ноутбуке без видеокарты делает то же, что облако делало пять лет назад. И часто даже лучше, потому что:
- голос не уезжает в чужую инфраструктуру (приватность)
- работает офлайн (в самолёте, в деревне без интернета, в офисе с заблокированным cloud)
- не считает деньги по минутам и API-вызовам
- никаких задержек на сетевой round-trip
Разберём как локальное распознавание устроено технически и что нужно от железа.
Откуда взялась возможность распознавать локально
До 2017 года локальные модели были ужасные. CMU Sphinx, eSpeak, какие-то VOSK ранних версий — точность 60-70% на чистом голосе, на шуме разваливались. Облако давало 95%+, и это решало.
В 2017 Google выпустил архитектуру Transformer, в 2019 — Speech-to-Text модели на её основе. Параллельно появились эффективные библиотеки инференса (ONNX Runtime, ggml, Sherpa-ONNX), которые умеют запускать большие модели на обычных CPU без потери качества.
Кульминация — релиз Whisper от OpenAI в сентябре 2022. Открытая модель, 99 языков, качество близкое к платным облачным сервисам. Запускается локально на ноутбуке.
С этого момента локальное распознавание перестало быть второсортным. Оно стало нормой для всех, кто не хочет, чтобы голос уходил в чужую инфраструктуру.
Какие модели сейчас используются для локального распознавания
Whisper (OpenAI, 2022). Универсальная модель, 99 языков. Размеры от Tiny (39 МБ) до Large-v3 (1.5 ГБ). Маленькие работают на CPU, большие — на GPU. Качество от среднего (Tiny) до близкого к человеческому (Large-v3).
Sherpa Zipformer (k2-fsa). Streaming-модель для отдельных языков (английский, китайский). Распознаёт прямо во время речи, не ждёт конца фразы. Размер ~85 МБ. На английском — качество близкое к Whisper Medium, скорость в 3-4 раза выше.
Sherpa GigaAM v3 (Сбер, переконвертированная для Sherpa). Модель для русского языка, оптимизированная под streaming на CPU. ~150 мс на 5-секундной фразе. Размер ~320 МБ.
Sherpa T-one. Лёгкая русская модель, 144 МБ, ~32 мс на фразе. Качество чуть ниже GigaAM v3, но скорость почти мгновенная.
Distil-Whisper Large-v3. Дистиллированная версия Whisper Large-v3, в 6 раз быстрее, размер 700 МБ вместо 1.5 ГБ. Только английский. Подходит когда нужно качество Large, но не хочешь ждать.
Что нужно от железа
Минимальный стек для русского:
- CPU с AVX2 (Intel Core 4-го поколения 2013+, AMD Ryzen)
- 4 ГБ RAM
- 1 ГБ диск под программу + 320 МБ под модель GigaAM v3
На таком ноутбуке распознавание 5-секундной русской фразы — около 150 мс. Это быстрее, чем обычный сетевой запрос в облако (200-500 мс на хорошем интернете, 2-5 секунд на плохом).
Стек получше — Whisper Medium на CPU:
- 8 ГБ RAM
- 1.5 ГБ под модель
- 5-секундная фраза распознаётся 3-7 секунд (медленно)
Стек для Whisper Large на GPU:
- NVIDIA с 6+ ГБ VRAM
- 1.5 ГБ под модель Medium или 3 ГБ под Large-v3
- Скорость 100-300 мс
Почему нет AMD / Intel GPU
Большинство open-source моделей распознавания речи работают через CUDA — проприетарный стек NVIDIA. AMD ROCm и Intel oneAPI существуют, но поддержка в моделях слабая, и качество не гарантировано.
Если у тебя AMD Radeon или Intel Arc — модели запустятся на CPU, не на GPU. Это медленнее, но работает. Для русского с GigaAM v3 разницы не заметишь (CPU и так быстрая). Для Whisper Medium на длинных аудио — будет 3-7 секунд вместо 100-300 мс.
Безопасность
Локальное распознавание решает три класса утечек:
- Никто не знает что ты говорил. Голос обработался у тебя на компе и удалился. Облачные сервисы могут логировать содержимое (даже если обещают что нет), могут утечь, могут передать по запросу
- Метаданные не утекают. Облако знает: твой IP, время, длительность аудио, язык, иногда — биометрические признаки голоса. Локально это не выходит за пределы твоего диска
- Цензура не работает. Если ты в стране где облачное распознавание заблокировано или мониторится — локально это обойти нельзя по техническим причинам
Реальный пример: как это устроено в AuroraWhisp
AuroraWhisp использует Sherpa-ONNX (для русского — GigaAM v3, для английского — Zipformer) + Whisper (для остальных языков и тяжёлых задач).
Pipeline:
- Запись аудио — драйвер микрофона, 16 кГц, mono, ~30 КБ в секунду
- VAD (Voice Activity Detection) — обрезает тишину в начале и конце
- Feature extraction — преобразует аудио в спектрограмму (Mel-Frequency Cepstral Coefficients)
- Inference — пропускает спектрограмму через нейросеть (Sherpa-ONNX или ctranslate2 для Whisper)
- Decoding — преобразует выход модели в последовательность токенов, потом в текст
- Post-processing — расстановка пунктуации, заглавных букв, кастомные replacement-правила
Всё это происходит на твоём CPU за 100-300 мс на короткой фразе. Никаких сетевых запросов, никакой телеметрии, никаких аккаунтов.
Установщик 97 МБ. Модель GigaAM v3 для русского — ещё 320 МБ, скачивается при первом запуске и потом не нужна (один раз скачал — работает офлайн).
Когда облако всё ещё лучше
Будем честны: облако имеет преимущества в трёх сценариях:
- Очень редкие языки. Whisper умеет 99 языков, но для каких-то — точность ниже облака. Если тебе нужен суахили или вьетнамский — Google STT может быть точнее
- AI-постобработка. Wispr Flow на Mac делает не просто распознавание, но и AI-чистку: убирает «эээ», адаптирует стиль под Slack vs email vs Notion. Локально такого пока нет
- Слабое железо. Если у тебя 2 ГБ RAM и старый процессор без AVX2 — современные модели не запустятся. Облаку всё равно
В остальных случаях — локально лучше.
Итого
Локальное распознавание речи перестало быть компромиссом. На обычном ноутбуке за 2013+ год оно работает за 150 мс на русском, за 100-300 мс на английском с GPU. Качество — на уровне облачных сервисов или близко.
Это значит: голосовой ввод текста, диктовка длинных документов, транскрипция аудиозаписей — всё это можно делать на своей машине, без облака, без подписки, без передачи голоса третьим сторонам.
Если хочешь попробовать — AuroraWhisp бесплатна (10 000 слов в день навсегда). Скачивается за минуту, ставится без регистрации, работает офлайн.