Распознавание речи без интернета: как работает локальный голосовой ввод

Как устроено локальное распознавание речи на компьютере без облака — нейросети, размер моделей, реальная скорость. Подробный гайд для тех, кто хочет понимать что под капотом.

В 2018 году единственный способ получить нормальное распознавание речи был такой: записать голос микрофоном, отправить файл в облако (Google, Microsoft, Yandex, Apple), подождать секунду-другую, получить текст. Без интернета — хуже не придумаешь.

В 2026 это уже не так. Локальное распознавание речи на обычном ноутбуке без видеокарты делает то же, что облако делало пять лет назад. И часто даже лучше, потому что:

  • голос не уезжает в чужую инфраструктуру (приватность)
  • работает офлайн (в самолёте, в деревне без интернета, в офисе с заблокированным cloud)
  • не считает деньги по минутам и API-вызовам
  • никаких задержек на сетевой round-trip

Разберём как локальное распознавание устроено технически и что нужно от железа.

Откуда взялась возможность распознавать локально

До 2017 года локальные модели были ужасные. CMU Sphinx, eSpeak, какие-то VOSK ранних версий — точность 60-70% на чистом голосе, на шуме разваливались. Облако давало 95%+, и это решало.

В 2017 Google выпустил архитектуру Transformer, в 2019 — Speech-to-Text модели на её основе. Параллельно появились эффективные библиотеки инференса (ONNX Runtime, ggml, Sherpa-ONNX), которые умеют запускать большие модели на обычных CPU без потери качества.

Кульминация — релиз Whisper от OpenAI в сентябре 2022. Открытая модель, 99 языков, качество близкое к платным облачным сервисам. Запускается локально на ноутбуке.

С этого момента локальное распознавание перестало быть второсортным. Оно стало нормой для всех, кто не хочет, чтобы голос уходил в чужую инфраструктуру.

Какие модели сейчас используются для локального распознавания

Whisper (OpenAI, 2022). Универсальная модель, 99 языков. Размеры от Tiny (39 МБ) до Large-v3 (1.5 ГБ). Маленькие работают на CPU, большие — на GPU. Качество от среднего (Tiny) до близкого к человеческому (Large-v3).

Sherpa Zipformer (k2-fsa). Streaming-модель для отдельных языков (английский, китайский). Распознаёт прямо во время речи, не ждёт конца фразы. Размер ~85 МБ. На английском — качество близкое к Whisper Medium, скорость в 3-4 раза выше.

Sherpa GigaAM v3 (Сбер, переконвертированная для Sherpa). Модель для русского языка, оптимизированная под streaming на CPU. ~150 мс на 5-секундной фразе. Размер ~320 МБ.

Sherpa T-one. Лёгкая русская модель, 144 МБ, ~32 мс на фразе. Качество чуть ниже GigaAM v3, но скорость почти мгновенная.

Distil-Whisper Large-v3. Дистиллированная версия Whisper Large-v3, в 6 раз быстрее, размер 700 МБ вместо 1.5 ГБ. Только английский. Подходит когда нужно качество Large, но не хочешь ждать.

Что нужно от железа

Минимальный стек для русского:

  • CPU с AVX2 (Intel Core 4-го поколения 2013+, AMD Ryzen)
  • 4 ГБ RAM
  • 1 ГБ диск под программу + 320 МБ под модель GigaAM v3

На таком ноутбуке распознавание 5-секундной русской фразы — около 150 мс. Это быстрее, чем обычный сетевой запрос в облако (200-500 мс на хорошем интернете, 2-5 секунд на плохом).

Стек получше — Whisper Medium на CPU:

  • 8 ГБ RAM
  • 1.5 ГБ под модель
  • 5-секундная фраза распознаётся 3-7 секунд (медленно)

Стек для Whisper Large на GPU:

  • NVIDIA с 6+ ГБ VRAM
  • 1.5 ГБ под модель Medium или 3 ГБ под Large-v3
  • Скорость 100-300 мс

Почему нет AMD / Intel GPU

Большинство open-source моделей распознавания речи работают через CUDA — проприетарный стек NVIDIA. AMD ROCm и Intel oneAPI существуют, но поддержка в моделях слабая, и качество не гарантировано.

Если у тебя AMD Radeon или Intel Arc — модели запустятся на CPU, не на GPU. Это медленнее, но работает. Для русского с GigaAM v3 разницы не заметишь (CPU и так быстрая). Для Whisper Medium на длинных аудио — будет 3-7 секунд вместо 100-300 мс.

Безопасность

Локальное распознавание решает три класса утечек:

  1. Никто не знает что ты говорил. Голос обработался у тебя на компе и удалился. Облачные сервисы могут логировать содержимое (даже если обещают что нет), могут утечь, могут передать по запросу
  2. Метаданные не утекают. Облако знает: твой IP, время, длительность аудио, язык, иногда — биометрические признаки голоса. Локально это не выходит за пределы твоего диска
  3. Цензура не работает. Если ты в стране где облачное распознавание заблокировано или мониторится — локально это обойти нельзя по техническим причинам

Реальный пример: как это устроено в AuroraWhisp

AuroraWhisp использует Sherpa-ONNX (для русского — GigaAM v3, для английского — Zipformer) + Whisper (для остальных языков и тяжёлых задач).

Pipeline:

  1. Запись аудио — драйвер микрофона, 16 кГц, mono, ~30 КБ в секунду
  2. VAD (Voice Activity Detection) — обрезает тишину в начале и конце
  3. Feature extraction — преобразует аудио в спектрограмму (Mel-Frequency Cepstral Coefficients)
  4. Inference — пропускает спектрограмму через нейросеть (Sherpa-ONNX или ctranslate2 для Whisper)
  5. Decoding — преобразует выход модели в последовательность токенов, потом в текст
  6. Post-processing — расстановка пунктуации, заглавных букв, кастомные replacement-правила

Всё это происходит на твоём CPU за 100-300 мс на короткой фразе. Никаких сетевых запросов, никакой телеметрии, никаких аккаунтов.

Установщик 97 МБ. Модель GigaAM v3 для русского — ещё 320 МБ, скачивается при первом запуске и потом не нужна (один раз скачал — работает офлайн).

Когда облако всё ещё лучше

Будем честны: облако имеет преимущества в трёх сценариях:

  1. Очень редкие языки. Whisper умеет 99 языков, но для каких-то — точность ниже облака. Если тебе нужен суахили или вьетнамский — Google STT может быть точнее
  2. AI-постобработка. Wispr Flow на Mac делает не просто распознавание, но и AI-чистку: убирает «эээ», адаптирует стиль под Slack vs email vs Notion. Локально такого пока нет
  3. Слабое железо. Если у тебя 2 ГБ RAM и старый процессор без AVX2 — современные модели не запустятся. Облаку всё равно

В остальных случаях — локально лучше.

Итого

Локальное распознавание речи перестало быть компромиссом. На обычном ноутбуке за 2013+ год оно работает за 150 мс на русском, за 100-300 мс на английском с GPU. Качество — на уровне облачных сервисов или близко.

Это значит: голосовой ввод текста, диктовка длинных документов, транскрипция аудиозаписей — всё это можно делать на своей машине, без облака, без подписки, без передачи голоса третьим сторонам.

Если хочешь попробовать — AuroraWhisp бесплатна (10 000 слов в день навсегда). Скачивается за минуту, ставится без регистрации, работает офлайн.

Голос быстрее клавиатуры. Попробуй.

Есть бесплатная версия