Голосовой ввод в Windows 11 без интернета: как и зачем

Как настроить локальный голосовой ввод на Windows 11, который работает без облака. Что такое локальное распознавание, какие модели подходят, минимальные требования к железу, шаги настройки за 3 минуты.

Встроенный голосовой ввод Windows 11 (Win+H) работает только с интернетом. Он отправляет твой голос на серверы Microsoft, обрабатывает его в облаке и возвращает текст. Если интернета нет — ты остаёшься без голосового ввода. Если интернет есть, но медленный — будешь ждать каждую фразу.

Альтернатива — локальное распознавание. Программа распознаёт речь прямо на твоём компьютере, без отправки куда-либо. В этой статье — как это работает, что нужно от железа и как настроить за 3 минуты.

Что такое локальное распознавание речи

Локальное распознавание (или offline-ASR — automatic speech recognition) — это когда модель распознавания речи лежит у тебя на диске, и алгоритм работает на твоём процессоре или видеокарте. Никаких сетевых запросов в момент диктовки.

Технически это работает так: модель — это файл размером от 85 МБ до 3 ГБ, обученный на тысячах часов размеченной речи. При диктовке программа берёт твоё аудио (микрофонный поток в виде PCM-данных), пропускает через модель, получает текст. Время — десятки или сотни миллисекунд, в зависимости от модели и железа.

В отличие от облачного распознавания, локальное:

  • Работает без интернета вообще
  • Не отправляет твой голос третьим лицам
  • Имеет постоянную предсказуемую задержку (нет проблем с лагами сети)
  • Не зависит от изменений тарифов и условий облачного сервиса

Минусы локального:

  • Программа занимает 200-500 МБ + модели 85 МБ-3 ГБ
  • Тяжёлые модели (Whisper Medium, Large) грузят CPU/GPU
  • Точность для редких языков может быть ниже, чем у крупных облачных сервисов

Для русского, английского и большинства европейских языков локальные модели сравнялись с облачными по качеству ещё в 2024 году. Для русского, в частности, есть модель GigaAM v3 от Сбера, которая распознаёт лучше чем Win+H и быстрее чем Wispr Flow.

Почему Win+H требует интернет

Microsoft никогда явно не объясняла, почему Win+H работает только онлайн, но архитектурная причина прозрачна: их модель распознавания живёт в Azure Cognitive Services, а не на твоём компьютере. Это даёт Microsoft несколько преимуществ:

  • Они контролируют качество модели и могут её обновлять без выпуска Windows-апдейтов
  • Они могут собирать диктовки для тренировки следующих версий моделей (см. их Privacy Statement, раздел Speech, Inking & Typing)
  • Они экономят место на диске пользователя

Минусы для тебя:

  • Без интернета Win+H не работает
  • Каждая фраза идёт через сеть туда-обратно (минимум 100-300 мс задержки только на сеть, плюс время распознавания на их сервере)
  • На медленном интернете задержка вырастает в секунды
  • Голос уходит в Microsoft Cloud — это есть в политике приватности

Какие модели работают офлайн

Три семейства моделей популярны для локального распознавания на Windows:

Whisper от OpenAI — открытая модель в нескольких размерах: Tiny (75 МБ), Base (145 МБ), Small (460 МБ), Medium (1.5 ГБ), Large-v3 (3 ГБ). Tiny и Base достаточно быстрые на CPU, Medium и Large комфортно работают только на NVIDIA GPU с CUDA. Поддерживают около 100 языков, но качество сильно зависит от языка и размера модели. Для русского рекомендуется минимум Whisper Small.

Sherpa-ONNX модели — пакет open-source streaming-моделей. Особо выделяются:

  • GigaAM v3 (русский, 320 МБ) — модель от Сбера, переконвертированная под ONNX. Распознаёт 5-секундную фразу за ~150 мс на обычном CPU без GPU
  • T-one Russian (144 МБ) — ещё быстрее: 32 мс на 5 секунд
  • Zipformer English (85 МБ) — для английского, ~150 мс на CPU

Distil-Whisper Large-v3 (1.5 ГБ) — дистиллированная версия Whisper Large для английского. Быстрее в 2× на том же железе, точность почти такая же.

Если ты диктуешь по-русски — твой выбор GigaAM v3. Если по-английски — Zipformer. Если на других языках или нужно максимальное качество — Whisper Medium/Large на GPU.

Минимальные требования к железу

Для комфортной работы локального голосового ввода нужны:

  • Windows 10 build 1809 или Windows 11, 64-bit
  • CPU с инструкциями AVX2: Intel Core i3-3xxx (2013) и новее, AMD Ryzen и новее. Любой процессор последних 10 лет подходит
  • RAM: минимум 4 ГБ для лёгких моделей (Whisper Tiny / Sherpa-модели), 8 ГБ для Whisper Small, 16 ГБ для Medium/Large
  • Диск: 1 ГБ на программу + 85 МБ-3 ГБ на модель в зависимости от выбора
  • Микрофон: любой встроенный или USB. Гарнитура даёт лучшее качество в шумной комнате
  • GPU (опционально): NVIDIA с CUDA 12.x — позволяет использовать Whisper Large-v3 за 100-300 мс. Без GPU тяжёлые Whisper-модели работают, но медленно (3-7 секунд на фразу)

Интегрированная видеокарта Intel HD / AMD Vega не даёт ускорения для распознавания речи в текущих open-source реализациях. Но это не блокер — Sherpa-модели для русского и английского работают на CPU за 150 мс, что комфортно.

Как настроить за 3 минуты

Конкретный пример с AuroraWhisp — программой, которая объединяет Sherpa и Whisper в одном интерфейсе. Любая другая программа с локальным распознаванием настраивается похоже.

  1. Скачай установщик с aurorawhisp.com — 97 МБ, без регистрации
  2. Запусти. При первом запуске Windows может показать SmartScreen «неизвестный издатель» — это потому что exe пока не подписан code-signing-сертификатом. Кликни «Подробнее → Выполнить в любом случае»
  3. Установщик: пройди wizard — язык, EULA, папка установки, ярлыки. Нажимай «Далее»
  4. Программа стартует. На первом запуске она читает локаль Windows и предлагает соответствующую модель: для русской Windows — GigaAM v3, для английской — Zipformer English, для других — соответствующий Whisper. Скачивание модели — разовая операция (85-320 МБ), идёт в фоне
  5. Хоткей по умолчанию — Ctrl+Space. Можно поменять в Settings → Hotkeys. Многие RSI-юзеры ставят F9 (одна клавиша) или комбинацию с педалью
  6. Готово. Иконка появилась в трее. Зажми хоткей, скажи фразу, отпусти — текст вставится в активное окно

После шага 6 интернет программе больше не нужен. Можешь отрезать её через Windows Defender Firewall — продолжит работать.

Push-to-talk vs always-on

Два режима диктовки. Push-to-talk (PTT): держишь клавишу — программа слушает, отпустил — вставила текст. Это режим по умолчанию у AuroraWhisp и большинства локальных программ. Преимущество — программа слушает только когда ты этого хочешь.

Always-on: программа постоянно слушает, расшифровывает всё подряд. Удобно для длинной диктовки без перерывов, но психологически тяжелее (микрофон постоянно «открыт») и съедает больше CPU. Рекомендуется выбирать PTT и подключать always-on только если работа требует.

Что НЕ умеет офлайн-режим

Стоит честно сказать, чего у локального распознавания нет:

  • Облачная синхронизация словарей между устройствами — если добавил кастомное слово на одном ПК, на другом надо добавить заново. Связано с тем, что у offline-программ обычно нет аккаунта
  • Real-time коллаборация в Google Docs / Office 365 — текст появляется как обычный набор клавиатурой, никакой специальной интеграции с облачными редакторами нет
  • Очень редкие языки (исландский, валлийский, баскский) — Whisper их формально поддерживает, но качество слабое
  • Code-switching посередине фразы (смесь языков в одном предложении) — современные модели всё ещё ошибаются на этом

Если тебе нужно что-то из этого — облачные сервисы вроде Wispr Flow или Google Cloud STT справятся лучше. Но для типичного «надиктовать абзац в Word» или «ответить голосом в Telegram» локальное распознавание подходит идеально и работает где угодно — даже в самолёте.


Подробнее про AuroraWhisp:

Голос быстрее клавиатуры. Попробуй.

Есть бесплатная версия