Голосовой ввод в Windows 11 без интернета: как и зачем
Как настроить локальный голосовой ввод на Windows 11, который работает без облака. Что такое локальное распознавание, какие модели подходят, минимальные требования к железу, шаги настройки за 3 минуты.
Встроенный голосовой ввод Windows 11 (Win+H) работает только с интернетом. Он отправляет твой голос на серверы Microsoft, обрабатывает его в облаке и возвращает текст. Если интернета нет — ты остаёшься без голосового ввода. Если интернет есть, но медленный — будешь ждать каждую фразу.
Альтернатива — локальное распознавание. Программа распознаёт речь прямо на твоём компьютере, без отправки куда-либо. В этой статье — как это работает, что нужно от железа и как настроить за 3 минуты.
Что такое локальное распознавание речи
Локальное распознавание (или offline-ASR — automatic speech recognition) — это когда модель распознавания речи лежит у тебя на диске, и алгоритм работает на твоём процессоре или видеокарте. Никаких сетевых запросов в момент диктовки.
Технически это работает так: модель — это файл размером от 85 МБ до 3 ГБ, обученный на тысячах часов размеченной речи. При диктовке программа берёт твоё аудио (микрофонный поток в виде PCM-данных), пропускает через модель, получает текст. Время — десятки или сотни миллисекунд, в зависимости от модели и железа.
В отличие от облачного распознавания, локальное:
- Работает без интернета вообще
- Не отправляет твой голос третьим лицам
- Имеет постоянную предсказуемую задержку (нет проблем с лагами сети)
- Не зависит от изменений тарифов и условий облачного сервиса
Минусы локального:
- Программа занимает 200-500 МБ + модели 85 МБ-3 ГБ
- Тяжёлые модели (Whisper Medium, Large) грузят CPU/GPU
- Точность для редких языков может быть ниже, чем у крупных облачных сервисов
Для русского, английского и большинства европейских языков локальные модели сравнялись с облачными по качеству ещё в 2024 году. Для русского, в частности, есть модель GigaAM v3 от Сбера, которая распознаёт лучше чем Win+H и быстрее чем Wispr Flow.
Почему Win+H требует интернет
Microsoft никогда явно не объясняла, почему Win+H работает только онлайн, но архитектурная причина прозрачна: их модель распознавания живёт в Azure Cognitive Services, а не на твоём компьютере. Это даёт Microsoft несколько преимуществ:
- Они контролируют качество модели и могут её обновлять без выпуска Windows-апдейтов
- Они могут собирать диктовки для тренировки следующих версий моделей (см. их Privacy Statement, раздел Speech, Inking & Typing)
- Они экономят место на диске пользователя
Минусы для тебя:
- Без интернета Win+H не работает
- Каждая фраза идёт через сеть туда-обратно (минимум 100-300 мс задержки только на сеть, плюс время распознавания на их сервере)
- На медленном интернете задержка вырастает в секунды
- Голос уходит в Microsoft Cloud — это есть в политике приватности
Какие модели работают офлайн
Три семейства моделей популярны для локального распознавания на Windows:
Whisper от OpenAI — открытая модель в нескольких размерах: Tiny (75 МБ), Base (145 МБ), Small (460 МБ), Medium (1.5 ГБ), Large-v3 (3 ГБ). Tiny и Base достаточно быстрые на CPU, Medium и Large комфортно работают только на NVIDIA GPU с CUDA. Поддерживают около 100 языков, но качество сильно зависит от языка и размера модели. Для русского рекомендуется минимум Whisper Small.
Sherpa-ONNX модели — пакет open-source streaming-моделей. Особо выделяются:
- GigaAM v3 (русский, 320 МБ) — модель от Сбера, переконвертированная под ONNX. Распознаёт 5-секундную фразу за ~150 мс на обычном CPU без GPU
- T-one Russian (144 МБ) — ещё быстрее: 32 мс на 5 секунд
- Zipformer English (85 МБ) — для английского, ~150 мс на CPU
Distil-Whisper Large-v3 (1.5 ГБ) — дистиллированная версия Whisper Large для английского. Быстрее в 2× на том же железе, точность почти такая же.
Если ты диктуешь по-русски — твой выбор GigaAM v3. Если по-английски — Zipformer. Если на других языках или нужно максимальное качество — Whisper Medium/Large на GPU.
Минимальные требования к железу
Для комфортной работы локального голосового ввода нужны:
- Windows 10 build 1809 или Windows 11, 64-bit
- CPU с инструкциями AVX2: Intel Core i3-3xxx (2013) и новее, AMD Ryzen и новее. Любой процессор последних 10 лет подходит
- RAM: минимум 4 ГБ для лёгких моделей (Whisper Tiny / Sherpa-модели), 8 ГБ для Whisper Small, 16 ГБ для Medium/Large
- Диск: 1 ГБ на программу + 85 МБ-3 ГБ на модель в зависимости от выбора
- Микрофон: любой встроенный или USB. Гарнитура даёт лучшее качество в шумной комнате
- GPU (опционально): NVIDIA с CUDA 12.x — позволяет использовать Whisper Large-v3 за 100-300 мс. Без GPU тяжёлые Whisper-модели работают, но медленно (3-7 секунд на фразу)
Интегрированная видеокарта Intel HD / AMD Vega не даёт ускорения для распознавания речи в текущих open-source реализациях. Но это не блокер — Sherpa-модели для русского и английского работают на CPU за 150 мс, что комфортно.
Как настроить за 3 минуты
Конкретный пример с AuroraWhisp — программой, которая объединяет Sherpa и Whisper в одном интерфейсе. Любая другая программа с локальным распознаванием настраивается похоже.
- Скачай установщик с aurorawhisp.com — 97 МБ, без регистрации
- Запусти. При первом запуске Windows может показать SmartScreen «неизвестный издатель» — это потому что exe пока не подписан code-signing-сертификатом. Кликни «Подробнее → Выполнить в любом случае»
- Установщик: пройди wizard — язык, EULA, папка установки, ярлыки. Нажимай «Далее»
- Программа стартует. На первом запуске она читает локаль Windows и предлагает соответствующую модель: для русской Windows — GigaAM v3, для английской — Zipformer English, для других — соответствующий Whisper. Скачивание модели — разовая операция (85-320 МБ), идёт в фоне
- Хоткей по умолчанию — Ctrl+Space. Можно поменять в Settings → Hotkeys. Многие RSI-юзеры ставят F9 (одна клавиша) или комбинацию с педалью
- Готово. Иконка появилась в трее. Зажми хоткей, скажи фразу, отпусти — текст вставится в активное окно
После шага 6 интернет программе больше не нужен. Можешь отрезать её через Windows Defender Firewall — продолжит работать.
Push-to-talk vs always-on
Два режима диктовки. Push-to-talk (PTT): держишь клавишу — программа слушает, отпустил — вставила текст. Это режим по умолчанию у AuroraWhisp и большинства локальных программ. Преимущество — программа слушает только когда ты этого хочешь.
Always-on: программа постоянно слушает, расшифровывает всё подряд. Удобно для длинной диктовки без перерывов, но психологически тяжелее (микрофон постоянно «открыт») и съедает больше CPU. Рекомендуется выбирать PTT и подключать always-on только если работа требует.
Что НЕ умеет офлайн-режим
Стоит честно сказать, чего у локального распознавания нет:
- Облачная синхронизация словарей между устройствами — если добавил кастомное слово на одном ПК, на другом надо добавить заново. Связано с тем, что у offline-программ обычно нет аккаунта
- Real-time коллаборация в Google Docs / Office 365 — текст появляется как обычный набор клавиатурой, никакой специальной интеграции с облачными редакторами нет
- Очень редкие языки (исландский, валлийский, баскский) — Whisper их формально поддерживает, но качество слабое
- Code-switching посередине фразы (смесь языков в одном предложении) — современные модели всё ещё ошибаются на этом
Если тебе нужно что-то из этого — облачные сервисы вроде Wispr Flow или Google Cloud STT справятся лучше. Но для типичного «надиктовать абзац в Word» или «ответить голосом в Telegram» локальное распознавание подходит идеально и работает где угодно — даже в самолёте.
Подробнее про AuroraWhisp: