Win+H плохо распознаёт: 4 причины и что делать

Встроенный голосовой ввод Windows 11 (Win+H) часто работает плохо. Разбираемся, почему: микрофон, акцент, интернет, языковые настройки. И что с этим делать.

Если ты нажал Win+H, начал диктовать, а в текст попадает ерунда — ты не один. Встроенный голосовой ввод Windows 11 действительно работает хуже, чем мог бы. Разбираемся, почему именно у тебя плохо, и как починить.

Как устроен Win+H (облако Microsoft, лимиты)

Прежде чем чинить, разберёмся как Win+H работает «под капотом».

Когда ты нажимаешь Win+H:

  1. Windows захватывает аудио с микрофона
  2. Аудио кусками отправляется в Microsoft Cloud (Azure Cognitive Services Speech-to-Text)
  3. Облачная модель распознаёт речь
  4. Текст возвращается на компьютер
  5. Текст вставляется в активное окно

В этой цепочке несколько уязвимых мест: микрофон (шаг 1), сеть (шаг 2-4), модель Microsoft (шаг 3), системные языковые настройки (шаг 5). Большинство проблем приходится на шаги 1 и 2-4.

Лимиты, о которых редко пишут:

  • На бесплатном Microsoft-аккаунте есть квота на голосовой ввод (точные числа Microsoft не публикует, но при интенсивной диктовке в течение часа можно упереться в throttling)
  • Без подключённого Microsoft-аккаунта Win+H работает в ограниченном режиме
  • Качество распознавания на разных языках сильно разное — приоритет у американского английского

Причина 1: микрофон и шум

Самая частая причина плохого распознавания — не плохая модель Microsoft, а плохой микрофон или плохие условия записи.

Встроенный микрофон ноутбука обычно расположен у клавиатуры или у экрана. Это значит:

  • Он ловит звук набора текста (который ты можешь делать руками параллельно с диктовкой)
  • Он ловит вентиляторы ноутбука
  • Расстояние до твоего рта 30-50 см, что для голосового распознавания далеко
  • В ноутбуке часто стоит дешёвый MEMS-микрофон с шумодавом, который может «съедать» окончания слов

Что делать:

  • Купи USB-гарнитуру за 1 500-3 000 ₽ или клипсу-петличку за 800-1 500 ₽. Микрофон в 15-20 см от рта поднимет качество распознавания на 30-50%
  • Закрой окно (трафик за окном — главный источник фонового шума)
  • Выключи кондиционер на время диктовки — его постоянный гул модели иногда воспринимают как речь
  • Сядь спиной к стене — это снижает реверберацию, которая мешает моделям

В Windows протестировать микрофон можно: Settings → System → Sound → Test your microphone. Должно показывать ровную полосу при обычной речи, без обрывов и шумов на тихих участках.

Причина 2: акцент и редкие слова

Модель Microsoft обучена в основном на американском английском и стандартных диалектах русского, немецкого, французского и т.д. Если ты говоришь:

  • На английском с заметным акцентом (русским, индийским, испанским, французским) — будут ошибки
  • На «кавказском русском», «уральском русском», с диалектными особенностями — будут ошибки
  • Используешь редкие имена, IT-термины, названия продуктов — будут ошибки

Что делать:

  • Если у тебя сильный акцент во втором языке — попробуй переключиться на распознавание в первом языке через Settings → Time & Language → Speech → Speech language. Иногда работает.
  • Для редких слов — Win+H предлагает добавление в системный словарь: правый клик → Add to dictionary. Но это работает только для отдельных слов, не для фраз.
  • Если ничего не помогает — это структурное ограничение Win+H. Локальные модели вроде Sherpa GigaAM v3 (для русского) или Whisper Medium (для других языков) часто справляются с акцентами лучше, потому что обучены на более разнородных данных.

Причина 3: интернет и латентность

Win+H требует активного интернет-соединения. Это значит:

  • На медленном интернете (3G, перегруженный Wi-Fi кафе) — задержка между концом фразы и появлением текста 1-3 секунды. И это в идеале, без потери пакетов.
  • При нестабильной сети распознавание иногда «обрывается» посередине фразы — Microsoft не получает кусок аудио, и в тексте появляется бессмысленное продолжение.
  • В самолётах, поездах, удалённых местах Win+H просто не работает.
  • В офисах с агрессивным firewall, который блокирует определённые Azure-эндпоинты, Win+H тоже отказывает.

Что делать:

  • Перейди на проводное соединение, если есть возможность. Wi-Fi всегда хуже Ethernet для real-time распознавания
  • Открой Speedtest, проверь ping до твоего региона. Если >100 мс — у тебя слишком далеко до Microsoft-датацентра, и Win+H будет лагать
  • Закрой фоновые сетевые программы (Steam, Dropbox, OneDrive, Spotify) — они иногда забивают канал
  • Если интернет медленный или нестабильный по объективным причинам — это веская причина искать локальную альтернативу. Local-only программы вроде AuroraWhisp работают независимо от сети

Причина 4: язык системы vs язык речи

Win+H использует Speech language из системных настроек. Если у тебя:

  • System Language English (United States)
  • Speech Language English (United States)
  • А ты диктуешь на русском

— модель будет пытаться расслышать русский как английский. Получится мусор.

Что делать:

  • Проверь Settings → Time & Language → Speech → Speech language
  • Установи нужный язык (например, Russian (Russia))
  • Возможно, потребуется скачать дополнительный пакет распознавания (Speech feature)
  • Перезапусти Win+H — он подцепит новый язык

Тонкость: Win+H не поддерживает быстрое переключение между языками. Если ты диктуешь то на русском, то на английском в течение дня — придётся каждый раз менять Speech language в настройках. Это занимает минуту, но раздражает. В локальных программах с поддержкой нескольких языков (AuroraWhisp, Wispr Flow) переключение делается одним хоткеем.

Когда стоит сменить инструмент

Если ты прошёлся по всем четырём причинам и ничего не починилось — Win+H не для тебя. Альтернативы:

Бесплатные:

  • Google Voice Typing (через Google Docs) — облачное, но качество русского лучше Microsoft
  • Speechpad — российский веб-сервис, бесплатный, но требует браузер

Платные:

  • AuroraWhisp — локальное распознавание, $19.90 один раз, 15 языков. Скачать
  • WhispeRu — только русский, 4 990 ₽ или подписка
  • Dragon Home — $200, для медиков и юристов, английский в основном

Если у тебя простые задачи (короткие сообщения, заметки) — попробуй Google Voice Typing. Если работа серьёзная — переходи на локальные программы. Win+H хорошо для эпизодического использования, плохо как основной инструмент.


Связанное:

Голос быстрее клавиатуры. Попробуй.

Есть бесплатная версия