Ваш браузер не поддерживает голосовой ввод

Обновлено: 09.01.2026

Преобразование речи в текст | Скачать

Простой в использовании инструмент синтеза и распознавания речи для вашего браузера!

Некоторые важные функции надстройки Speech to Text перечислены ниже. Затем следует обзор этого дополнения. Это резюме содержит несколько слов об аддоне, его функциях и возможностях. Далее идет FAQ, этот раздел полезен для получения информации о том, как этот аддон работает в вашем браузере. Если вы не смогли найти конкретный ответ, заполните форму отчета об ошибке на этой странице или контактную форму на главной странице, чтобы сообщить нам о своем вопросе. После часто задаваемых вопросов находится форма отчета об ошибке. Он предназначен для сбора отзывов пользователей и ошибок об этом дополнении. Пользователи также могут предлагать улучшения или запросы функций через эту форму. Следующий раздел предназначен для отправки комментариев об этом дополнении, которое использует плагин комментариев Facebook. Последний раздел посвящен отчетам, отправленным через веб-сайт GitHub. Мы надеемся, что информация, представленная на этой странице, поможет вам получить все необходимые сведения об этом дополнении и улучшить работу с преобразованием речи в текст.

Короче говоря, Speech to Text — это инструмент для преобразования речи в текст, который работает в вашем браузере без подключения к Интернету. Пожалуйста, ознакомьтесь с учебным пособием YouTube ниже, чтобы получить представление о том, как это дополнение работает в вашем браузере. Если вы хотите внести свой вклад в разработку этого дополнения, разветвите его на GitHub и отправьте свои изменения в именованную ветку. Кроме того, вы можете просмотреть все комментарии, сделанные в коммитах GitHub.

5 причин использовать преобразование речи в текст

Простые в использовании инструменты синтеза речи для вашего браузера.

Поддерживает несколько языков и диалектов.

Работает в автономном режиме (подключение к Интернету не требуется).

Имеет отдельное всплывающее окно без фоновых действий.

Доступно только для браузера Chrome во всех операционных системах.

Это видео дает вам представление о том, как расширение работает в вашем браузере.

Часто задаваемые вопросы

<р>1. Что такое преобразование речи в текст?

Речь в текст (Распознавание голоса) – это надстройка, помогающая преобразовывать речь в текст. Он может распознавать самые разные языки и родственные диалекты. Просто откройте пользовательский интерфейс надстройки и нажмите на значок микрофона, чтобы начать преобразование вашего голоса в текст. Обратите внимание, что при первом запуске аддон запрашивает разрешение на использование микрофона. Пожалуйста, примите разрешение, чтобы начать работу с аддоном. Весь синтезированный текст помещается в верхнюю область текстового поля пользовательского интерфейса. Просто скопируйте текст и вставьте его в любое место. Этот аддон не имеет фоновой активности, когда он закрыт. Кроме того, для работы не требуется подключение к интернету. Прочтите приведенные ниже вопросы и ответы, чтобы получить дополнительную информацию об этом дополнении.

<р>2. Как я могу работать с этим дополнением?

Как упоминалось выше, после добавления дополнения в браузер нажмите кнопку на панели инструментов, чтобы открыть пользовательский интерфейс. После отображения пользовательского интерфейса вы можете щелкнуть большой значок микрофона, чтобы начать процесс синтеза. Пока аддон работает, значок микрофона будет мигать с красного на белый цвет. Повторный щелчок по значку микрофона остановит операцию распознавания. Теперь вы можете скопировать текст из верхней области и использовать его где угодно. Обратите внимание, что перед использованием аддона обязательно настройте язык и диалект в раскрывающихся списках. Язык по умолчанию — английский, а диалект — США. Как упоминалось выше, для работы этого дополнения требуется разрешение микрофона. Поэтому убедитесь, что вы приняли всплывающее окно с разрешением при первом открытии пользовательского интерфейса.

<р>3. Как загрузить исходный код для преобразования речи в текст?

Для загрузки исходного кода этого расширения из Интернет-магазина Chrome рекомендуется использовать Extension Source Downloader. С помощью этого дополнения вы можете загрузить исходный код в формате ZIP или CRX на свой компьютер. Если вы хотите загрузить исходный код из магазина дополнений Firefox, откройте ссылку для загрузки Firefox (если она доступна) в браузере Firefox, а затем щелкните правой кнопкой мыши кнопку «Добавить в Firefox» и выберите «Сохранить ссылку как». - пункт. Выберите папку назначения на вашем компьютере, а затем сохраните файл в формате XPI. Затем вы можете переименовать формат XPI в файл RAR или ZIP. У некоторых расширений может быть адрес репозитория GitHub, который вы также можете использовать для загрузки исходного кода. Но, возможно, это не последняя версия аддона. Таким образом, загрузка исходного кода из официальных интернет-магазинов — лучший вариант, так как вы всегда получите последнюю версию дополнения.

<р>4. Что лежит в основе инструмента распознавания голоса?

Это дополнение использует стандартный API синтеза речи HTML5. Этот API в настоящее время работает в браузере Chrome. Поэтому этот аддон сделан только для браузера Chrome.В будущем, когда API станет доступным для других браузеров (Firefox и Opera), этот аддон будет выпущен и для них.

<р>5. Где находятся настройки этого дополнения?

Это дополнение не имеет отдельной страницы настроек. Все настройки доступны в пользовательском интерфейсе. В настоящее время существует только одна настройка языка ввода. После открытия пользовательского интерфейса настройте язык и диалект. Также обратите внимание, что все изменения автоматически сохраняются в памяти.

<р>6. Почему этот аддон доступен только для браузера Chrome?

Как упоминалось выше, поскольку API синтеза речи HTML5 в настоящее время работает для браузера Chrome, это дополнение выпущено только для браузера Chrome. В будущем, когда другие браузеры будут поддерживать этот API, дополнение будет выпущено и для них.

<р>7. Как мне скопировать окончательный результат?

После завершения операции распознавания выберите текст в верхней текстовой области и вставьте его в любое место. В Windows-машине вы можете использовать комбинацию клавиш (Ctrl + C), чтобы скопировать текст. В Mac вместо этого вы можете использовать комбинацию (Control + C). Для вставки текста можно использовать комбинацию (Ctrl + V).

<р>8. Почему этот аддон иногда не распознает голос?

Распознавание голоса — очень сложная операция. Эта технология довольно новая и все еще разрабатывается интернет-сообществом. Поэтому вы можете увидеть некоторые ошибки, ошибки или неправильные результаты. В будущем при обновлении API этот аддон будет обновляться автоматически, поскольку он использует базовый API HTML5.

<р>9. Могу ли я использовать дополнение в своем мобильном браузере?

В целом это дополнение работает как на мобильных, так и на настольных компьютерах. Но, поскольку он работает только в браузере Chrome, а у Chrome нет мобильной версии, в настоящее время нет возможности использовать надстройку на мобильном устройстве.

Ваши отзывы помогут сделать это дополнение еще лучше. С помощью этой формы отчета об ошибках вы можете сообщать об ошибках или предлагать улучшения для функциональности или производительности этого дополнения. Обратите внимание, что эта форма отчета об ошибке будет отправлена разработчикам этого дополнения. Вы не получите немедленного или личного ответа в данный момент. Тем не менее, разработчики могут связаться с вами по адресу электронной почты, указанному в этой форме, для получения дополнительных разъяснений или запроса дополнительной информации об обнаруженных ошибках.

Спасибо! Ваш отчет отправлен.

Обратите внимание: держите эти обзоры/обсуждения в чистоте и избегайте использования уничижительного или неуместного языка или терминологии в ссылках на отдельных лиц или группы на основе расы, национального или этнического происхождения, цвета кожи, религии, возраста, пола и т. д. не сообщайте об ошибках в своих обзорах, вместо этого используйте приведенный выше раздел отчетов об ошибках. Кроме того, никогда не публикуйте в этих отзывах личную информацию.

Read&Write для Google Chrome имеет функцию диктовки на панели инструментов под названием Talk&Type (ранее Speech Input), которая позволяет открывать голосовой ввод Chrome для диктовки текста в Документах Google.

Включить доступ к микрофону

Если ваш микрофон не работает с Talk&Type, сначала убедитесь, что у вас включен доступ к микрофону.

Нажмите кнопку Talk&Type на панели инструментов Read&Write для Google Chrome:

В адресной строке Chrome должен появиться значок видеокамеры.

Если значок камеры отмечен красным крестиком, это означает, что доступ к вашему микрофону заблокирован.

Вы также должны проверить раскрывающийся список "Микрофон", чтобы убедиться, что выбран правильный микрофон для вашего устройства.

Нажмите "Готово", чтобы применить изменения, а затем обновите страницу, чтобы применить настройки.

Проверить голосовой ввод

Если микрофон включен, но вы по-прежнему не можете диктовать, проверьте, доступен ли вам голосовой ввод Chrome в Документах Google, выбрав Инструменты > Голосовой ввод:

Если голосовой ввод неактивен, сначала убедитесь, что Chrome обновлен, набрав chrome://help в адресной строке.

Если Chrome обновлен, но вы по-прежнему не можете включить голосовой ввод, проверьте, не выбран ли для документа язык, который не поддерживается для голосового ввода:

Нажмите «Файл» > «Язык».
Если для документа выбран неподдерживаемый язык, измените его на другой поддерживаемый язык. (Попробуйте любую версию на английском языке)
Обновите страницу, чтобы применить настройку.
Затем вы можете проверить, выбрав Инструменты > Голосовой ввод, и он должен быть активен, если язык поддерживается.

Если ни один из выбранных вами языков не поддерживает голосовой ввод, вероятно, голосовой ввод блокируется фильтром в домене Google вашей организации. Вам нужно будет обратиться к администратору Google или сети, чтобы убедиться, что голосовой ввод заблокирован.

Google Voice Typing – это бесплатный инструмент для диктовки документов Google Docs и Google Slides, онлайн-текстового процессора Google и приложений для презентаций. Чтобы использовать его, вы должны быть подключены к Интернету через браузер Google Chrome на устройствах Windows, MacOS или Chromebook. Голосовой ввод также доступен на устройствах Google Android.

Настройте микрофон

У вашего компьютера может быть встроенный микрофон, но обычно вы получаете лучшие результаты с внешним микрофоном. Мы рекомендуем использовать хороший USB-микрофон, например, микрофон Andrea NC 181VM (29,95 фунтов стерлингов от Iansyst). Подключите микрофон и убедитесь, что он настроен и работает:

Windows 7:
1. На рабочем столе нажмите клавишу Windows + U или нажмите кнопку "Пуск" > "Панель управления" > "Специальные возможности доступа" > "Распознавание речи".
2. Выполните процедуру, чтобы убедиться, что выбран правильный микрофон и что он работает.
Windows 10
1. Нажмите кнопку «Пуск» > «Панель управления» > «Специальные возможности». Введите «Речь» в поле «Найти настройку», выберите «Распознавание речи», а затем «Настроить микрофон».
2. Выполните процедуру, чтобы убедиться, что выбран правильный микрофон и что он работает.
MacOS
1. Нажмите значок Apple в левом верхнем углу экрана, затем выберите "Системные настройки", а затем "Звук".
2. Нажмите «Вход» и убедитесь, что выбран правильный микрофон — убедитесь, что индикатор уровня входного сигнала значительно перемещается, когда вы говорите.
Chromebook
1. Откройте "Настройки" > "Дополнительные настройки" > "Конфиденциальность" > "Настройки контента" и убедитесь, что микрофон доступен.
2. В наших тестах мы просто подключали USB-микрофон, и он автоматически распознавался и был готов к использованию.

Начало работы с голосовым вводом Google

Диктовка с помощью голосового набора Google

Включите микрофон, надиктуйте текст, а когда закончите, выключите его.

Вы можете заметить небольшую задержку перед тем, как голосовой ввод наберет вашу диктовку, потому что распознавание происходит через Интернет на удаленном компьютере Google.

Если вы допустили ошибку во время диктовки или функция голосового ввода неточно распознала то, что вы говорите, вы можете навести курсор на ошибку и исправить ее, не выключая микрофон. Например, вы можете сказать "Отменить", чтобы отменить последнюю команду, или выбрать ненужный текст и сказать "Удалить".

Слова, которые могут быть распознаны неправильно, подчеркнуты серым цветом: щелкните правой кнопкой мыши, чтобы увидеть возможные варианты.

Новый JavaScript Web Speech API упрощает добавление распознавания речи на ваши веб-страницы. Этот API обеспечивает точное управление и гибкость возможностей распознавания речи в Chrome версии 25 и более поздних. Вот пример, когда распознанный текст появляется почти сразу во время разговора.

Давайте заглянем под капот. Сначала мы проверяем, поддерживает ли браузер Web Speech API, проверяя, существует ли объект webkitSpeechRecognition. Если нет, мы предлагаем пользователю обновить свой браузер. (Поскольку API все еще экспериментальный, в настоящее время он имеет префикс поставщика.) Наконец, мы создаем объект webkitSpeechRecognition, который предоставляет речевой интерфейс, и устанавливаем некоторые его атрибуты и обработчики событий.

Значение по умолчанию для Continuous равно false. Это означает, что когда пользователь перестанет говорить, распознавание речи прекратится. Этот режим отлично подходит для простого текста, такого как короткие поля ввода. В этой демонстрации мы установили значение true, чтобы распознавание продолжалось, даже если пользователь делает паузу во время разговора.

Значение по умолчанию для interimResults равно false, что означает, что единственные результаты, возвращаемые распознавателем, являются окончательными и не изменятся. Демонстрация устанавливает его в значение true, поэтому мы получаем ранние промежуточные результаты, которые могут измениться. Внимательно посмотрите демонстрацию: серый текст — это промежуточный текст, который иногда меняется, тогда как черный текст — это ответы от распознавателя, которые помечены как окончательные и не изменятся.

Чтобы начать, пользователь нажимает кнопку микрофона, которая запускает этот код:

Мы устанавливаем разговорный язык для распознавателя речи "lang" на значение BCP-47, которое пользователь выбрал в раскрывающемся списке выбора, например "en-US" для английского-США. Если это не установлено, по умолчанию используется язык корневого элемента HTML-документа и иерархии. Распознавание речи Chrome поддерживает множество языков (см. таблицу « langs » в исходном коде демонстрации), а также некоторые языки с письмом справа налево, которые не включены в эту демонстрацию, например he-IL и ar-EG.

После установки языка мы вызываем функцию распознавания.start(), чтобы активировать распознаватель речи. Как только он начинает захват звука, он вызывает обработчик события onstart, а затем для каждого нового набора результатов вызывает обработчик события onresult.

Этот обработчик объединяет все полученные результаты в две строки: final_transcript и interim_transcript . Результирующие строки могут включать «\n», например, когда пользователь говорит «новый абзац», поэтому мы используем функцию перевода строки для преобразования их в теги HTML
или

<р>. Наконец, он устанавливает эти строки как innerHTML соответствующих им элементов: final_span, оформленный черным текстом, и interim_span, оформленный серым текстом.

interim_transcript – это локальная переменная, которая полностью перестраивается каждый раз, когда вызывается это событие, поскольку возможно, что все промежуточные результаты изменились с момента последнего события onresult. Мы могли бы сделать то же самое для final_transcript, просто начав цикл for с 0. Однако, поскольку окончательный текст никогда не меняется, мы сделали код здесь немного более эффективным, сделав final_transcript глобальным, чтобы это событие могло запускать цикл for. в event.resultIndex и добавляйте только любой новый окончательный текст.

Вот оно! Остальной код нужен только для того, чтобы все выглядело красиво. Он поддерживает состояние, показывает пользователю некоторые информационные сообщения и меняет GIF-изображение на кнопке микрофона между статическим микрофоном, изображением с косой чертой микрофона и анимацией микрофона с пульсирующей красной точкой.

Оживите свои веб-страницы, позволив им слушать ваших пользователей!

Мы будем рады услышать ваши отзывы.

Для комментариев по спецификации W3C Web Speech API: электронная почта, архив рассылки, группа сообщества
Для комментариев по реализации этой спецификации в Chrome: электронная почта, архив рассылки

Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.

Читайте также: