Интел как отключить голос на телефоне
Обновлено: 21.11.2024
В этом документе показано, как обучать и делать выводы о задаче распознавания речи с помощью глубоких нейронных сетей на архитектуре Intel®. В наборе данных Speech Commands, недавно выпущенном TensorFlow*, использовался метод обучения с нуля. Вывод был сделан с использованием тестовых аудиоклипов для обнаружения метки. Эксперименты проводились на процессорной системе Intel® Xeon® Gold.
Введение
Задачи классификации звука разделены на три подобласти: классификация музыки, распознавание речи (в частности, для акустической модели) и классификация акустической сцены. С быстрым развитием мобильных устройств технологии, связанные с речью, становятся все более популярными. Например, Google предлагает возможность голосового поиска на телефонах Android*. В этом исследовании мы подходим к проблеме распознавания речи, создавая базовую сеть распознавания речи, которая распознает тридцать разных слов, используя реализацию на основе TensorFlow.
Чтобы помочь в этом эксперименте, TensorFlow недавно выпустил наборы данных Speech Commands. Он включает 65 000 односекундных произнесений 30 коротких слов тысячами разных людей.
Постоянные исследования в области глубокого обучения привели к развитию множества платформ для решения сложной проблемы распознавания речи. Эти фреймворки были оптимизированы с учетом аппаратного обеспечения, на котором они работают, для повышения точности, снижения потерь и повышения скорости. В связи с этим Intel оптимизировала библиотеку TensorFlow для повышения производительности своих процессоров Intel® Xeon®. В этом документе обсуждается задача обучения и вывода на распознавание речи, построенная с использованием образца архитектуры сверточной нейронной сети (CNN) с инфраструктурой TensorFlow в кластере на базе процессоров Intel®. Мы приняли подход, обучая модель с нуля.
Содержание документа
В этом разделе описываются сквозные шаги, от выбора среды до выполнения тестов на обученной модели распознавания речи.
Выбор среды
Оборудование
Эксперименты проводились на системах с процессором Intel Xeon Gold. В таблице 1 перечислены сведения об оборудовании.
Таблица 1. Конфигурация процессора Intel Xeon Gold.
Архитектура
x86_64
Режим(ы) работы процессора
Порядок байтов
ЦП
Количество ядер на сокет
Сокет(ы)
Семейство процессоров
Модель
Название модели
ЦП Intel Xeon Gold 6128 с тактовой частотой 3,40 ГГц
ОЗУ
Программное обеспечение
Intel® Optimization for TensorFlow* framework вместе с Intel® Distribution for Python* использовались в качестве конфигурации программного обеспечения. В Таблице 2 перечислены сведения о программном обеспечении.
Таблица 2. Конфигурация программного обеспечения — процессор Intel Xeon Gold
Тензорный поток
1.4.0 (оптимизировано Intel)
Питон*
Тензорная доска*
Конфигурации программного обеспечения, перечисленные в таблице 2, доступны в выбранных аппаратных средах, и сборка исходного кода для TensorFlow не требуется.
Набор данных
Набор данных Speech Commands (файл TAR) состоит из 65 000 аудиофайлов WAVE (.wav), в которых люди произносят 30 разных слов. Эти данные были собраны Google и выпущены под лицензией CC BY, а размер этого архива превышает 1 ГБ. Каждый аудиофайл представляет собой 1-секундный аудиоклип в виде тишины, неизвестного слова, да, нет, вверх, вниз, влево, вправо, вкл, выкл, стоп или иди. Для этого эксперимента использовались двенадцать различных звуков из всего набора данных, состоящего из 30 звуков.
Всего набор данных для обучения: 23701
Обучение: 80% – 18 961
Проверка: 10% – 2370
Тестирование: 10% – 2370
Мы использовали разделение на основе хэш-функции, чтобы предотвратить повторение файлов из одного набора в другой.
Мы сохранили список всех слов, таких как up, go, off, on, stop и т. д. Разделение обучения и тестирования проводилось на основе каждого слова, чтобы гарантировать охват всех классов и отсутствие дисбаланса классов.
Архитектура CNN-TRAD-POOL3
Используемая архитектура основана на документе «Сверточные нейронные сети для определения ключевых слов малого размера». TensorFlow предлагает различные подходы к построению моделей нейронных сетей. Мы выбрали CNN-TRAD-POOL3, потому что он сравнительно прост, быстр в обучении и понятен. Сеть CNN-TRAD-POOL3 состоит из двух слоев свертки, слоев максимального объединения, одного линейного уровня низкого ранга, одного уровня DNN и одного уровня softmax. На рис. 1 показана архитектура CNN-TRAD-POOL3.
Рисунок 1. Модель CNN-TRAD-POOL3.
Этапы выполнения
В этом разделе описываются шаги, которые мы использовали в сквозном процессе обучения, проверки и тестирования модели распознавания речи на архитектуре Intel®.
- Настройка для обучения
- Обучение моделей
- Вывод
Настройка для обучения
Обучение модели
После клонирования репозитория TensorFlow следующим шагом будет обучение модели. Мы внедрили методику обучения с нуля, чтобы переобучить все слои с нуля.
Следующая команда загружает набор данных речевых команд и обучает алгоритм обнаружению звуковых образцов:
Ниже приведены подробные сведения о шагах и точности:
Графики TensorBoard*
TensorBoard — это эффективный инструмент для визуализации хода обучения. По умолчанию сценарий сохраняет события в /tmp/retrain_logs и загружает сценарии с помощью следующей команды:
Советы по отключению «Привет, Кортана», скрытию Кортаны с панели задач и т. д.
Cortana – это удобный помощник Microsoft с голосовым управлением, который помогает во всем: от поиска приложений до перевода фраз. Он встроен в Windows 10, то есть вы не можете просто удалить его, но, к счастью, его достаточно легко отключить, не взламывая реестр.
Есть несколько способов или даже уровней, на которых вы можете это сделать. Во-первых, запретить ему реагировать на пробуждающее слово «Привет, Кортана». Это останавливает микрофон вашего ПК от постоянного прослушивания и, что важно, также может сэкономить заряд батареи. Если вы хотите, чтобы интерфейс вашего ПК больше напоминал старую Windows, следующее, что вы можете сделать, это полностью скрыть Cortana и ее панель поиска.
Отключив обе эти опции, вы можете сделать Кортану практически невидимой. Однако, если вам нужно, виртуального помощника все равно можно вызвать с помощью удобного сочетания клавиш. Чтобы узнать, как таким образом настроить персонального помощника Microsoft, а также как отключить сочетание клавиш, читайте дальше.
Как отключить «Привет, Кортана» в Windows 10
Нажмите «Пуск», выберите шестеренку «Настройки» и прокрутите вниз. Щелкните Кортану, и на странице «Поговорить с Кортаной» вы увидите вариант «Разрешить Кортане ответить на «Эй, Кортана»». Отключите этот параметр, и личный помощник Microsoft больше не будет прослушивать слово пробуждения «Привет, Кортана».
Как отключить сочетание клавиш Кортаны
Под опцией отключения «Привет, Кортана» вы увидите, что у виртуального помощника также есть опция «Сочетание клавиш». Если вы знаете, что вам никогда не понадобится использовать Кортану, отключите эту функцию. В качестве альтернативы, если вы знаете, что будете использовать Кортану только в редких случаях, вы можете скрыть ее на панели задач (см. ниже) и оставить для этого параметра значение «Вкл.». Если вы хотите использовать Cortana, просто нажмите клавишу Windows + C.
Как скрыть Cortana с панели задач
Самый простой способ забыть о Кортане — скрыть ее с панели задач. Для этого щелкните правой кнопкой мыши в любом месте панели задач, наведите курсор на Cortana и выберите «Скрытый». В качестве альтернативы, если вы хотите иметь быстрый доступ к Cortana, но не хотите, чтобы ее панель поиска была постоянно видна, выберите «Показать значок Cortana».
Cortana — это цифровой помощник в Windows 10, похожий на Siri на iPhone и Mac или Alexa на Amazon Echo.
Названный в честь искусственного интеллекта из серии компьютерных игр Halo, он доступен с помощью голосовой команды, когда вы говорите "Привет, Кортана". Как только вы это сделаете, он может помочь вам различными способами, включая планирование поездок, прогноз погоды или поиск файлов на вашем компьютере.
Если вам не нравится Cortana или вас беспокоят потенциальные проблемы с конфиденциальностью, вы можете отключить эту функцию в настройках Windows 10.
Ознакомьтесь с продуктами, упомянутыми в этой статье:
Windows 10 (от 139,99 долл. США в магазине Best Buy)
Как отключить Кортану в Windows 10
<р>1. Нажмите кнопку «Пуск», а затем нажмите значок «Настройки», который выглядит как маленькая шестеренка. <р>2. В поле поиска "Настройки" введите "Cortana" и нажмите "Изменить способ общения с Cortana" в результатах поиска.Вы можете отключить способность Кортаны отвечать вам, выбрав «Изменить способ общения с Кортаной». Дэйв Джонсон/Business Insider
<р>3. В разделе "Привет, Кортана" отключите параметр "Разрешить Кортане отвечать на "Привет, Кортана"", переведя кнопку в положение "Выкл." <р>4. В разделе «Сочетание клавиш» отключите параметр, позволяющий Кортане прослушивать команды при нажатии клавиши с логотипом Windows + C.После внесения этих двух изменений Кортана фактически отключена и больше не может вас слушать.
При желании вы можете сделать еще один шаг и лишить Кортану разрешений.
<р>5. В поле поиска «Настройки» введите «Cortana» и выберите «Разрешения Cortana» в раскрывающемся списке результатов поиска. Он также может отображаться в результатах поиска как «Управление тем, что Кортана может делать, видеть и использовать». <р>6. В разделе "Разрешения" нажмите "Управление информацией, к которой Кортана может получить доступ с этого устройства".
Когда Apple впервые представила Siri, мир технологий был ошеломлен. Возможно, у нас наконец-то появится шанс жить в научно-фантастическом будущем, где маленькие карманные роботы выполняют наши приказы, когда мы на них кричим. На практике Siri оказалась смешанной. Сейчас Intel работает над собственной версией Siri, но избегает использования облака, потому что это сделает продукт намного лучше.
Само по себе распознавание голоса прошло долгий путь со времен использования чего-то вроде IBM ViaVoice; теперь мы можем доставать наши маленькие карманные компьютеры, и он может купить для нас кучу видеоигр, если мы ему скажем. Если вы купили Xbox One, вы можете сесть на свой диван, погрузив обе руки в пыль Cheetos, и приказать консоли включить сегодняшнюю игру NBA или загрузить третий сезон Archer на Netflix, не превращая геймпад в оранжевый цвет. Когда распознавание голоса работает, это удивительно практично. Однако, когда это не работает — а это часто не работает — вы остаетесь кричать на неодушевленный предмет, тратя время, которое потребовалось бы вам, чтобы просто нажать несколько кнопок самостоятельно, не приказывая своему устройству сделать это за вас. . Siri работает так же хорошо, как голосовое управление потребительского уровня. Однако Intel понимает, что Siri могла бы работать лучше, и это не предполагает расширения словарного запаса программного обеспечения для распознавания.
Разрабатывая новую гарнитуру Jarvis, которая может быть названа в честь дворецкого Железного человека, Intel планирует убрать облако из уравнения, сократив время программное обеспечение для распознавания голоса должно понять ваши искаженные команды. Основные платформы распознавания голоса работают таким образом, что они берут сжатую запись вашей голосовой команды и отправляют ее на центральный сервер. Затем компьютеры на этих серверах переводят голосовую команду в текст или команду, а затем отправляют ее обратно на ваше устройство. Очевидно, что это может быть медленным в зависимости от внешних факторов, которые невозможно полностью контролировать, таких как скорость текущего соединения для передачи данных. Выполняя всю эту обработку на стороне клиента, Intel может сократить время, необходимое для отправки голосовой команды на серверы.
В партнерстве с неназванной третьей стороной корпорация Intel создала носимое устройство, которое обрабатывает голосовые команды, ничего не отправляя на эти серверы. На данный момент Jarvis представляет собой гарнитуру, которая вставляется в ухо и подключается к телефону по беспроводной сети. Благодаря такому локальному взаимодействию Jarvis делает немыслимые вещи и работает даже при отсутствии подключения к Интернету — о чем мечтает каждый, кто ездит на работу в метро.
Более технически подкованные люди скажут вам, что даже когда распознавание голоса работает безупречно, это все равно не так удобно, как нажимать пальцами некоторые кнопки. Это связано с тем, что в большинстве случаев распознавание голоса не реагирует так быстро, как вы можете нажать кнопку, хотя звук распространяется быстрее, чем ваш палец. Таким образом, цель распознавания голоса состоит в том, чтобы оно срабатывало сразу после вашей команды, и Intel надеется решить эту проблему с помощью своего локального решения.
На данный момент Intel работает над продажей этой технологии производителям мобильных телефонов. Очевидно, именно здесь эта технология подойдет лучше всего, поскольку аппаратное обеспечение нового ноутбука будет достаточно мощным, чтобы самостоятельно справиться с локальным распознаванием. Конечно, когда проблема скорости будет решена, разработчикам все равно придется создать программу, которая никогда не поймет неправильно то, что мы говорим, а также сможет работать с разговорными фразами.
Читайте также: