Как сделать голосового помощника на компьютере

Обновлено: 23.08.2025

Отточите свои практические навыки работы с приложениями для распознавания речи с помощью этого обзора создания голосового помощника с помощью Python.

Нагеш Сингх Чаухан, энтузиаст по науке о данных, 6 сентября 2019 г., посвященный машинному обучению, НЛП, Python и распознаванию речи

В наши дни неудивительно, что кто-то разговаривает с кем-то, кого нет рядом. Мы спрашиваем Алексу о погоде и снижаем температуру на термостате. Затем мы спрашиваем Siri, какое у нас расписание на день, и звоним людям. Сейчас мы связаны больше, чем когда-либо, используя нашу технологию голоса и голосового интерфейса. Я уже не могу представить, что можно что-то делать вручную! Это действительно будущее.

— Forbes

Введение

Кто не хочет позволить себе роскошь иметь помощника, который всегда выслушает ваш звонок, предугадает все ваши потребности и при необходимости примет меры? Эта роскошь теперь доступна благодаря голосовым помощникам на основе искусственного интеллекта.

Голосовые помощники поставляются в несколько небольших пакетах и могут выполнять различные действия, услышав вашу команду. Они могут включать свет, отвечать на вопросы, проигрывать музыку, размещать онлайн-заказы и выполнять различные действия с использованием ИИ.

Не следует путать голосовых помощников с виртуальными помощниками, которые работают удаленно и поэтому могут выполнять любые задачи. Скорее, голосовые помощники основаны на технологиях. По мере того, как голосовые помощники становятся все более надежными, их полезность как в личной, так и в деловой сфере также будет расти.

Что такое голосовой помощник?

Голосовой помощник или интеллектуальный личный помощник — это программный агент, который может выполнять задачи или услуги для человека на основе словесных команд, то есть путем интерпретации человеческой речи и ответа с помощью синтезированных голосов. Пользователи могут задавать вопросы своим помощникам, управлять устройствами домашней автоматизации и воспроизведением мультимедиа с помощью голоса, а также управлять другими основными задачами, такими как электронная почта, списки дел, открывать или закрывать любые приложения и т. д. с помощью голосовых команд.

Позвольте мне привести вам пример Braina (Brain Artificial), который является интеллектуальным личным помощником, интерфейсом на человеческом языке, программным обеспечением для автоматизации и распознавания голоса для ПК с Windows. Braina — это многофункциональное программное обеспечение для искусственного интеллекта, которое позволяет вам взаимодействовать с компьютером с помощью голосовых команд на большинстве языков мира. Braina также позволяет точно преобразовывать речь в текст на более чем 100 различных языках мира.

История голосовых помощников

В последнее время голосовые помощники получили основную платформу после того, как Apple интегрировала самого удивительного виртуального помощника — Siri, который официально является частью Apple Inc. Но график наибольшего развития начался с мероприятия 1962 года на Всемирной выставке в Сиэтле, IBM представила уникальный аппарат под названием Shoebox. Он был размером с обувную коробку и мог выполнять научные функции и мог воспринимать 16 слов, а также произносить их узнаваемым человеческим голосом с числовыми цифрами от 0 до 9.

В период 1970-х годов исследователи из Университета Карнеги-Меллона в Питтсбурге, штат Пенсильвания, при значительной помощи Министерства обороны США и его Агентства перспективных оборонных исследовательских проектов (DARPA) создали Гарпию. Он мог понимать почти 1000 слов, что примерно соответствует словарному запасу трехлетнего ребенка.

В начале 90-х крупные организации, такие как Apple и IBM, начали производить устройства, в которых использовалось голосовое подтверждение. В 1993 году компания Macintosh начала внедрять распознавание речи на своих компьютерах Macintosh с помощью PlainTalk.

В апреле 1997 года Dragon NaturallySpeaking стал первым продуктом для постоянной диктовки, способным понимать около 100 слов и преобразовывать их в удобочитаемый контент.

При этом было бы здорово создать простой голосовой помощник для настольного компьютера или ноутбука, способный:

Откройте сабреддит в браузере.
Откройте любой веб-сайт в браузере.
Отправьте электронное письмо своим контактам.
Запустите любое системное приложение.
Сообщает текущую погоду и температуру практически в любом городе.
Сообщает вам текущее время.
Приветствую
Воспроизвести песню на медиаплеере VLC (конечно, на вашем ноутбуке/настольном компьютере должен быть установлен медиаплеер VLC)
Изменить обои рабочего стола.
Сообщает вам последние новости.
Рассказывает практически обо всем, о чем вы спрашиваете.

Итак, в этой статье мы собираемся создать голосовое приложение, способное выполнять все вышеупомянутые задачи. Но сначала посмотрите это видео ниже, которое я сделал, когда я взаимодействовал с настольным голосовым помощником, и я называю ее Софией.

Надеюсь, вам понравилось видео выше, в котором я общаюсь с Софией. Теперь давайте начнем строить эту классную штуку…

Зависимости и требования:

Системные требования: Python 2.7, Spyder IDE, MacOS Mojave (версия 10.14)

Установите все эти библиотеки Python:

Приступим к созданию нашего настольного голосового помощника с помощью Python

Начните с импорта всех необходимых библиотек:

Чтобы наш голосовой помощник выполнял все описанные выше функции, мы должны закодировать логику каждой из них в одном методе.

Итак, наш первый шаг — создать метод, который будет интерпретировать голосовой ответ пользователя.

Затем создайте метод, который будет преобразовывать текст в речь.

Теперь создайте цикл для продолжения выполнения нескольких команд. Внутри метода Assistant() передается пользовательская команда(myCommand()) в качестве параметров.

Следующим шагом будет создание нескольких операторов if, соответствующих каждой функции. Итак, давайте посмотрим, как создавать эти небольшие модули внутри оператора if для каждой команды.

1. Откройте сабреддит Reddit в браузере.

Пользователь даст любую команду, чтобы открыть любой сабреддит из Reddit, и команда должна быть «Привет, София! Пожалуйста, откройте Reddit subreddit_name». только выделенная курсивом жирная фраза должна использоваться как есть. Вы можете использовать любой префикс, только обратите внимание на жирный курсив.

Итак, приведенный выше код откроет нужный Reddit в браузере по умолчанию.

2. Откройте любой веб-сайт в браузере.

3. Отправить письмо.

Вы также можете попросить помощника на рабочем столе отправить электронное письмо.

Как это работает: если вы произнесли слово «электронная почта» в своей команде, бот запросит имя получателя. Если мой ответ «раджат», бот будет использовать библиотеку pthons smtplib. Модуль smtplib определяет объект сеанса клиента SMTP, который можно использовать для отправки почты на любой Интернет-компьютер с помощью демона прослушивателя SMTP или ESMTP. Отправка почты осуществляется с помощью smtplib Python с использованием SMTP-сервера. Сначала он инициирует SMTP gmail с помощью smtplib.SMTP(), затем идентифицирует сервер с помощью функции ehlo(), затем шифрует сессию starttls(), затем входит в ваш почтовый ящик с помощью login(), а затем отправляет сообщение с помощью sendmail().

4. Запустите любое системное приложение.

Скажите «запустить календарь» или «не могли бы вы запустить Skype» или «Sofia launch finder» и т. д., и София запустит это системное приложение для вас.

Как это работает: если вы произнесли слово «запуск» в своей команде, тогда оно будет искать имя приложения (если оно присутствует в вашей системе) в пользовательской команде, используя re.search(). Затем он добавит суффикс «.app» к имени приложения. Теперь ваше приложение называется, например, calender.app (в macOS исполняемые файлы заканчиваются расширением .app, в отличие от Windows, которое заканчивается на .exe). Таким образом, исполняемое имя приложения будет запущено с помощью функции Popen() подпроцесса python. Модуль подпроцесса позволяет вам запускать новые приложения из вашей программы Python.

5. Сообщает вам текущую погоду и температуру практически любого города.

София также может подсказать вам погоду, максимальную и минимальную температуру в любом городе мира. Пользователю просто нужно сказать что-то вроде «какая сейчас погода в Лондоне» или «скажите мне текущую погоду в Дели».

Как это работает: если вы произнесли фразу «текущая погода» в своей команде, она будет искать название города с помощью re.search(). Я использовал библиотеку pythons pyowm, чтобы узнать погоду в любом городе. get_status() сообщит вам о погодных условиях, таких как дымка, облачность, дождь и т. д., а get_temperature() сообщит вам о максимальной и минимальной температуре в городе.

6. Сообщает вам текущее время.

«София, можешь сказать мне, сколько сейчас времени?» или «сколько сейчас времени?» и София сообщит вам текущее время вашего часового пояса.

Как это работает: это довольно просто

7. Приветствую/ухожу

Скажите «привет, София», чтобы поприветствовать своего голосового помощника, или, когда вы хотите, чтобы программа завершилась, скажите что-то вроде «выключите, София» или «София, пожалуйста, выключите» и т. д.

Как это работает: Если вы произнесли слово привет в своей команде, то в зависимости от времени суток бот будет приветствовать пользователя. Если время больше 12 часов дня, бот ответит: «Здравствуйте, сэр. Добрый день», также, если время превышает 18:00, бот ответит: «Здравствуйте, сэр. Добрый вечер".И когда вы даете команду как выключение, sys.exit() будет вызываться для завершения программы.

8. Воспроизвести песню на медиаплеере VLC

Эта функция позволяет вашему голосовому боту воспроизводить нужную песню в медиаплеере VLC. Пользователь скажет «София, сыграй мне песню», бот спросит «Какую песню мне поставить, сэр?». Просто произнесите название песни, и София загрузит ее с YouTube на ваш локальный диск, воспроизведет эту песню на медиаплеере VLC, и если вы снова воспроизведете песню, ранее загруженная песня будет автоматически удалена.

Теперь, если в следующий раз вы попросите любую другую песню, локальный каталог будет очищен, и в этот каталог будет загружена новая песня.

9. Изменить обои рабочего стола.

Теперь, если в следующий раз вы снова попросите изменить обои, ваш локальный каталог будет очищен, и в этот каталог будут загружены новые обои.

10. Сообщает вам последние новостные ленты.

София также может сообщить вам последние обновления новостей. Пользователь просто должен сказать: «София, какие главные новости на сегодня?» или "расскажи новости на сегодня".

Как это работает: если вы произнесли фразу «Новости на сегодня» в своей команде, она извлечет данные с помощью Beautiful Soup из Google News RSS() и прочитает их для вас. Для удобства я установил ограничение количества новостей на 15.

11. Расскажет вам почти обо всем, что вы спросите.

Ваш бот может получить информацию почти обо всем, что вы у него спросите. Например, «София, расскажи мне о Google», или «Пожалуйста, расскажи мне о суперкомпьютерах», или «пожалуйста, расскажи мне об Интернете». Как видите, спросить можно практически обо всем.

Как это работает: если вы произнесли фразу «расскажи мне о» в своей команде, она будет искать ключевое слово в пользовательской команде, используя re.search(). Используя библиотеку pythons wikipedia, он будет искать эту тему и извлекать первые 500 символов (если вы не укажете ограничение, бот прочитает для вас всю страницу). Википедия — это библиотека Python, упрощающая доступ к данным из Википедии и их анализ.

Соберем все вместе

Итак, вы увидели, как, просто написав простые строки кода на Python, мы можем создать очень классного голосового помощника для настольного компьютера или ноутбука. Помимо этих функций, вы также можете включить в свой голосовой помощник множество других функций.

Пожалуйста, обратите внимание, что после того, как вы начнете выполнять свою программу, будьте громкими и четкими во время взаимодействия с голосовым помощником, потому что может случиться так, что, если ваш голос нечеткий, ваш голосовой помощник не сможет правильно вас интерпретировать.

Заключение: что ждет нас в будущем

На протяжении всей истории вычислений пользовательские интерфейсы становились все более естественными в использовании. Экран и клавиатура были первым шагом в этом направлении. Мышь и графический интерфейс пользователя были другими. Сенсорные экраны — самая последняя разработка. Следующий шаг, скорее всего, будет состоять из сочетания дополненной реальности, жестов и голосовых команд. В конце концов, зачастую проще задать вопрос или поговорить, чем напечатать что-то или ввести несколько деталей в онлайн-форму.

Чем больше человек взаимодействует с устройствами, активируемыми голосом, тем больше тенденций и закономерностей система выявляет на основе получаемой информации. Затем эти данные можно использовать для определения предпочтений и вкусов пользователей, что является долгосрочным аргументом в пользу того, чтобы сделать дом умнее. Google и Amazon планируют интегрировать искусственный интеллект с голосовым управлением, способный анализировать человеческие эмоции и реагировать на них.

Надеюсь, вам понравилось читать эту статью. Поделитесь своими мыслями/комментариями/сомнениями в разделе комментариев. Вы можете связаться со мной через LinkedIn.

Биография: Нагеш Сингх Чаухан — разработчик больших данных в CirrusLabs. Он имеет более 4 лет опыта работы в различных секторах, таких как телекоммуникации, аналитика, продажи, наука о данных, со специализацией на различных компонентах больших данных.

В этом руководстве вы узнаете, как приступить к разработке голосового помощника в Windows.

Настройте среду разработки

Чтобы начать разработку голосового помощника для Windows, вам необходимо убедиться, что у вас есть подходящая среда разработки.

Visual Studio: вам потребуется установить Microsoft Visual Studio 2017, Community Edition или выше.
Версия для Windows: ПК с быстрой кольцевой сборкой Windows для предварительной оценки Windows и версией Windows SDK для предварительной оценки Windows. Этот пример кода проверен как работающий с выпуском Windows Insider Release Build 19025.vb_release_analog.191112-1600 с использованием Windows SDK 19018. Любая сборка или SDK выше указанных версий должны быть совместимы.
Инструменты разработки UWP: рабочая нагрузка разработки универсальной платформы Windows в Visual Studio. См. страницу настройки UWP, чтобы подготовить компьютер к разработке приложений UWP.
Рабочий микрофон и аудиовыход.

Получить ресурсы от Microsoft

Для некоторых ресурсов, необходимых для полностью настроенного голосового агента в Windows, потребуются ресурсы Microsoft. Образец голосового помощника UWP предоставляет образцы версий этих ресурсов для начальной разработки и тестирования, поэтому этот раздел не нужен для начальной разработки.

Модель ключевых слов. Для голосовой активации требуется модель ключевых слов от Microsoft в виде файла .bin. Файл .bin, представленный в образце голосового помощника UWP, обучен ключевому слову Contoso.
Токен функции ограниченного доступа. Поскольку API-интерфейсы ConversationalAgent предоставляют доступ к звуку микрофона, они защищены ограничениями функции ограниченного доступа. Чтобы использовать функцию с ограниченным доступом, вам потребуется получить от Microsoft токен функции с ограниченным доступом, связанный с идентификатором пакета вашего приложения.

Установить диалоговую службу

Для полноценного голосового помощника приложению потребуется диалоговая служба, которая

Определить ключевое слово в заданном аудиофайле
Прослушивание пользовательского ввода и преобразование его в текст
Отправить текст боту
Перевести текстовый ответ бота в аудиовыход

Это требования для создания базовой диалоговой службы с использованием прямой речи.

Подписка на службы распознавания речи. Подписка на службы Cognitive Speech Services для преобразования речи в текст и преобразования текста в речь. Попробуйте бесплатно речевые службы здесь.
Бот Bot Framework: бот, созданный с помощью Bot Framework версии 4.2 или более поздней и подписанный на прямую речь для включения голосового ввода и вывода. Это руководство содержит пошаговые инструкции по созданию «эхо-бота» и подписке его на прямую речь. Вы также можете перейти сюда, чтобы узнать, как создать настроенного бота, а затем выполнить те же действия, чтобы подписаться на прямую речь, но с вашим новым ботом, а не с "эхо-ботом".

Попробуйте образец приложения

С ключом подписки на службы распознавания речи и идентификатором бота эхо-бота вы готовы опробовать образец голосового помощника UWP. Следуйте инструкциям в файле readme, чтобы запустить приложение и ввести свои учетные данные.

Создайте собственного голосового помощника для Windows

После того как вы получили токен функции ограниченного доступа и bin-файл от Microsoft, вы можете приступить к работе со своим голосовым помощником в Windows.

Введение. Создайте помощника для своего компьютера за 5 минут

Слышали о новом iPhone 4S с Siri? Меньше чем за час я сделал один для окон в VBS. Теперь я могу открыть YouTube, просто сказав "youtube OK"
или выполнить поиск в Google, сказав "google OK". Приготовьтесь к созданию собственной новой формы использования компьютера.

-Windows Vista и более поздние версии. Компьютер (если требуется голосовая активация. Если не Windows 98 или выше)
-5 минут
- Микрофон (если требуется голосовая активация)

Шаг 1. Настройте распознавание речи

Если вы хотите использовать распознавание речи, следуйте этим инструкциям. Если нет, перейдите ко второму шагу.

Панель управления>Простота доступа>Распознавание речи>Научите компьютер лучше понимать вас

Следуйте указаниям, которые он дает, и читайте текст вслух.

Шаг 2. Откройте Блокнот

Нажмите Winkey + R

Введите "блокнот"

Шаг 3. Скопируйте этот скрипт в Блокнот (голосовая активация)

Set Sapi = Wscript.CreateObject("SAPI.SpVoice")
set wshshell = wscript.CreateObject("wscript.shell")

wshshell.run "%windir%\Speech\Common\sapisvr.exe -SpeechUX"
Sapi.speak "Пожалуйста, скажите или напечатайте, что вы хотите открыть?"
Input=inputbox ("Пожалуйста, произнесите или напечатайте то, что вы хотите открыть")

если Input = "youtube" ИЛИ Input = "Youtube", то
Sapi.speak "Открытие youtube"
wshshell.run "www.youtube.com"

else
если Input = "instructables" ИЛИ Input = "Instructables", то
Sapi.speak "Открытие instructables"
wshshell.run "www.instructables.com"

else
если Input = "google" ИЛИ Input = "Google", то
Sapi.speak "Открытие google"
wshshell.run "www.google.ком"

else
если Ввод = "командная строка" ИЛИ Ввод = "Командная строка", то
Sapi.speak "Открытие командной строки"
wshshell.run "cmd"

else
if Input = "calculator" OR Input = "Calculator" then
Sapi.speak "Открытие калькулятора"
wshshell.run "calc"

else
если Input = "блокнот" ИЛИ Input = "Блокнот", то
Sapi.speak "Открытие блокнота"
wshshell.run "блокнот"

else
если Input = "", то
else

Sapi.speak "Я не узнаю ваш ввод, попробуйте что-нибудь другое"
end if
end if
end if
end if
конец, если
конец, если
конец, если

Шаг 4. Скопируйте этот скрипт в Блокнот (без голосовой активации)

Set Sapi = Wscript.CreateObject("SAPI.SpVoice")
set wshshell = wscript.CreateObject("wscript.shell")

Sapi.speak "Пожалуйста, введите, что вы хотите открыть?"
Input=inputbox ("Пожалуйста, введите, что вы хотите открыть")

если Input = "youtube" ИЛИ Input = "Youtube", то
Sapi.speak "Открытие youtube"
wshshell.run "www.youtube.com"

else
если Input = "instructables" ИЛИ Input = "Instructables", то
Sapi.speak "Открытие instructables"
wshshell.run "www.instructables.com"

else
если Input = "google" ИЛИ Input = "Google", то
Sapi.speak "Открытие google"
wshshell.run "www.google.com"

else
если Ввод = "командная строка" ИЛИ Ввод = "Командная строка", то
Sapi.speak "Открытие командной строки"
wshshell.run "cmd"

else
if Input = "calculator" OR Input = "Calculator" then
Sapi.speak "Открытие калькулятора"
wshshell.run "calc"

else
если Input = "блокнот" ИЛИ Input = "Блокнот", то
Sapi.speak "Открытие блокнота"
wshshell.run "блокнот"

else
если Input = "", то
else

Sapi.speak "Я не узнаю ваш ввод, попробуйте что-нибудь другое"
end if
end if
end if
end if
конец, если
конец, если
конец, если

Шаг 5. Протестируйте скрипт

Теперь сохраните скрипт как Assistant.vbs

После сохранения файла запустите его, и он сообщит вам, что он готов к выполнению команды.

Произнесите один из вариантов, а затем скажите "ОК".

Должна открыться эта опция.

Шаг 6. Персонализация

Вы можете заменить фрагмент кода здесь, чтобы довольно легко открыть что-то еще. Начнем с одного из фрагментов, скажем, калькулятора.

else
if Input = "calculator" OR Input = "Calculator" then
Sapi.speak "Открытие калькулятора"
wshshell.run "calc"

Вы должны изменить 4 детали.

else
если Input = "ЗДЕСЬ" ИЛИ Input = "ЗДЕСЬ", то
Sapi.speak "ЗДЕСЬ"
wshshell.run "ЗДЕСЬ"

Так это будет выглядеть

else
если Input = "bing" ИЛИ Input = "Bing", то
Sapi.speak "Открытие bing"
wshshell.run "www.bing.com"

<р>!! Убедитесь, что все заключено в кавычки, иначе это будет считаться переменной, а не текстовой строкой!!

Если вам интересно, почему в bing используется заглавная и строчная буквы, это было сделано для того, чтобы программа распознавала два распространенных способа написания bing (с заглавными буквами или без них).

Шаг 7. Сохраните и проверьте еще раз

Теперь, когда вы настроили программу по своему вкусу, вы можете сохранить ее и запустить снова. Проверьте все, что вы установили сами, чтобы убедиться, что оно работает. Если это работает, продолжайте. Если он не проверяет правописание или повторяет попытку.

Шаг 8. Ура!

Теперь, когда у вас есть программа быстрого доступа, вы можете открыть YouTube двумя словами. Доберитесь до Google, говоря. Это очень полезно и весело, чтобы показать своим друзьям. Я не хочу видеть какие-либо комментарии о том, что «вы могли бы просто использовать run», потому что вы, очевидно, не читали, поскольку run не запускает sapi автоматически или не говорит после того, как вы его открываете. В любом случае, спасибо за чтение.

Этот проект создали 9 человек!

Вы сделали этот проект? Поделитесь с нами!

67 комментариев

Мой помощник не работает?? Я поместил все, что вы положили, в кодировку моего помощника, но когда я пойду, чтобы открыть его. Приходит сообщение,

Ответить 7 месяцев назад

да, код, который работает, отличается от того, что в инструкции, но даже это открывает его снова и снова

Ответить 1 год назад

Итак, как я могу это сделать??

Вопрос 7 месяцев назад на шаге 7

Отличный код, и он отлично работает, просто он не перестанет открывать URL-адрес, например, если я вставлю YouTube, то каждую секунду он будет открывать другую страницу YouTube и никогда не останавливаться, пока я не перезапущу, как это исправить?

Вопрос 7 месяцев назад на шаге 8

Чтобы запустить другой файл, я использовал путь к файлу, но приложение все равно не запускается, почему? пожалуйста, кто-нибудь ответьте.

Вопрос 10 месяцев назад

Мне нужна помощь в запуске, как вы это делаете

Вопрос 11 месяцев назад

Вопрос 1 год назад

Как изменить голос?

Ответ 1 год назад

скопируйте и вставьте следующие строки после первых двух строк в блокноте

Установите sapi = createObject("sapi.spvoice")

Установите sapi.Voice = sapi.GetVoices.Item(1)

Вопрос 1 год назад

Мне нравится эта программа!! Всего 2 вопроса..
1) Могу ли я изменить голос?
2) Как мне это сделать, скажем, вместо того, чтобы открывать мои запросы в Microsoft Edge, можно открыть в Firefox?

Ответ 1 год назад

да, вы можете изменить голос, просто скопируйте и вставьте следующие строки в блокнот после первых двух строк
Dim msg, sapi

Установите sapi = createObject("sapi.spvoice")

Установите sapi.Voice = sapi.GetVoices.Item(1)

Как мне заставить своего помощника открывать любую другую программу, кроме той, которая была написана в приведенном ниже коде:
Set Sapi = Wscript.CreateObject("SAPI.SpVoice")
set wshshell = wscript. СоздатьОбъект("wscript.shell")

Sapi.speak "Пожалуйста, введите, что вы хотите открыть?"
Input=inputbox ("Пожалуйста, введите, что вы хотите открыть.")

если Input = "youtube" ИЛИ Input = "Youtube", то
Sapi.speak "Открытие youtube"
wshshell.run "www.youtube.com"

else
если Input = "instructables" ИЛИ Input = "Instructables", то
Sapi.говорить "Открытие инструкций"
wshshell.run "www.instructables.com"

else
если Input = "google" ИЛИ Input = "Google", то
Sapi.speak "Открытие google"
wshshell.run "www.google.com"

иначе
если Ввод = "командная строка" ИЛИ Ввод = "Командная строка", то
Sapi.speak "Открытие командной строки"
wshshell.run "cmd"

else
if Input = "calculator" OR Input = "Calculator" then
Sapi.speak "Открытие калькулятора"
wshshell.run "calc"

иначе
если Ввод = "блокнот" ИЛИ Ввод = "Блокнот", то
Sapi.speak "Открытие блокнота"
wshshell.run "блокнот"

else
если Input = "", то
else

Sapi.speak "Я не узнаю ваш ввод, попробуйте что-нибудь другое"
end if
end if
end if
end if
end if
конец, если
конец, если

Ответить 1 год назад

Вам нужно изменить имя в if input = "YouTube" на то, что вы хотите назвать. Например, if input = "Google"
И wshshell.run"www.youtube.com" на wshshell.run "www.google.com", и если вы не хотите вызывать веб-сайт, укажите путь к файлу.
Означает, что файл хранится как wshshell.run" c:/windows".

Вопрос 1 год назад

Как заставить голосовые команды работать?

Вопрос год назад на шаге 5

как запустить файл vbs

Очень крутая штука, бро!
Но мой вопрос в том, как мне изменить голос
А еще по какой-то причине этот код не работает, просто скажи мне, что не так
Set Sapi = Wscript.CreateObject("SAPI.SpVoice")
set wshshell = wscript.CreateObject("wscript.shell")
dim Input
wshshell.run "%windir%\Speech\Common\sapisvr .exe -SpeechUX"
Sapi.speak "Здравствуйте, я ПЯТНИЦА, ваш виртуальный помощник. Как дела, Шихам. Надеюсь, у вас все хорошо! Я могу многое сделать для вас, просто назовите это!"
Ввод = поле ввода («Что я могу для вас сделать!»)
Sapi.speak Ввод
wshshell.run Ввод
elseif
Ввод = «Доброе утро, ПЯТНИЦА» ИЛИ Ввод = "Доброе утро, ПЯТНИЦА", а затем
Sapi.speak "Доброе утро, сэр. Воскресенье – наука, хинди, SST, английский, математика, математика, понедельник – наука, хинди, пед, математика, английский, SST, вторник – наука, Хинди, SST, английский, математика, KSS, среда — наука, хинди, SST, математика, английский, арабский, четверг — наука, хинди, математика, английский, SST, танцы. эта информация поможет вам."

Привет, я не могу дождаться, чтобы сделать это, когда я получу свой новый компьютер, так что спасибо super_nerd!

Разговор с искусственным интеллектом больше не является научной фантастикой. Живя в вашем телефоне, часах или телевизоре, он может искать в Интернете, планировать распорядок дня или даже управлять домашними машинами от вашего имени. Экосистема и сфера деятельности виртуальных помощников стремительно растет. День, когда мы не сможем нормально жить без них, уж точно не за горами.

Стремительный рост технологий определенно открывает новые возможности для пользователей, но также может создавать трудности для разработчиков. В ближайшем будущем наличие голосового интерфейса в приложении может считаться нормой. Приложения, которые не используют это, могут оказаться с коротким концом флешки. Итак, если вы хотите идти в ногу со временем, уделите пристальное внимание инновациям в области умного голоса. Мы сразу рассмотрим некоторые аспекты услуг по разработке мобильных приложений, поставляемых с виртуальными помощниками, и немного поговорим о том, как создать ИИ-помощника.

Как включить голосового помощника в приложение

Существует три способа заставить ваше приложение понимать словесную речь и поддерживать разговор.

Первый способ

Первый метод предполагает интеграцию существующих голосовых технологий в ваше приложение с помощью специальных API и других инструментов разработки.

Второй способ

Второй метод позволяет создать интеллектуального помощника с помощью служб с открытым исходным кодом и API.

Третий способ

Третий способ — создание собственного голосового помощника с нуля с последующей его интеграцией в ваше приложение.

Каждый метод достоин внимания. Обратите внимание, что такие громкие имена, как Apple или Google, неохотно предлагают свои любимые творения сторонним разработчикам. С другой стороны, использование инструментов с открытым исходным кодом может не оправдать ваших ожиданий. Кроме того, самостоятельное создание искусственного интеллекта, такого как Siri, может стать невыполнимой задачей.

Чтобы прояснить все преимущества и риски, с которыми вы столкнетесь, давайте подробно рассмотрим каждый подход.

Распространенные способы интеграции вашего приложения с виртуальным помощником

Лучшие виртуальные помощники и их интеграция в приложение

Имена Siri, Google Now и Cortana известны во всем мире. Конечно, на полках магазинов приложений есть еще много мобильных приложений-помощников. Вы можете ознакомиться с исчерпывающим списком здесь. Однако мы сосредоточимся на трех упомянутых выше технологиях, потому что, согласно исследованию MindMeld, их предпочитает большинство пользователей.

Если вы когда-нибудь изучали Siri, то наверняка заметили, что она недоступна для большинства сторонних приложений. С выпуском iOS 10 ситуация сильно изменилась. На WWDC 2016 было объявлено, что Siri можно интегрировать с приложениями, работающими в следующих областях:

Аудио- и видеозвонки
Обмен сообщениями и контакты
Платежи через Siri
Поиск фотографий
Заказ автомобиля для тренировок

Чтобы обеспечить интеграцию, Apple представила специальный SiriSDK, состоящий из двух фреймворков. Первый охватывает ряд задач, которые должны поддерживаться в вашем приложении, а второй дает рекомендации по пользовательскому визуальному представлению при выполнении одной из задач.

Каждый из перечисленных выше типов приложений определяет определенный набор задач, которые называются намерениями. Термин относится к намерениям пользователей и, как следствие, к конкретным сценариям их поведения.

Влияние правильно выбранного стека технологий на общий успех проекта огромно. Узнайте, как правильно выбрать технологии.

В SiriSDK все намерения имеют соответствующие пользовательские классы с определенными свойствами. Свойства точно описывают задачу, которой они принадлежат. Например, если пользователь хочет начать тренировку, свойства могут включать тип упражнений и продолжительность сеанса. Получив голосовой запрос, система дополняет объект намерения заданными характеристиками и отправляет его в расширение приложения. Последняя часть обрабатывает данные и показывает правильный результат на выходе.

Дополнительную информацию о том, как работать с намерениями и объектами, можно найти на официальном веб-сайте Apple. Ниже представлена схема обработки намерений:

Как Siri обрабатывает намерения

Google Now и голосовые команды

Помните технику "хороший полицейский, плохой полицейский"? Что ж, Google всегда был первым, кто проявлял максимальную лояльность к разработчикам. В отличие от Apple, у Google нет жестких требований к дизайну. Срок одобрения в Play Market намного короче и не такой привередливый, как и в Apple App Store.

Тем не менее, в вопросе интеграции смарт-помощника он выглядит довольно консервативно. На данный момент помощник Google работает только с выбранными приложениями. В список входят такие горячие имена, как eBay, Lyft, Airbnb и другие. Им разрешено создавать свои собственные карточки Now через специальный API.

Знаете ли вы, как сделать свой дом умнее? У нас есть полезная информация об этом.

Хорошая новость заключается в том, что у вас все еще есть возможность создать команду приложения Google Assistant для своего собственного приложения. Для этого вам необходимо зарегистрировать приложение в Google.

Не путайте Google Now с голосовыми командами. Теперь нужно не только слушать и отвечать. Это разумное существо, которое может учиться, анализировать и делать выводы. Голосовые действия — более узкое понятие. Он работает на основе распознавания речи с последующим поиском информации.

Google предоставляет разработчикам пошаговое руководство по интеграции таких функций в приложение. Voice Actions API учит, как включать голосовой механизм как в мобильные, так и в носимые приложения.

Создайте собственную команду Google Assistant: что такое интеллектуальный механизм Google

Microsoft рекомендует разработчикам использовать голосового помощника Cortana в своих мобильных и настольных приложениях. Вы можете предоставить пользователям возможность установить голосовое управление без прямого вызова Cortana.В Cortana Dev Center описано, как сделать запрос к конкретному приложению. По сути, он предлагает три способа интеграции имени приложения в голосовую команду:

С префиксом, когда название приложения стоит перед голосовой командой, например, "Фитнес-время, выбери мне тренировку!"

Инфиксальный, когда название приложения помещается в середину голосовой команды, например, "Назначьте мне тренировку Fitness Time, пожалуйста!"

Суффикс, когда название приложения помещается в конец командной фразы, например, "Настройте тренировку в Fitness Time!"

Вы можете активировать фоновое или активное приложение с помощью голосовых команд через Кортану. Первый тип подходит для приложений с простыми командами, не требующими дополнительных инструкций, например, «Показать текущую дату и время!». Второй — для приложений, которые работают с более сложными командами, например «Отправить приветствие Анне». В последнем случае, помимо задания команды, вы указываете ее параметры:

Какое сообщение? - приветствие
Кому его следует отправить? - Энн.

Независимые сервисы для создания собственного голосового помощника

Вышеуказанные технологии — не единственная альтернатива для настройки управления голосом в вашем приложении. Существует множество инструментов для разработчиков, увлекающихся машинным мышлением. Для справки я составил список наиболее заметных из них. Включены как мобильные, так и веб-сервисы.

Melissa — настоящая находка для новичков в разработке, которые хотят создать собственного голосового помощника. Вся система состоит из множества частей. Таким образом, если вы хотите добавить или изменить определенную функцию, вы можете сделать это без изменения всего алгоритма.

Мелисса может говорить, делать заметки, читать новости, загружать фотографии, проигрывать музыку и делать многое другое. Написанный на Python, он работает на OS X, Windows и Linux. Веб-интерфейс разработан с помощью JavaScript.

Jasper подойдет тем, кто предпочитает программировать большую часть искусственного интеллекта без внешней поддержки и создавать собственного ИИ-помощника, полагаясь на себя. Это также отличный инструмент для поклонников Raspberry Pi, поскольку он работает на модели B.

Jasper написан на Python. Он может слушать и учиться. Первую возможность вносит активный модуль, вторую - пассивный. Всегда включенный, он готов выполнять поставленные задачи в любой момент дня и ночи. Тихо изучая ваши привычки, он может предоставить вам точную информацию как раз вовремя.

Итак, если вы хотите создать собственного голосового помощника, обратите внимание на Jasper.

Api.ai охватывает широкий спектр задач, позволяя создать своего личного помощника. Наряду с распознаванием голоса он также поддерживает преобразование голоса в текст с последующим выполнением соответствующих задач. Анализировать и делать выводы этому сервису тоже не чуждо.

У Api.ai есть бесплатная и платная версии. Последний позволяет работать в частном облаке. Итак, если конфиденциальность является вашим приоритетом, это именно то, что вам нужно.

Wit.ai похож на сервис Api.ai. Если вы хотите его использовать, в вашем приложении нужно настроить два элемента: намерения и сущности. Подобно системе Siri, намерение означает действие, которое пользователь хочет выполнить, например, показать погоду. Сущности уточняют характеристики данного намерения, например время и место пользователя.

Приятно то, что вам не нужно создавать намерения самостоятельно. Wit.ai предоставляет разработчикам длинный список на выбор. Еще одна хорошая новость заключается в том, что она абсолютно бесплатна как для публичного, так и для частного использования. Однако, чтобы создать своего личного помощника с помощью Wit.ai, необходимо следовать его условиям.

Помимо Api.ai, Wit.ai представляет различные API для разработчиков iOS, Android, Ruby, Python, Windows Phone, C и Raspberry Pi. Фронтенд-разработчики будут в восторге от того, что у него есть еще и плагин для JavaScript. Это отличное решение для создания голосового помощника для разных платформ.

Сервисы для разработки голосовых помощников

Как создать собственное приложение-помощник с искусственным интеллектом?

Если вы собираетесь создать своего собственного помощника Siri или Google, убедитесь, что вы обладаете соответствующими навыками и источниками, потому что этот процесс далеко не прост.

Основные технологии для создания голосового помощника

Голос/речь в текст (STT)

Это процесс преобразования речевого сигнала в цифровые данные (например, текстовые данные). Голос может прийти в виде файла или потока. Вы можете использовать CMU Sphinx для его обработки.

Текст в речь (TTS)

Это процесс, противоположный переводу текста/изображений в человеческую речь. Это очень полезно, когда, например, пользователь хочет услышать правильное произношение иностранного слова.

Чего ожидать при заключении соглашения с компанией-разработчиком программного обеспечения? Узнайте разницу между фиксированной ценой и контрактом на время и материалы.

Интеллектуальные теги и принятие решений

Интеллектуальные теги и принятие решений служат для интерпретации запроса пользователя. Например, пользователь может спросить: «Что я смотрю сегодня вечером?». Технология пометит фильмы с самым высоким рейтингом и предложит вам несколько в соответствии с вашими интересами. AlchemyAPI может помочь вам создать ИИ-помощника, который справится с этой задачей.

Распознавание изображений – необязательная, но очень полезная функция. Позже вы можете использовать его для разработки мультимодального распознавания речи. Взгляните на OpenCV, если вы хотите создать помощника ИИ с этой функцией внутри.

Шумы автомобилей, электроприборов, других людей, разговаривающих рядом с вами, делают голос пользователя нечетким. Эта технология уменьшит или полностью устранит фоновый шум, который мешает правильному распознаванию голоса. Если вы хотите создать своего личного помощника, эта функция может послужить хорошим дополнением, которое улучшит общее взаимодействие с пользователем.

Это очень важная функция безопасности опций, которую следует учитывать при создании собственного помощника ИИ. Благодаря этой функции голосовой помощник может определить, кто говорит, и нужно ли отвечать. Таким образом, вы сможете избежать комичной ситуации, которая произошла с Siri и Amazon Alexa, когда они снизили температуру в доме и даже выключили чей-то термостат, услышав соответствующую команду из динамиков телевизора.

С помощью этого механизма клиентская часть приложений будет изменять размер голосовых данных и отправлять их на сервер в сжатом формате. Это обеспечит быструю работу приложения без раздражающих задержек. Для реализации этого механизма можно использовать стандарт G.711.

Голосовой интерфейс — это то, что пользователь слышит и видит в ответ на свой запрос. Для голосовой части вам нужно будет подобрать сам голос, задать темп речи, манеру говорить и т.д. Для визуальной части вам предстоит определиться с визуальным представлением, которое пользователь увидит на экран. Если это разумно, вы можете вообще пропустить его и сделать своего собственного ИИ-помощника без этих настроек.

Обратите внимание, что голосовые и текстовые данные могут обрабатываться либо на сервере, либо непосредственно на устройстве. На картинке ниже мы показали схему, работающую с участием сервера.

Архитектура мобильных голосовых помощников

Как видите, у каждого подхода есть свои слабые и сильные стороны. Siri, Google Now и Cortana хорошо известны пользователям. Многие люди предпочли бы взаимодействовать со знакомой и надежной технологией. Однако у этих мобильных помощников есть некоторые ограничения по интеграции со сторонними приложениями. Также они различаются по своему функционалу и работают на конкретных платформах. Эти факторы препятствуют гибкости разработки.

Альтернативные решения значительно упрощают процесс внедрения. Следуя их инструкциям, вы можете включить распознавание голоса в своем приложении. Однако у вас может не быть возможности вносить существенные изменения и добавлять дополнительные функции.

Главное преимущество независимой разработки заключается в том, что вы можете реализовать все, что захотите. Однако главный недостаток заключается в том, что это очень сложный процесс, который потребует много времени и усилий.

Если вы все еще сомневаетесь в принятии окончательного решения, свяжитесь с нашими менеджерами. В зависимости от специфики вашего проекта они порекомендуют подходящее решение.

Есть три способа:

Интегрируйте существующие голосовые технологии, такие как Siri, Google, Cortana, в свое приложение, используя специальные API и другие инструменты разработки.
Создайте интеллектуального помощника, используя службы с открытым исходным кодом и API, такие как Wit.ai или Jasper.
Создайте с нуля собственного голосового помощника с помощью STT, TTS, интеллектуальных тегов и т. д. и интегрируйте его в свое приложение.

Вы можете создать голосового помощника с помощью следующих технологий:

Голос/речь в текст (STT), например AlchemyAPI
Текст в речь (TTS), OpenCV
Интеллектуальные теги и принятие решений
Распознавание изображений
Управление шумом
Голосовая биометрия
Сжатие речи, стандарт G.711
Голосовой интерфейс

Это далеко не простой процесс, поэтому, если у вас практически нет технического образования, лучше делегировать услуги по разработке программного обеспечения техническому поставщику.

Как и любое другое приложение, но с использованием специальных инструментов для внедрения голосового помощника. Вот основные шаги:

Нарисуйте свою идею.
Проведите исследование рынка.
Обратите внимание на будущий дизайн приложения.
Используйте правильные технологии для создания приложения (или обратитесь к своему техническому партнеру).
Продвигайте свое приложение, чтобы охватить нужных людей.

Мелисса. Говорит, делает заметки, читает новости, загружает фотографии, воспроизводит музыку и т. д.
Джаспер. Слушает (вводится активным модулем) и учится (пассивным модулем). Изучает привычки пользователей и может своевременно предоставлять точную информацию.
Api.ai. Наряду с распознаванием голоса он поддерживает преобразование голоса в текст и выполняет соответствующие задачи.
Вит.ай. Необходимо настроить два элемента: намерения, означающие действия (показ погоды), и объекты, уточняющие намерения (время и место пользователя).

Все волшебство происходит в системе автоматического распознавания речи (ASR) вашего устройства. Они записывают речь, проводят акустический анализ, расшифровывают команду и превращают ее в текст для использования в качестве команды.

Много всего. Они отвечают на вопросы, включают музыку, управляют таймерами, управляют вашим умным домом или офисом, выполняют базовые действия, такие как отправка электронных писем, составление списков дел и т. д.

Читайте также:

Как сделать голосового помощника на компьютере

Введение

Что такое голосовой помощник?

История голосовых помощников

Приступим к созданию нашего настольного голосового помощника с помощью Python

1. Откройте сабреддит Reddit в браузере.

2. Откройте любой веб-сайт в браузере.

3. Отправить письмо.

4. Запустите любое системное приложение.

5. Сообщает вам текущую погоду и температуру практически любого города.

6. Сообщает вам текущее время.

7. Приветствую/ухожу

8. Воспроизвести песню на медиаплеере VLC

9. Изменить обои рабочего стола.

10. Сообщает вам последние новостные ленты.

11. Расскажет вам почти обо всем, что вы спросите.

Заключение: что ждет нас в будущем

Настройте среду разработки

Получить ресурсы от Microsoft

Установить диалоговую службу

Попробуйте образец приложения

Создайте собственного голосового помощника для Windows

Введение. Создайте помощника для своего компьютера за 5 минут

Шаг 1. Настройте распознавание речи

Шаг 2. Откройте Блокнот

Шаг 3. Скопируйте этот скрипт в Блокнот (голосовая активация)

Шаг 4. Скопируйте этот скрипт в Блокнот (без голосовой активации)

Шаг 5. Протестируйте скрипт

Шаг 6. Персонализация

Шаг 7. Сохраните и проверьте еще раз

Шаг 8. Ура!

Этот проект создали 9 человек!

Рекомендации

Конкурс "Сделай это ярким"

Конкурс по благоустройству дома

Конкурс игрушек и игр

67 комментариев