Как увеличить громкость будильника на Яндекс станции
Обновлено: 21.11.2024
По прогнозам аналитиков, к концу 2018 года рынок умных колонок вырастет вдвое по сравнению с 2017 годом и продолжит расти: к декабрю такие устройства уже купили бы 100 млн пользователей. Одним из фактов, обеспечивающих эту уверенность, является выпуск российского гаджета Яндекс.Станция. Это первая в мире умная колонка с русской локализацией. Кстати, у этого устройства больше перспектив на рынке, чем у импортных гаджетов.
Аналогами Яндекс.Станции являются смарт-продукты от Amazon, Google и Apple, не получившие популярности в РФ, так как не распознают русский язык. Поэтому локальный рынок, состоящий из миллионов домохозяйств, до сих пор охвачен Яндекс.Станцией. Судя по результатам первых продаж, спрос бешеный: пробная партия умной колонки разошлась нарасхват в течение дня; десятки тысяч человек уже сделали предварительный заказ.
Как появилась на рынке первая российская умная колонка? Его успех заключается в отсутствии альтернативы или это действительно удобный и современный гаджет? Прочтите наш обзор, чтобы узнать больше!
Что умеют умные колонки?
Умные музыкальные колонки — это гаджеты, распознающие словесные команды и способные решать любые задачи, не только связанные с музыкой. Эти устройства устанавливают определенные треки, находят и запускают видео, читают новости и прогноз погоды, выполняют поиск в Интернете, включают будильник, вызывают экстренные службы, заказывают товары онлайн и т. д.
Мозгом каждого такого устройства является голосовой помощник — приложение на основе искусственного интеллекта, способное распознавать голос и выполнять команды. У каждого производителя умной колонки есть свой запатентованный виртуальный помощник: у Apple это Siri, у Amazon — Alexa, у Google — Assistant, отвечающий на «Окей, Google». Такие помощники также используются в смартфонах, планшетах, интернет-браузерах и даже домашних роботах.
Русская умная колонка Яндекс.Станция использует Алису, голосового помощника, разработанного Яндексом. Команды распознаются только на серверах, поэтому без интернета Яндекс.Станция превращается в обычную bluetooth-колонку.
Возможности умных динамиков постоянно расширяются благодаря новым приложениям, созданным разработчиками-партнерами. У гаджета Amazon их множество, в основном с точки зрения продуктов и услуг. Яндекс.Станция появилась не так давно, поэтому предлагает на удивление ограниченный набор возможностей.
Умные колонки — это своеобразный узел доступа ко всем сервисам компании из одной точки, поэтому конкуренция здесь жесткая. Например, Google и Amazon являются жесткими конкурентами, поскольку на кону стоят не только покупатели, но и активные пользователи экосистемы.
Функции Яндекс.Станции
Что умеет умная колонка Яндекса?
- проигрывать треки из Яндекс.Музыки;
- работать органайзером: ставить будильник, таймер, заметки;
- находить и запускать фильмы и сериалы от КиноПоиск, ivi и Амедиатека;
- находить и запускать видео на YouTube;
- читать новости (Яндекс.Новости);
- найти ответы на вопросы в поиске Яндекса;
- играть в словесные игры, например, "Города" или "Сомневаюсь";
- предоставить прогноз погоды, обменный курс валюты;
- информировать о пробках (Яндекс Карты);
- включить сигнализацию (встроенную в систему безопасности Gulfstream);
- заказывать различные товары и услуги у партнеров. Раздел дорабатывается.
По словам пользователей, гаджет хорош в плане мультимедиа: для музыки, и, в отличие от других колонок, может подключаться к телевизору, чтобы можно было смотреть сериалы и фильмы. Однако на данный момент Яндекс.Станция не является идеальной базой для умного дома, поскольку некоторые сервисы (например, Яндекс.Новости) неудобны в использовании. Обновления могут улучшить такие услуги.
Какая Алиса?
Иностранные производители умных колонок также присматриваются к российскому рынку, который может когда-нибудь оттеснить Яндекс.Станцию. Google и будущие китайские бренды станут серьезными соперниками российского сервиса. Функционал импортных умных колонок с русской локализацией предсказать сложно, хотя сейчас можно сравнить Алису с другими помощниками.
По мнению пользователей, Алиса кажется более разговорчивой, чем Алекса или Сири, потому что она пытается продолжить диалог, даже если не понимает команды. Это бесполезная функция для умных колонок: люди хотят решать конкретную задачу, а не болтать.Однако Алиса может понимать сразу несколько команд, если они идут одна за другой. Преимущество Алисы перед Alexa в том, что она поддерживает только режим вопросов и ответов.
Как сообщают пользователи русского помощника, Алиса склонна к хулиганству (особенно, когда не знает ответа и пытается отшутиться). Его также научили флиртовать, что неуместно для умного спикера. Кроме того, у Алисы очень компьютерный голос для длинных предложений.
Пару слов о железе
Любителей музыки смущает то, что Яндекс.Станция имеет защитный чехол, что делает устройство стильным и защищенным от несанкционированного доступа. Эта деталь значительно искажает качество звука. Без чехла колонка звучит почти идеально, хотя внешне она не так красива. Вместо этого вы увидите какое-то полуразборное устройство, напоминающее центральный процессор без панелей.
Для дальнейшего описания звука, Яндекс.Станция имеет два пассивных излучателя, два небольших динамика Hi-Fi и один сабвуфер в центре корпуса. Искажения слышны только на максимальной громкости, когда высокие частоты звучат хуже. Общая мощность звука составляет 50 Вт, что достаточно для площадей до 100 м2.
Вы можете использовать свой голос или установить приложение для смартфона или ПК для управления этой умной колонкой; на чехле есть регулятор громкости и две кнопки для включения Алисы и выключения микрофона.
Если микрофон включен, динамик автоматически слышит пользователя и ждет начала работы команд (пароль: Алиса или Яндекс). Более того, Алиса хорошо распознает голос, даже если в помещении слишком шумно.
Несколько минут назад на конференции ЯК 2018 мы впервые рассказали о Яндекс.Станциях. Это первое мультимедийное устройство с Алисой, которое воспроизводит музыку и фильмы, рассказывает детям сказки, помогает в повседневных делах, а также поддерживает навыки от сторонних разработчиков.
Может показаться, что для создания таких устройств достаточно взять голосового помощника, добавить к нему простенький микрофон от смартфона и спрятать все это в корпус недорогой аудиоколонки. На практике же разработчики таких систем сталкиваются с серьезными технологическими проблемами, о решении которых в Станции мы сегодня и расскажем читателям Хабра. Также вы узнаете, что именно представляет собой технологическая платформа Яндекс.IO, на основе которой создано устройство.
В посте о создании Алисы мы рассказали о разработке компьютерных интерфейсов: от командной строки до управления мышью и голосом. Чем доступнее становится компьютер, тем быстрее развиваются технологии, упрощается способ взаимодействия с устройством.
С другими домашними устройствами разработка шла тем же путем. Возможно, вы помните советские черно-белые телевизоры, в которых даже для переключения каналов нужно было прикладывать ощутимые физические усилия. Теперь во многих моделях мы можем переключать каналы голосом.
Мы считаем, что пришло время научить домашние устройства общаться на языке людей, а не кнопок. Именно эта идея легла в основу голосового помощника Алиса и нашего первого устройства на его основе — Яндекс.Станции.
Говорит и показывает
Станция — первое устройство Яндекса с голосовым помощником Алиса. Она подскажет погоду, поставит будильник, расскажет новости, прочтет ребенку сказку или поможет с другими повседневными делами. Но ценность нашего устройства не только в этом. Когда мы начинали работу над Станцией, мы ставили перед собой задачу создать домашнее мультимедийное устройство, возможности которого не ограничивались бы навыками голосового помощника. Эта задача включала два важных требования:
1. Станция должна воспроизводить треки с Яндекс.Музыки или с любого другого устройства по Bluetooth.
И все это — с качественным звуком. Наше устройство должно лучше справляться со звуковой дорожкой, чем динамики типичного телевизора (это касается как глубокого баса, так и общей мощности). При этом Станция должна не только хорошо звучать, но и четко понимать речь пользователя. И эти задачи немного противоречат друг другу. И тут начинается самое интересное.
Местоположение имеет значение
Взгляните на картинку выше.Устройства умного дома часто изображают так, как будто они стоят в центре комнаты и воспроизводят звук во всех направлениях. На фотографиях это выглядит красиво, но в реальности почти никто их так не использует. Устройства, которым необходимо слышать голос издалека, потребляют значительные вычислительные ресурсы, поэтому работают не от батареи, а от сети. Ближайшие розетки почти ни у кого не располагаются в центре комнаты, поэтому устройства обычно стоят у стен. Это означает, что нет смысла делать устройство с круговым расположением динамиков. И дело не только в экономии.
Если часть динамиков направить в стену, то возникает проблема интерференции звуковых волн, которую пришлось бы компенсировать на программном уровне. Нет дополнительных динамиков - нет проблем. Поэтому в Станции мы используем два фронтальных динамика (в том числе для сохранения стереоэффекта), один НЧ-динамик и два пассивных излучателя (для глубокого баса). Но даже с их расположением в корпусе не все так просто.
Обычно оба твитера (твитеры) и низкочастотный динамик направлены на слушателя, чтобы добиться минимальных искажений звука. Но в нашем случае низкочастотный динамик направлен вниз. Почему?
Помните, мы говорили, что Станция должна не только воспроизводить качественный звук, но и уметь слышать голосовые команды? Человеческая речь - это в основном средние частоты (хотя полный диапазон шире: 300-3400Гц). Нашей задачей было уменьшить влияние звука, издаваемого Станцией, на микрофоны, которые должны улавливать человеческую речь. Одним из решений этой проблемы является увеличение «эхо пути» звука в спектре человеческой речи от динамиков к микрофонам. Низкочастотный динамик отвечает за средние частоты в штатном режиме Станции, поэтому мы отправили его вниз. Это увеличивает эхо-тракт, улучшает качество распознавания голоса и незначительно влияет на качество воспроизведения звука.
В предыдущем абзаце вы могли заметить упоминание об обычном режиме Station. Короче говоря, речь идет об уровне громкости. Суммарная мощность всех динамиков в Станции составляет 50 Вт. Для шумной вечеринки этого более чем достаточно. Но на большой громкости сложно распознать голос пользователя. В промышленности эта проблема решается ограничением объема. Мы тоже думали об этом варианте, но, к счастью, решили не портить хорошую акустику ограничениями.
Адаптивный кроссфейд
Текущий уровень громкости отображается с помощью круглой подсветки в верхней части Station. По мере увеличения громкости цвет меняется с зеленого на желтый и красный. Зеленый и желтый — это условный «обычный режим», в котором Станция хорошо воспроизводит музыку и реагирует на голосовые команды пользователя. Но красный цвет указывает на большой объем. В этом режиме громкость настолько высока, что устройство почти не слышит команды пользователя.
В режиме максимальной громкости больше не нужно думать о распознавании речи, поэтому мы отказались от компромиссов и сосредоточились на звуке. Нет, вуфер не поворачивается в сторону пользователя, а мы перенаправляем средние частоты на твитеры. Выше мы назвали их исключительно высокочастотными, но они подобраны так, чтобы при необходимости совладать со средними частотами (обязательно держать от 2к до 20кГц). И даже на высокой громкости Станция переключается в стереорежим, который в обычном режиме отключается из-за негативного влияния на качество распознавания речи.
Мы назвали все это технологией Adaptive Crossfade, которая, хочется верить, понравится любителям качественного звука. Кстати, некоторые аудиофилы из нашей команды тоже рекомендуют снимать внешний кожух, чтобы выиграть пару децибел (да, он съемный).
Выше мы говорили о том, как Станция воспроизводит звук. Теперь поговорим о технологической платформе, благодаря которой ее понимают пользователи.
Яндекс.IO
Динамики — важная часть устройства, но далеко не основная. Станция построена на платформе Яндекс.IO, которая включает в себя два компонента. Прежде всего, это основная плата, которая отвечает за «мозги» всего устройства: воспроизводит музыку и фильмы, а также обеспечивает работу Алисы и всех ее умений (в том числе тех, которые могут быть созданы сторонними разработчиками). сторонние разработчики, использующие сервис диалогов).
- Четырехъядерный процессор ARM Cortex-A53 с тактовой частотой 1 ГГц (12 000 MIPS)
- ОЗУ: 1 ГБ DDR3 SDRAM
- Флэш-память: eMMC 8 ГБ
- Wi-Fi: 802.11 b/g/n/ac, двухдиапазонный, MIMO 2x2
- Bluetooth: BLE 4.1 с поддержкой A2DP
- Видео: HDMI 1.4 + CEC. Поддержка FullHD (1080p)
- Аудиовход: 16-канальный цифровой захват звука (I2S с TDM)
- Аудиовыход: 3-канальный цифровой усилитель класса D 30 Вт + 2x10 Вт.
Микрофонный массив
Повсеместное использование смартфонов с голосовыми помощниками создает иллюзию, что достаточно взять тот же простой микрофон и встроить его в условный холодильник, который будет отлично слышать и понимать ваш голос из любого угла комнаты. Нет, не будет. Чувствительность простых микрофонов такова, что они работают только на коротких дистанциях и в относительно тихих внешних условиях. Существуют профессиональные микрофоны специального назначения, которые могли бы решить эту проблему. Вот только стоят они сотни долларов, а такой прирост стоимости не потянет ни одно пользовательское устройство.
В промышленности эта проблема решается с помощью микрофонных матриц. Один простой микрофон с задачей не справляется, но если взять несколько и заставить их работать согласованно, по принципу фазированной решетки, то получится хороший направленный микрофон. Так в Станции используется микрофонная матрица собственной разработки, состоящая из 7 микрофонов: 1 в центре и 6 по кругу.
Причем они подключены к отдельной цепи питания, и при нажатии кнопки Mute на корпусе микрофоны физически обесточиваются. Работа кнопки не зависит от софта, поэтому эту логику нельзя «сломать» программно. Вот схема (более простая блок-схема здесь):
Для полноценного голосового управления одних только микрофонов недостаточно. Устройство должно уметь отличать шум от речи и понимать команды.
Голосовая активация
Распознавание речи — чрезвычайно ресурсоемкий процесс, поэтому он работает только в облаке. Но Станция не может себе позволить отправить в сеть весь окружающий шум: она ухудшает отзывчивость, потребляет трафик и энергию, провоцирует отключение голосового управления. Поэтому наше устройство начинает прослушивать и отправлять звук с микрофонов на сервер только в том случае, если пользователь произнес ключевые слова «Алиса» или «Яндекс». Но как это работает без доступа к сети?
Распознавание ключевых слов основано на технологии определения фраз (голосовой активации). Обучаем небольшую нейросеть находить в шумовом потоке конкретные ключевые слова, например, «Алиса». Для этого требуется около 100 тысяч записей на слово, причем для различных акустических условий (тихая комната, работающий телевизор на заднем фоне и т.д.). Тем более, что для Станции нам нужно было собрать эти записи заново, а не использовать те, что остались после запуска Алисы для смартфонов. Причина в том, что образцы голоса должны быть записаны для конкретного устройства, иначе итоговое качество распознавания будет хромать.
Нейронная сеть, обученная голосовой активации, может распознавать всего несколько слов, но работает быстро и встроена в само устройство, поэтому не требует подключения к Интернету. Только после того, как Станция «услышала» ключевое слово в аудиопотоке, речь пользователя начинает передаваться на сервер Алисы для анализа запроса и подготовки ответа. Но не сразу.
Распознавание речи
Нет смысла отправлять в облако звуковой поток, записанный с 7 микрофонов. Сначала нужно очистить его от шума и выделить речь.
Алгоритм направления поступления отвечает за определение направления, в котором находится источник речи. Как только направление речи определено, матрица микрофона «поворачивается» в этом направлении и направляет на него «луч». Технология Beamforming позволяет выделять звук, исходящий с целевого направления, подавляя звуки, исходящие с других направлений. На этом же этапе работают алгоритмы Noise Suppression и De-reverberation.
Источником звука, мешающим распознаванию речи, может быть сама Станция во время воспроизведения музыки и фильмов. Казалось бы, сигнал, излучаемый Станцией, известен и поэтому его можно вычесть из сигнала, подаваемого на микрофоны. Но не так просто. Этот звук идет с многократными повторениями и нелинейными искажениями (например, из-за переотражения от стен), и его удаление — нетривиальная задача. Акустическое эхоподавление решает эту проблему.
Все эти алгоритмы работают локально на основной плате платформы ввода-вывода. Только после прохождения сигналом всех этапов очистки и выделения речи он отправляется на серверы Яндекса для полного распознавания нейросетями. Вы можете себе представить, насколько трудоемко их обучать, если для понимания одного слова требуются тысячи записей.Этот процесс постоянно совершенствуется, но нам уже удалось добиться точности распознавания речи, сравнимой с живым собеседником.
Яндекс.Станция — это домашняя мультимедийная платформа с голосовым помощником Алисы на борту.
Объявление об умной колонке второго поколения
8 декабря 2021 года состоялась презентация умной колонки Яндекс.Станция второго поколения. Одним из основных отличий новинки от устройств первого поколения является использование передовых динамиков общей мощностью 30 Вт и специального акустического массива, который имеет апериодическую структуру и меньше искажает проходящий через него звук.
Гаджет можно объединить в стереопару с любой другой колонкой Яндекса. По дизайну новая «Станция» по форме похожа на колонку первого поколения, при этом имеет более тонкий силуэт.
По данным Яндекса, кольцо Алисы превратилось в полноценное светящееся панно и переливается, следуя за музыкой и реакциями голосового помощника. Новая станция будет доступна в четырех цветах: антрацит, кобальт, песок и медь.
С голосовым ассистентом "Алиса" теперь можно общаться шепотом, чтобы не мешать близким - в ответ ассистент также понизит голос. Разработчики отмечают, что Алиса осваивала шепот в несколько этапов: сначала она училась понимать, когда человек шепчет; потом научилась отличать шепот от голоса при насморке; а затем научился шептать и переключаться между разными типами речи.
Яндекс.Станция второго поколения может обмениваться данными с другими устройствами без интернета по протоколу умного дома Zigbee. Например, к нему можно подключить умные розетки, выключатели и датчики.
В дальнейшем колонка будет поддерживать протокол Matter — единый стандарт для устройств умного дома, а также появится мобильное приложение «Дом с Алисой» для управления умным домом со смартфона.
Яндекс.Станция второго поколения поступит в продажу в первой половине 2022 года. До 8 декабря 2021 года стоимость продукта не называется. К этому дню Яндекс продал в общей сложности более 2 миллионов умных колонок. [1]
Анонс умной колонки «Station Mini» с дисплеем и звуком 10 Вт
5 октября 2021 года Яндекс объявил о выводе на рынок новой умной колонки Station Mini. Она получила дисплей, на котором отображается время, прогноз погоды и другая информация.
Еще одно новшество — увеличение мощности звука до 10 Вт. В первой модели показатель составлял 3 Вт. Вы также можете подключить устройство к внешней аудиосистеме через разъем AUX. А для получения эффекта пространственного звучания можно объединить колонки в «стереопару», отметил производитель.
Помимо музыкальных изменений, «Мини-станция» лишилась ультразвукового датчика для управления жестами — вместо него на верхней поверхности появились сенсорные кнопки.
Обновленная колонка также включает улучшенные модули Bluetooth и Wi-Fi, а вместо управления жестами устройство теперь управляется сенсорными кнопками на верхней панели. Расширилось количество доступных цветов — к белому и черному добавились синий и красный тех же оттенков, что и самая дорогая колонка Яндекса, Max Station.
Стоимость умной колонки Mini Station с экраном и без экрана составляет 6990 и 5990 рублей соответственно. Продажи начнутся 14 октября 2021 г., а на старте продаж покупателям колонки будет подарена трехмесячная подписка на Яндекс Плюс.
Одновременно с колонкой Яндекс представил для нее новый ТВ-модуль. Это устройство позволяет смотреть фильмы и сериалы из коллекции онлайн-кинотеатра Cinema Search HD, видеоролики с интернет-телеканалов, а также включать музыку. В устройстве есть микрофон, который позволяет получить доступ к голосовому помощнику. "Алиса"
Модуль, который делает любой телевизор умным, подключается к его порту HDMI и работает через Wi-Fi.Устройство будет стоить 4990 рублей, покупатели получат подписку Яндекс Плюс сразу на год. [2]
Рост продаж умных колонок до 1,3 млн штук за 3 года
11 марта 2021 года Яндекс впервые сообщил о продажах своих умных колонок. К этому времени, с мая 2018 года, было продано около 1,3 млн устройств Яндекс.Станции. Только за 2020 год выручка компании на этом рынке достигла 4 млрд рублей.
Основная часть продаж умных колонок за все время пришлась на первую модель, которую Яндекс выпустил в 2018 году, и Station Mini в 2019 году. Оставшуюся долю заняли Station Max, представленная в ноябре 2020 года, и «умные» колонки партнеров, в которых установлен голосовой помощник Алиса. Яндекс не называет конкретных акций.
К 11 марта 2021 года Алиса используется в умных колонках JBL Link Portable, JBL Link Music, Prestigio Smartmate Mayak Edition, LG XBOOM, Irbis A, Elary SmartBeat, Dexp Smartbox. Основные умения и навыки голосового помощника доступны на всех устройствах, отметили в Яндексе.
По данным исследовательской компании GfK, на которую ссылается Яндекс, в 2020 году 91% проданных устройств были с Алисой в категории умных колонок.
По данным источника Forbes на рынке аудиоустройств (домашняя и портативная акустика), на устройства с Алисой пришлось 15% продаж, а устройства JBL заняли первое место. При этом в декабре Яндекс почти сравнялся с JBL по продажам: на каждую компанию приходилось около трети продаж. [3]
Мини-анонс Яндекс.Станции с распознаванием жестов
9 октября 2019 года Яндекс представил мини-умную колонку Яндекс.Станция, которая получила функцию управления жестами. С их помощью, например, можно регулировать громкость и выключать устройство.
Новинка оснащена четырьмя встроенными микрофонами, благодаря чему голосовой помощник «Алиса» может слышать команды в большом помещении без необходимости повышать голос. Встроенные микрофоны при необходимости можно отключить с помощью специальной кнопки на корпусе.
Но в отличие от оригинальной "Станции", в новой версии нет видеовыхода для подключения, например, к телевизору.
По данным Яндекса, гаджет с голосовым помощником Алиса способен заменить радио, аудиоколонку, будильник и систему управления умным домом. Колонка может включить таймер на кухне, рассказать детям сказку, запустить будильник или включить музыку.
Кроме того, по команде "Алиса, дай звук" колонка превращается в синтезатор с несколькими инструментальными стилями, включая звуки мечей и сковородок. Вы можете играть в нее, двигая руками в воздухе.
В разработке стилей принимали участие композитор и музыкант Петр Термен, правнук изобретателя терминобокса Льва Термена, музыкант-экспериментатор Антон Маскелиаде и студия Monoleak.
Старт продаж Яндекс.Станции Мини запланирован на 31 октября 2019 года. Купить умную колонку можно на сервисе Яндекса Бери и в сети Связной. Стоимость устройства составит 3990 рублей.
Каждый покупатель получит в подарок три месяца подписки на Яндекс.Плюс, по которой можно слушать любые треки на Яндекс.Музыке, получать скидки и дополнительные возможности на других сервисах Яндекса.
В Беларуси и Казахстане
В Беларуси пользователям будет доступна единая подписка на сервисы Яндекс.Плюс и возможность приобрести умную колонку, пишет «Коммерсантъ». «Плюс» и «Станция» — важные элементы экосистемы Яндекса, делающие жизнь людей проще и удобнее. «Плюс» даст нашим пользователям в Беларуси новые возможности, а Станция позволит решать многие повседневные задачи по-новому — с помощью голосового интерфейса», — прокомментировал Евгений Лашкевич, директор по развитию Яндекса в Беларуси в августе 2019 года.
Яндекс.Станция будет продаваться в белорусских сетях «Пятый элемент», «На связи» и в интернет-магазине 21vek.by с 14 августа по цене 369 рублей. Покупатели колонки получат годовую подписку на Яндекс.Плюс.
Кроме того, российская интернет-компания начнет продажи Яндекс.Станции также в Казахстане. Продажи в розничной сети Sulpak стартуют 6 августа. Днем раньше спикеров получат те, кто оформит предзаказ.
Старт продаж во всех магазинах сети «Связной — Евросеть»
28 февраля 2019 года объединенная компания «Связная Евросеть» и «Яндекс» объявила о старте продаж Яндекс.Станции во всех магазинах. ритейлер Это первая розничная сеть, в которой появилась «умная» колонка Яндекса — раньше она продавалась только на маркетплейсе Беру и в магазине и музее Яндекса.
Цена Станции 9990 рублей.
Интеграция голосового помощника с KMS Lighthouse
10 июля 2018 года Яндекс начал продажу умных колонок Яндекс.Станция. В этот же день компания KMS Lighthouse, производитель программного обеспечения для управления знаниями, предложила возможность интеграции голосового помощника Алисы, которым оснащена Яндекс.Станция, с базой знаний Система управления знаниями Lighthouse, что позволит Алисе работать консультантом. в банке.
По мнению экспертов KMS Lighthouse, формат станции — хорошая возможность для Алисы «выйти» за рамки мобильного помощника и стать полноценным бизнес-помощником. Такой помощник сможет работать в отделении банка или мобильного оператора. Благодаря интеграции Алисы с базой знаний KMS Lighthouse умная колонка сможет отвечать на вопросы клиентов наравне с обычными сотрудниками. Он сможет предоставить информацию о конкретных продуктах и устройствах, операционных процедурах и текущем статусе дел.
Интеграция Алисы с KMS Lighthouse стала возможной благодаря платформе Яндекс.Диалоги, которая позволила голосовому помощнику использовать не только общедоступную информацию, но и знания информационной базы сторонних организаций. При этом дополнительный контроль доступа к информации обеспечивается на уровне самой системы KMS Lighthouse, подчеркнули в компании.
Объявление
29 мая 2018 года компания Яндекс представила Яндекс.Станцию, домашнюю мультимедийную платформу, которая стала первым гаджетом, разработанным компанией самостоятельно.
Внешне Яндекс.Станция напоминает музыкальную колонку. Она умеет воспроизводить музыку, а также находить и показывать видео, сериалы и фильмы — если подключить к телевизору. Станция управляется голосовым помощником Алисы.
Взаимодействие со станцией простое: пользователь говорит, Алиса вспоминает. Однако если смартфон улавливает сказанное, только когда пользователь находится рядом, то станция способна различать запросы, звучащие в другом конце комнаты. Как пояснили в Яндексе, это возможно из-за того, что у Станции не один микрофон, а семь. Вместе они образуют массив микрофонов — он позволяет Станции определять, откуда исходит голос, и отсекать все посторонние звуки. По словам компании, устройство поймет команду, даже если в комнате открыто окно, а под окном разбит асфальт.
Для обращения к Станции достаточно произнести слово активатора: «Алиса» или «Яндекс». Станция имеет два режима распознавания речи: фоновый и основной. В фоновом режиме он реагирует только на слова-активаторы. Если прозвучало слово активатор, Станция понимает, что к ней обращаются, и переходит в полноценный режим распознавания, заявили в компании. При желании и необходимости массив микрофонов можно отключить одной кнопкой, после чего устройство перестанет реагировать даже на слова-активаторы.
Платформа оснащена тремя динамиками общей мощностью 50 Вт и двумя пассивными излучателями и может работать в стереорежиме. Для меломанов в «Яндексе» предусмотрели возможность снимать кожух — тогда треки будут звучать без малейших искажений.
По словам разработчиков, станция сохраняет способность понимать пользователя даже при воспроизведении музыки из колонок. Для этого компания разработала набор технологий, которые вычитают исходящий сигнал из входящего сигнала.
Внутри Яндекс.Станции есть компьютер с модулем Wi-Fi — через него Алиса выходит в Интернет для поиска информации.При этом станцию можно использовать как обычную Bluetooth-колонку: подключить к смартфону или планшету и слушать музыку из памяти устройства.
Яндекс не уточнил точную дату выхода устройства, но сообщил, что стоимость Станции составит 9990 рублей. Компания планирует постоянно расширять возможности мультимедийной платформы.
Примечания
Контент сайта переведен с помощью программного обеспечения для машинного перевода PROMT. Статьи с машинным переводом не всегда идеальны и могут содержать ошибки в лексике, синтаксисе или грамматике. Читать оригинальную статью
Мы только что представили наше новое устройство — Яндекс.Станцию Мини. Это компактная умная колонка, которая умеет воспроизводить музыку, управлять умным домом, устанавливать напоминания — и многое другое. Также это первая колонка с Алисой, которой можно управлять жестами.
Сегодня мы расскажем читателям Хабра несколько историй об этапах создания Мини Станции. От оптической калибровки и UX-тестирования до неочевидных особенностей работы с блоками питания. И вы узнаете, что такое терменвокс и как он связан с устройством Яндекс.
Но для начала небольшое воспоминание.
В прошлом году мы рассказывали на Хабре о развитии «большой» Яндекс.Станции (а также платформы Яндекс.IO, которую используем мы и партнеры). Это наше флагманское устройство с Алисой, предназначенное для размещения в центре большой комнаты рядом с телевизором. У нее мощный 50-ваттный звук. Три активных динамика с широким диапазоном частот. Семь микрофонов работают как один радар. Выход HDMI, в конце концов.
Весь этот год мы не стояли на месте. Голос Алисы становился все более и более естественным. Она научилась решать проблему произношения для многих омографов, то есть в зависимости от контекста правильно подчеркивать слова, которые пишутся одинаково, но имеют разное значение. Слух тоже развился: недавно мы уже рассказывали о том, как учили Алису не отзываться на чужие имена. Недавно мы начали тестировать возможность узнавать владельца колонки по голосу.
И мы также запустили платформу умного дома. Теперь с помощью голоса можно управлять сторонними устройствами и даже объединять их в скрипты. Отказ от пультов и кнопок в пользу голоса — ключевая особенность нашей платформы. А для этого Алиса должна быть рядом.
Кроме того, умная колонка — это не только музыка, радио и видео, но и напоминания, будильник, погода, ответы по фактам, сказки и игры для детей и т. д. Устройство может пригодиться у кровати, в офисе, на кухне, в любом другом уголке квартиры.
Поэтому мы решили сделать еще одну Станцию — для тех, кому нужно более простое и компактное устройство с Алисой.
Уменьшить размер устройства
Мини-версии не нужен громкий звук, поэтому тяжелые и большие динамики были заменены на один трехватный. Этого более чем достаточно для простых задач. Хотя даже это может вызвать проблемы с электропитанием, если не учитывать один нюанс, но об этом позже.
Отказался выходить на телевизор. Это снижает нагрузку, тепловыделение и, следовательно, требования к электронике. Стал ненужным и массивный металлический каркас Станции с пассивным радиатором для охлаждения.
Вместо семи микрофонов осталось четыре, потому что громкий звук больше не мешает восприятию речи. Но при этом микрофоны, как и в Станции, работают по принципу фазированных антенных решеток, или направленного микрофона. Устройство алгоритмически ищет голосовую команду со словом «Алиса» в окружающем шуме. Затем определяет направление и очищает сигнал от шумов, в том числе вычитая музыку. И только после этого сигнал уходит в облако и распознается.
Чтобы распознавание речи работало наиболее точно, нейронную сеть необходимо обучать на записях, которые были произнесены специально для этого устройства. Брать нейросетевую модель с «большой» Станции нет смысла, потому что ее эффективность на Мини-Станции будет не такой высокой.
Эта проблема может быть решена различными способами. Например, наймите людей, чтобы они зачитывали колонку фраз на листе бумаги. Но мы получим несколько записей, не похожих на реальные запросы пользователей, потому что на самом деле записи содержат непредсказуемый шум, перекрывающиеся голоса и многое другое.
Поэтому мы не стали экономить на качестве и сразу заказали на заводе несколько сотен готовых динамиков, которые раздали участникам закрытого бета-теста в Яндексе в обмен на помощь в обучении нейросети. И это сработало.
Кстати, не отказались и от аппаратной кнопки Mute, обесточивающей микрофоны и приглушающей «слух» Алисы. Он не добавляет особой сложности устройству и теперь расположен сбоку.
Но от остальных кнопок отказались. И тут начинается самое интересное.
Добавить магию и лазер
Посмотрите на фото ниже. Это вид сверху на обе наши станции. Сегодня мы не будем говорить о дизайне — постарайтесь найти еще одно важное отличие.
Обратите внимание: кнопок нет. И нет поворотного кольца для регулировки звука. Если делать маленькое легкое устройство, почти вся электроника которого умещается на одной плате, то механические элементы только усложняют конструкцию и увеличивают размеры.
Голос – это наиболее естественный способ управления умными колонками. Но бывает, что человек разговаривает по телефону или обедает, поэтому дублер все равно нужен. И мы нашли вариант. И не менее естественно.
Представьте: вы делаете жест рукой, и ваша любимая песня становится все громче. Или просто положите ладонь на колонку, и будильник сработает.
Как работает магия жестов? За это отвечает датчик глубины, который спрятан под крышкой устройства. Вот так это выглядит на плате при значительном увеличении (длина в реальности всего 4 мм, толщина и вовсе 1 мм):
Это вертикально излучающий инфракрасный лазер с длиной волны 940 нм в сочетании с приемным фотодиодом. Луч отражается от препятствия над колонной и возвращается. А так как скорость света известна, то можно в любой момент определить расстояние до объекта.
Вроде достаточно купить датчик и подключить его к плате, чтобы все работало нормально. Но нет.
Сенсор спрятан внутри, над ним есть отверстия в корпусе (иначе бы работал). Это означает, что пыль и другой мусор могут искажать измерения.
Нужна защитная пластина, которая закроет лазер и фотодиод, но поместится в корпусе. Его материал строго регламентирован, так как не все виды пластика хорошо работают в ближнем инфракрасном диапазоне. При большом желании стекло тоже можно вырезать, но это достаточно сложно, а значит очень дорого.
При этом каждая защитная пластина литая и в прямом смысле уникальна. Невозможно сделать две одинаковые тарелки. Итак, каждый из них по-своему влияет на распространение луча. Если это не учесть, то мы получим ошибку измерения расстояния.
Каждая новая мини-станция проходит этап калибровки датчика на конвейере, чтобы учесть индивидуальные характеристики объектива. Проще говоря, чтобы на этой высоте устройство воспринимало препятствие высотой 15 см. Калибровка примерно такая. Листы берутся из материалов, похожих на фотобумагу, но не пропускающих инфракрасный диапазон, и статично размещаются на известной высоте.
В итоге мы дошли до этапа, когда нужно протестировать точность работы датчика в собранном устройстве. Но оказалось, что готового промышленного устройства для этого просто не существует. Ничего не поделаешь - построили свой девайс. На фото ниже вы можете видеть первый прототип в нашем офисе в Москве, собранный буквально из листов фанеры, напечатанных на 3D-принтере втулок, двух моторов и контроллера для управления ими. Эта штука автоматически перемещает платформу, имитирующую руку, над колонной, чтобы оценить, насколько точно датчик определяет расстояние.
Позже точные копии были отправлены в производство.
Стабилизируем питание
Пришло время подумать об блоке питания, о котором мы обещали рассказать выше.
Колонка потребляет энергию. В среднем немного, меньше 5 Вт даже на большой громкости. Но, в отличие от многих других мелких бытовых приборов, его потребление крайне неравномерно. Мы заметили этот эффект на раннем прототипе, когда использовали датчик жестов во время прослушивания этого трека:
Попробуйте угадать, что с ним не так? Резкие переходы к низким частотам. А чем низкие частоты отличаются от высоких?Амплитуда колебаний диафрагмы динамика. Чем он выше, тем больше энергии потребляет устройство.
Прибавьте к этому жестовое управление, голосовые команды, сетевой трафик - и вы получите короткие, но непредсказуемые моменты, когда потребление подскакивает настолько, что простые блоки питания просто не справляются с поддержкой стабильного напряжения. Например, типовые зарядки для смартфонов на это не рассчитаны, потому что у этого класса устройств аккумулятор и потребление достаточно равномерное. Колонка, если кратковременно просядет напряжение питания, может просто перезагрузиться.
Чтобы избежать этой проблемы, мы протестировали прототипы на звуке с частотой 100 Гц. Именно на него динамик создает наибольшую нагрузку. Наш внешний блок питания хоть и выглядит как типичная зарядка с USB Type-C на 1,5 ампера, но к таким ситуациям готов. Более того, мы понимаем, что люди могут подключать собственные блоки питания, поэтому при разработке заменили внутренние преобразователи питания (так называемые DC-DC преобразователи) на те, которые выдерживают кратковременные перепады напряжения. Конечно, сторонние блоки питания бывают разные, мы их не тестируем и не рекомендуем, но помогает решение с заменой преобразователей.
Кстати, мы учли и пожелания пользователей: у белой Station Mini белый блок питания и провод. Мелочь, а приятно.
Делайте жесты
Надежное устройство и датчик — это только полдела. Осталось придумать сами жесты. Лучший способ что-то придумать — собрать максимум идей, а потом постепенно их отфильтровывать и тестировать. Мы так и сделали: организовали внутренний хакатон с призами. Любой сотрудник компании мог предложить и тут же реализовать свои жесты для устройства. В Яндексе такой подход работает хорошо.
Было много вариантов. Мы отсеяли их по нескольким критериям, но самое главное — по двум. Во-первых, если функция популярная и часто востребованная, то жест для нее должен быть простым и легко воспроизводимым. Во-вторых, удачный жест интуитивно понятен. Можно написать инструкцию, снять обучающее видео, но все это менее эффективно, чем старая добрая интуиция.
Мы быстро определились с жестом "Алиса, перестань". Пользователи уже привыкли просто класть руку на будильник, телефон, смарт-часы, чтобы выключить звук.
А вот с жестом регулировки звука все было не так очевидно. У нас было два варианта победителя. В обоих подразумевалось, что звук управляется с помощью воображаемой вертикальной шкалы над динамиком. Но достаточно ли просто положить руку над динамиком: чем больше расстояние, тем выше громкость? Или лучше взять относительный масштаб и двигать ладонью вверх/вниз для плавного изменения громкости?
Тестирование UX хорошо подходит для поиска ответов на такие вопросы. Для этого в Яндексе создана специальная лаборатория: мы приводим туда людей с улицы и наблюдаем, как они пользуются продуктом. Эта практика очень полезна.
Мы надеялись, что один из двух вариантов точно выиграет в UX-тестировании. Но не сейчас. Поведение людей разделилось примерно поровну. Итак, вам нужно проверить оба варианта. Так мы поступили в рамках бета-теста, и его участники достаточно быстро указали на существенный недостаток абсолютной шкалы. Этот вариант приводит к тому, что случайный взмах руки (или полет кошки) может внезапно включить максимальную громкость. И это неприятно.
Победил параметр относительного масштаба. Хотя были улучшения, основанные на отзывах пользователей бета-версии. Например, были добавлены эвристики от случайных падающих предметов: чтобы звук изменился, ладонь должна на мгновение замереть на одной высоте и только потом двигаться. А еще добавили звуковую индикацию уровней громкости, чтобы человек точно слышал, на сколько шагов он ее изменил.
На этом история могла бы и закончиться, но коллеги, работающие над жестами, оказались большими любителями музыки и нестандартных способов ее исполнения.
Добавить гравицапу
В ходе работы над жестами родилась следующая идея: с помощью движений рук не только регулировать громкость, но и создавать музыку. Позже мы вспомнили, что эта идея уже применяется в терменвоксе. Этот электромузыкальный инструмент был создан в 1920 году советским изобретателем Львом Сергеевичем Терменом. Терменвокс работает следующим образом: движения руки изменяют мощность его колебательного контура и, соответственно, частоту звука. Просто послушайте самого изобретателя:
Классический инструмент Льва Термена использует электромагнитное поле и две антенны: для управления громкостью и высотой тона. У нас есть только один инфракрасный луч, поэтому вы можете управлять чем-то одним. Мы взяли объем за константу.
Петр Термен, композитор и исполнитель на терменвоксе, правнук Льва Термена, помог нам разработать новый режим. А музыкант-экспериментатор Антон Маскелиаде и студия Monoleak создали для синтезатора инструментальные стили: от привычных фортепиано и гитар до необычных шпаг и сковородок. Можно даже включить космическую музыку — достаточно сказать: «Алиса, дай звук гравицапа». В коллекции уже несколько десятков инструментов, и она будет пополняться.
В терменвоксе малейшее движение руки меняет частоту звука. Нужно быть профессионалом с сильной рукой, чтобы точно бить по нотам и воспроизводить что-то мелодичное. Мы хотели, чтобы все слушали музыку на нашем динамике. Поэтому для многих инструментальных стилей воображаемый луч делился на сегменты, каждому из которых присваивался определенный звук.
Кстати, изначально режим синтезатора разрабатывался как личный проект одного из наших коллег. Но дети, которых мы тоже пригласили на UX-исследование, были в восторге от нового режима. Так мы поняли, что не должны стесняться и должны привнести личную инициативу в продукт.
Сегодня мы показали, что даже за небольшим и, казалось бы, простым устройством скрывается целая история и множество технологических решений. Какие отдельные истории вы хотели бы услышать подробнее?
Мы считаем, что будущее за голосовым управлением, ведь во многих случаях легко сказать — это гораздо удобнее и естественнее, чем нажатие кнопок. И новое устройство — еще один шаг в этом направлении.
Читайте также: