Чтобы выбрать тематику новостей и подкастов, нужно просто открыть приложение Яндекс и сказать: «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей». Голосовой помощник «Алиса» научили проводить утренние шоу, которые подстраиваются под определённого пользователя. Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Теперь голосовой помощник может запускать новостные блоки с девяти станций, включая «Хит ФМ» и «Коммерсантъ FM». Утренние шоу впервые появились в апреле этого года. «Алиса, включи шоу» — для начала воспроизведения выбранного видео.
Место под большое лого и рекламу навыков
О сервисе Прессе Авторские права Связаться с нами Авторам Рекламодателям Разработчикам. Особенностью Алисы стала личность, разработанная коллективом Яндекса вместе с журналистом и бывшим руководителем группы маркетинга компании Владимиром Гуриевым. В конце 2020 года утреннее шоу Алисы стало персонализированным. Это означает, что вы можете настроить его в соответствии с вашими интересами, указав предпочтительные темы новостей и подкастов. Тогда, услышав запрос «Расскажи новости», Алиса будет всегда включать новости нужного издания. Кроме этого, их можно добавить в утреннее шоу Алисы.
Вышло большое обновление Алисы. Смотри, что теперь умеет твоя Яндекс Станция
Шаг 3: Выберите раздел «Новости». Слушать утреннее шоу Алисы Утреннее шоу Алисы поможет настроиться на день и не забыть о важном. Особенностью Алисы стала личность, разработанная коллективом Яндекса вместе с журналистом и бывшим руководителем группы маркетинга компании Владимиром Гуриевым. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. «Алиса» научилась персонализировать «Утреннее шоу». Настройка частоты получения новостей позволит вам сделать использование навыка Алисы более удобным и эффективным, подстроив его под ваш ритм жизни. В конце 2020 года утреннее шоу Алисы стало персонализированным. Это означает, что вы можете настроить его в соответствии с вашими интересами, указав предпочтительные темы новостей и подкастов.
Место под большое лого и рекламу навыков
Настройте Утреннее шоу для себя: выберите источники новостей, подкасты и даже гороскоп Зайдите в приложение Яндекс и выберите «Устройства»; Нажмите на вкладку «Настройки»; Выберите «Шоу Алисы». «Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости на Яндекс Алисе: шаг за шагом. Настройка новостей в Яндекс Алисе позволяет получать свежие новости по интересующим вас темам. Яндекс Станция включает Шоу Алисы (погода, новости, музыка и т.п.). Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером. так назвали программу, при которой Алиса будет ставить различные треки из плейлиста пользователя на , дополняя их различными комментариями во время пауз, а также сообщая новости на интересующую. так назвали программу, при которой Алиса будет ставить различные треки из плейлиста пользователя на , дополняя их различными комментариями во время пауз, а также сообщая новости на интересующую. «Алиса, включи шоу» — для начала воспроизведения выбранного видео.
Утреннее шоу «Алисы» стало персональным
Как включить новости в Яндекс Браузере. Теперь пользователи могут добавить новости в Утреннее шоу Алисы. Персонализированное «Утреннее шоу» с «Алисой» (не все знают о его настройке). «Утреннее шоу» и новости радиостанций доступны во всех умных колонках с поддержкой «Алисы». Персонализированное «Утреннее шоу» с «Алисой» (не все знают о его настройке).
Новый формат контента в утреннем шоу Алисы: истории от навыков
Утреннее шоу представляет собой некий “винегрет” из интересных публикаций и новостей с различных сайтов, навыков Алисы и музыки. Шаг 3: Выберите раздел «Новости». Слушать утреннее шоу Алисы Утреннее шоу Алисы поможет настроиться на день и не забыть о важном. «Мы хотим, чтобы Алиса была не только помощником, но и другом, с которым приятно проводить время. Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме, и утреннее шоу — первый шаг в этом направлении». Утреннее шоу Алисы — как настроить и использовать Утреннее шоу Алисы позволяет ознакомиться с новейшими новостями, прослушать интересные подкаcты и. Для того чтобы настроить новости на колонке с Алисой Яндекс.
Команды и сценарии для Алисы: покоряем умного помощника
Произнеся команду "Алиса, включи утреннее шоу! Так, например "Алиса" ставит и комментирует песни из персонального плейлиста дня на "Яндекс. Музыке", где собраны треки, отобранные для пользователя. Также "Яндекс" обучил своего голосового помощника ориентироваться в происходящем и говорить о том, что волнует людей.
На экране появятся слова, которые автоматически синхронизируются с текущим треком. Отличное решение для караоке-вечеринки. Что ещё появилось на ТВ Станциях?
Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — отметил Андрей Законов, руководитель продукта голосового помощника «Алиса». Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций.
Утренние шоу впервые появились в апреле этого года.
Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра. Ранний параметрический синтез: эпоха до Алисы Мы начали заниматься голосовыми технологиями в 2012 году. Через год родился SpeechKit.
Ещё через год мы научились синтезировать голос — возможно, вы помните YaC 2014 и экспериментальный проект Яндекс. С тех пор прогресс не останавливается. Исторически речевой синтез бывает двух видов: конкатенативный и параметрический. В случае с первым, есть база кусочков звука, размеченных элементами речи — словами или фонемами. Мы собираем предложение из кусочков, конкатенируя то есть склеивая звуковые сегменты. Такой метод требует большой базы звука, он очень дорогой и негибкий, зато до пришествия нейросетей давал самое высокое качество.
При параметрическом синтезе базы звука нет — мы рисуем его с нуля. Из-за большого прыжка в размерности end2end работает плохо даже сейчас. Лучше разделить это преобразование на два шага: сначала нарисовать звук в особом параметрическом отсюда название метода пространстве, а затем преобразовать параметрическое представление звука в wav-файл. В 2014 году нейросетевые методы речевого синтеза только зарождались. Тогда качеством правил конкатенативный синтез, но нам в эру SpeechKit было необходимо легковесное решение для Навигатора , поэтому остановились на простом и дешёвом параметрическом синтезе. Он состоял из двух блоков: Первый — акустическая модель.
Она получает лингвистические данные разбитые на фонемы слова и дополнительную разметку и переводит их в промежуточное состояние, которое описывает основные свойства речи — скорость и темп произнесения слов, интонационные признаки и артикуляцию — и спектральные характеристики звука. К примеру, в начале, до появления Алисы, в качестве модели мы обучали рекуррентную нейросеть RNN с предсказанием длительности. Она достаточно хорошо подходит для задач, где нужно просто последовательно проговаривать фонемы и не надо рисовать глобальную интонацию. Затем данные передаются на второй блок — вокодер — который и генерирует звук то есть создаёт условный wav по его параметрическому представлению. Вокодер определяет низкоуровневые свойства звука: sampling rate, громкость, фазу в сигнале. Наш вокодер в первой системе был детерминированным DSP-алгоритмом не обучался на данных — подобно декодеру mp3, он «разжимал» параметрическое представление звука до полноценного wav.
Естественно, такое восстановление сопровождалось потерями — искусственный голос не всегда был похож на оригинал, могли появляться неприятные артефакты вроде хрипов для очень высоких или низких голосов. Схема параметрического синтеза Это стандартная архитектура для любой ранней параметрики со своими достоинствами и недостатками. Главный плюс — для обучения модели нужно мало данных нам хватило 5-10 часов записей человеческой речи. Можно синтезировать любой произвольный текст, который даже будет плавно звучать. К сожалению, слишком плавно: недостатком раннего параметрического синтеза было то, что полученный голос звучал неестественно. Он был слишком гладким, лишённым интонаций и эмоций, звенел металлом.
Люди так не говорят. Вот как звучал голос при раннем параметрическом синтезе: Причина неестественности синтезированного голоса кроется в самой архитектуре. У акустической модели мало информации о тексте в целом. Даже рекуррентная нейросеть, которая, казалось бы, умеет запоминать предыдущие состояния, очень быстро забывает их и фактически не учитывает полный текст. При этом человек обычно произносит речь, понимая, что только что прозвучало и что будет дальше по тексту. Кроме того, человеческая речь мультимодальна — есть несколько способов произнести текст, каждый из которых описывается сигналом и звучит более-менее нормально.
Но среднее между этими способами звучит неестественно. Проблема стандартных регрессионных методов глубокого обучения в том, что они ищут одну моду — «хорошее среднее» — и попадают в такие «провалы неестественности». В результате оказывается, что лучше случайно выбрать один из двух способов, чем попасть в среднее между ними. Впрочем, даже если акустическая модель и смогла бы разобраться в контексте и выдать обогащённое информацией промежуточное состояние, то с ним уже не мог справиться примитивный вокодер. Поэтому мы не остановились и стали искать более совершенные решения. Конкатенативный синтез: рождение Алисы В 2016 году мы решили создать Алису — сразу было понятно, что это более амбициозная задача, чем всё, чем занимались раньше.
Дело в том, что в отличие от простых TTS-инструментов, голосовой помощник должен звучать человечно, иначе люди просто не станут с ним или с ней общаться. Предыдущая архитектура совершенно не подходила. К счастью, был и другой подход. Точнее, даже два. Тогда как раз набирал обороты нейропараметрический подход, в котором задачу вокодера выполняла сложная нейросетевая модель. Например, появился проект WaveNet на базе свёрточной нейросети, которая могла обходиться и без отдельной акустической модели.
На вход можно было загрузить простые лингвистические данные, а на выходе получить приличную речь. Первым импульсом было пойти именно таким путём, но нейросети были совсем сырые и медленные, поэтому мы не стали их рассматривать как основное решение, а исследовали эту задачу в фоновом режиме. На генерацию секунды речи уходило до пяти минут реального времени. Это очень долго: чтобы использовать синтез в реальном времени, нужно генерировать секунду звука быстрее, чем за секунду. Что же делать? Если нельзя синтезировать живую речь с нуля, нужно взять крошечные фрагменты речи человека и собрать из них любую произвольную фразу.
Напомню, что в этом суть конкатенативного синтеза, который обычно ассоциируется с методом unit selection. Пять лет назад он уже давал наилучшее качество при достаточном количестве данных в задачах, где была нужна качественная речь в реальном времени. И здесь мы смогли переиспользовать нейросети нашей старой параметрики. Работало это следующим образом: На первом шаге мы использовали нейросетевую параметрику, чтобы синтезировать речь с нуля — подобному тому, как делали раньше.
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро
Алиса, дай мне мероприятия в моем городе Алиса предлагает множество других навыков, которые вы можете использовать вместе с Утренним шоу. Вы можете использовать навыки Алисы для покупки товаров или выполнения задач по дому, управления умными устройствами и воспроизведения музыки. Вы также можете использовать навыки Алисы для игры в игры и для доступа к другим приложениям.
Причины, по которым Алиса может не реагировать на команды Что такое сценарии и чем они отличаются от команд? Сценарии для Алисы — это набор команд, которые выполняются последовательно в определенном порядке. Они автоматизируют выполнение конкретных действий, например включение или отключение устройств умного дома, воспроизведение музыки, установку будильника и так далее. Сценарии можно создавать самостоятельно или использовать готовые шаблоны. Команды для Алисы — это отдельные приказы, которые выполняются сразу после их произнесения.
Например, команда «Алиса, включи свет» включает свет в комнате. Команды можно использовать для выполнения простых действий, которые не требуют автоматизации. Основные отличия между сценариями и командами для Алисы: Сценарии выполняются последовательно, а команды — сразу после произнесения. Сценарии позволяют автоматизировать выполнение определенных действий, а команды — нет. Сценарии могут включать в себя как команды для Алисы, так и команды для других устройств умного дома. Рассмотрим конкретные примеры сценариев для Алисы и включенные в них команды.
Алиса направит жалобу на дороги, благоустройство или здравоохранение в местный орган власти, отвечающий за ее решение. Как посчитать калории для себя Не знаете, сколько калорий в пище?
Скажите Алисе: она посчитает все за вас и даже подскажет меню на следующий день Яндекс. Станция — хороший помощник для тех, кто следит за своей фигурой. Скажите Алисе «Попроси умный счетчик калорий записать» и уточните блюдо. В ответ ассистент вам расскажет о содержании белков, жиров и углеводов в пище. Если фиксировать с помощью Алисы съеденное за день, то вечером она сообщит, сколько калорий вы употребили за день и даже рассчитает меню на следующий день. Алиса точно знает названия блюд и подскажет, что употреблять из напитков. Остались вопросы по статье? Задать их можете в нашем Telegram-чате!
Как начать тренироваться дома Тренажерный зал — это круто, но кто сказал, что тренировки дома чем-то хуже? Скажите: «Алиса, запусти навык фитнес-наставник«. Голосовой помощник заменит вам тренера: Алиса расскажет, как сделать упражнение, включит музыку и посчитает примерное количество сожженных калорий. А какие классные навыки Алисы знаете вы?
Когда на колонку поступит уведомление, прозвучит короткий звуковой сигнал, а сама колонка начнет мигать зеленым. Просто скажите «Алиса, что нового? Какой сериал посмотреть Яндекс. Станция поможет выбрать похожий сериал взамен того, что вы уже посмотрели Согласитесь, когда заканчивается сериал , есть ощущение пустоты и кажется, что жизнь уже не будет прежней без былого сюжета. Ничего страшного!
Просто скажите колонке «Алиса, запусти навык «Подбор сериала». Вам нужно будет сказать название любимого сериала, а голосовой помощник предложит вам несколько аналогичных вариантов, схожих по сюжету. В яблочко! Еще больше статей о голосовых ассистентах и умных колонках в нашем Яндекс. Не забудьте подписаться! Краткий пересказ книги Читать полезно, но иногда жизненно необходимо быстро узнать краткое содержание Если бы Алиса существовала в мои школьные годы, то я бы сэкономил кучу времени! Вы знали, что голосовой ассистент имеет навык «Умный пересказ»? В ней доступны две категории: Лучшее и книги школьной программы. Для этого вам необходимо сказать «Алиса, запусти умный пересказ» и далее выбрать категорию. Я, например, с удовольствием ознакомился с содержанием нескольких книг из школьной программы, которые читал очень давно.
Утренняя Алиса. У голосового помощника Яндекса теперь своё шоу
Ещё больше интересных видео на YouTube канале Игромании! Голосовой помощник «Алиса» для смарт-колонок «Яндекса» научился вести утренние шоу. В компании обещают персонализированные программы с полезной информацией, любимой музыкой, новостями и прочим интересным каждому пользователю контентом.
Просто в любой момент вызовите Алису и сформулируйте для нее список дел из одного или нескольких пунктов. А потом управляйте им: переносите задачи на завтра, удаляйте конкретные пункты, отмечайте те, что уже сделали. Здесь же пригодится и функция напоминаний: при составлении списка дел вы можете указывать только день — попросить составить список на сегодня, завтра или конкретную дату. А команды вроде «Напомни позвонить Александру по поводу квартиры» работают с часами и даже минутами. Воспользоваться функцией можно даже в телевизоре.
Сейчас в голосовом помощнике доступны 11 новостных тематик и 21 рубрика для подкастов. В общей сложности у «Алисы» больше двух тысяч подкастов на разные темы. Новости радиостанций можно слушать как в утреннем шоу, так и отдельно. Причём их зачитывает ведущий. Голосовой помощник следит за новостными выпусками девяти радиостанций. А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь.
На экране появятся слова, которые автоматически синхронизируются с текущим треком. Отличное решение для караоке-вечеринки. Что ещё появилось на ТВ Станциях?
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро
Роутер переключил канал и Алиса молчит. Сказал продолжить - в момент отключения играла музыка, Алиса начала играть просто музыку. С начала слушать не интересно. Алексей Киваков.
И иногда добавляет к ним подкасты. Звучит живо и увлекательно.
Интереснее, чем на многих новостных ТВ-каналах. Для запуска функции достаточно сказать «Алиса, включи утреннее шоу».
Например, выбрать, какой контент и в каком порядке они хотят слушать: подкасты на разные темы, прогноз погоды, конкретные навыки, музыкальные треки или новости из определённых источников. Афиша мероприятий и новости Анонсы интересных мероприятий будут отображаться на главном экране «Станции Дуо Макс». Чтобы узнать о предстоящем событии больше, надо нажать на кнопку «Подробнее», и «Алиса» покажет все детали во встроенном «Браузере». Радионяня для каждого в семье Теперь на «Яндекс Станции» можно включить режим радионяни и получать звуки из детской прямо на телефон. Для этого надо пригласить близких в свой «Дом» и указать, кто может включать режим радионяни.
Вспомните строение улитки в ухе: это просто канал, закрученный по спирали. Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов. Низкочастотный же звук проходит вглубь. Поэтому люди хорошо различают низкочастотные звуки, но высокочастотные сливаются. Мел-спектрограмма как раз позволяет представить звук, акцентируясь на той части спектра, которая значимо различается слухом. Это полезно, потому что мы генерируем звук именно для человека, а не для машины. Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»: У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент. Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением. А так звучит результат синтеза: 3.
Новый вокодер Вероятно, вы уже догадались, что мы перешли к использованию нового нейросетевого вокодера. Именно он в реальном времени превращает мел-спектрограмму в голос. Наиболее близкий аналог нашего первого решения на основе нейросетей, которое вышло в 2018 году — модель WaveGlow. Архитектура WaveGlow основана на генеративных потоках — довольно изящном методе создания генеративных сетей, впервые предложенном в статье про генерацию лиц. Сеть обучается конвертировать случайный шум и мел-спектрограмму на входе в осмысленный wav-сэмпл. За счёт случайного шума на входе обеспечивается выбор случайной wav-ки — одной из множества соответствующих мел-спектрограмме. Как я объяснил выше, в домене речи такой случайный выбор будет лучше детерминированного среднего по всем возможным wav-кам. В отличие от WaveNet, WaveGlow не авторегрессионен, то есть не требует для генерации нового wav-сэмпла знания предыдущих. Его параллельная свёрточная архитектура хорошо ложится на вычислительную модель видеокарты, позволяя за одну секунду работы генерировать несколько сотен секунд звука. Главное отличие, за счёт которого HiFi-GAN обеспечивает гораздо лучшее качество, заключается в наборе подсетей-дискриминаторов.
Они валидируют натуральность звука, смотря на сэмплы с различными периодами и на различном масштабе. Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза. Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже. Схема HiFi-GAN из статьи авторов модели Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса. Параллельно мы работали над улучшением отдельных элементов синтеза: Летом 2019 года выкатили разрешатор омографов homograph resolver — он научил Алису правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки» и так далее. Здесь мы нашли остроумное решение. В русском языке эти слова пишутся одинаково, но в английском написание отличается, например, castle и lock, proteins и squirrels. Из этого представления легко выделить информацию о том, как произносить омограф, ведь перевод должен различать формы для корректного подбора английского варианта. Буквально на 20 примерах можно выучить классификатор для нового омографа, чтобы по эмбеддингу перевода понимать, какую форму нужно произнести. Летом 2020 года допилили паузер для расстановки пауз внутри предложения.
Язык — хитрая штука. Не все знаки препинания в речи выражаются паузами Например, после вводного слова «конечно» на письме мы ставим запятую, но в речи обычно не делаем паузу. А там, где знаков препинания нет, мы часто делаем паузы. Если эту информацию не передавать в акустическую модель, то она пытается её выводить и не всегда успешно. Первая модель Алисы из-за этого могла начать вздыхать в случайных местах длинного предложения. Для этого мы взяли датасет, разметили его детектором активности голоса, сгруппировали паузы по длительности, ввели класс длины паузы, на каждое слово навесили тэг и на этом корпусе обучили ещё одну голову внимания из тех же нейросетевых эмбеддингов, что использовались для детекции омографов. Осенью 2020 года мы перевели на трансформеры нормализацию — в синтезе она нужна, чтобы решать сложные случаи, когда символы читаются не «буквально», а по неким правилам. Например, «101» нужно читать не как «один-ноль-один», а как «сто один», а в адресе yandex. Обычно нормализацию делают через комбинацию взвешенных трансдьюсеров FST — правила напоминают последовательность замен по регулярным выражениям, где выбирается замена, имеющая наибольший вес. Мы долго писали правила вручную, но это отнимало много сил, было очень сложно и не масштабируемо.
Тогда решили перейти на трансформерную сеть, «задистиллировав» знания наших FST в нейронку. Теперь новые «правила раскрытия» можно добавлять через доливание синтетики и данных, размеченных пользователями Толоки, а сеть показывает лучшее качество, чем FST, потому что учитывает глобальный контекст. Итак, мы научили Алису говорить с правильными интонациями, но это не сделало ее человеком — ведь в нашей речи есть еще стиль и эмоции. Работа продолжалась. С чувством, толком, расстановкой: стили голоса Алисы Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение. Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре. Казалось, что у неё менялось настроение в каждом предложении. Вот пример записи с явными перебоями в стилях: Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку». Суть в том, что через очень lossy-пространство всего 16 чисел на всё предложение разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении.
За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки. На инференсе мы генерируем стилевую подсказку, похожую на те, что были в обучающем сете. Это можно делать, взяв готовый стиль из обучающего примера или обучив специальную подсеть генерировать стили по тексту. Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса. Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки.