Алиса с каждым днем становится лучше, и теперь у нее появилось собственное утреннее шоу! Каждое утро вас ждет коктейль из рассказа о погоде, персональной подборки новостей, выпуска классного подкаста и, специально подобранных под вас треков с комментариями Алисы! «Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости на Яндекс Алисе: шаг за шагом. Настройка новостей в Яндекс Алисе позволяет получать свежие новости по интересующим вас темам. Алиса с каждым днем становится лучше, и теперь у нее появилось собственное утреннее шоу! Каждое утро вас ждет коктейль из рассказа о погоде, персональной подборки новостей, выпуска классного подкаста и, специально подобранных под вас треков с комментариями Алисы!
Алиса запустила утреннее шоу с персональными рекомендациями
Люди могут слушать полезную информацию, музыку и интересные истории, подобранные специально для них. Чтобы запустить программу, достаточно сказать: "Алиса, включи утреннее шоу! И в этот же момент к слушателям придут новости, прогноз погоды, музыка и короткие подкасты - например, о том, способны ли животные обманывать или как влияет шоколад на здоровье. Еще до шоу Алиса выступала диджеем: она ставит и комментирует песни из персонального плейлиста дня на Яндекс. Музыке - в нем собраны треки, отобранные для пользователя.
Например, человек может выбрать новости спорта и подкасты про кино. Кроме того, в голосовом помощнике появились новости радиостанций.
Утреннее шоу — это развлекательная программа, где «Алиса» выступает в роли ведущей. Она читает новости, ставит людям музыку и развлекает историями на разные темы — почти как настоящий диджей. Чтобы она включала наиболее подходящий контент, нужно указать свои предпочтения в настройках.
Похоже, вы используете устаревший браузер, для корректной работы скачайте свежую версию 16 апреля 2020, 07:26 Умные колонки с "Алисой" научились вести персонализированные утренние шоу Голосовой помощник ставит и комментирует песни из персонального плейлиста дня на "Яндекс. Умные колонки с голосовым помощником "Алиса" научились проводить утренние шоу, которые подбираются под конкретных пользователей. Об этом говорится в сообщении "Яндекса". Произнеся команду "Алиса, включи утреннее шоу!
Ещё больше интересных видео на YouTube канале Игромании! Голосовой помощник «Алиса» для смарт-колонок «Яндекса» научился вести утренние шоу. В компании обещают персонализированные программы с полезной информацией, любимой музыкой, новостями и прочим интересным каждому пользователю контентом.
Топовые фишки Яндекс.Станции, о которых вы могли не знать
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса | «Утреннее шоу» — это развлекательная программа с «Алисой» в роли ведущей. Виртуальный помощник читает новости, включает музыку и зачитывает истории на разные темы. |
Утренняя Алиса. У голосового помощника Яндекса теперь своё шоу | Покупайте, слушайте утреннее шоу алисы, оно 3 часа или почти 4 часа. |
Топовые фишки Яндекс.Станции, о которых вы могли не знать - | Для настройки новостей на колонке Алиса Яндекс, найдите раздел «Новости» или «Информация» и выберите его. |
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса | Виртуальный ассистент Алиса поставит утреннее шоу: слушайте музыку, новости, подкасты и настраивайтесь на день. |
«Яндекс» научил «Алису» вести персональное утреннее шоу | В конце 2020 года утреннее шоу Алисы стало персонализированным. Это означает, что вы можете настроить его в соответствии с вашими интересами, указав предпочтительные темы новостей и подкастов. |
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро
Нет комментариев Не так давно в русском сегменте интернета произошли коренные изменения. Это означает следующее: чтобы читать Яндекс. Новости, нужно открывать отдельный сайт, потому что на главной ya. Более того, никакого виджета для браузеров разработчики VK пока не предусмотрели. И тогда возникает вопрос: «Читает ли Алиса последние новости так, как она это делала раньше? Да, здесь она может прийти на помощь, и это будет гораздо удобнее, чем открывать Дзен и читать новости там. Только нужно предварительно выполнить некоторые манипуляции.
И в этот же момент к слушателям придут новости, прогноз погоды, музыка и короткие подкасты - например, о том, способны ли животные обманывать или как влияет шоколад на здоровье. Еще до шоу Алиса выступала диджеем: она ставит и комментирует песни из персонального плейлиста дня на Яндекс. Музыке - в нем собраны треки, отобранные для пользователя. Создатели подчеркивают, что Алиса прекрасно ориентируется в происходящем и говорит о том, что волнует людей. Например, сейчас в паузах между новостями и песнями Алиса рассказывает, как с пользой и удовольствием провести время дома.
Но, если на кухне оказалось что-то купленное по-быстрому или так же по-быстрому заказанное в доставке, проверить состав можно с помощью «Яндекс. Втройне удобно, когда готовка идет полным ходом и не хочется лишний раз мыть и вытирать руки, чтобы взять смартфон. Намного легче обратиться к «Алисе» с просьбой расшифровать пищевую добавку, указав ее буквенный и цифровой индекс, — колонка расскажет, что это такое и для чего используется в тех или иных продуктах. Голосовые квесты — отличный способ убить время и попробовать себя в неожиданных амплуа Для «Алисы» создано огромное количество игровых навыков, но мы решили выбрать один. Из самого злободневного. Попробуйте себя в президентской гонке в США с навыком «День выборов». В этой игре «Алиса» будет задавать вопросы, а пользователь должен принимать решения и отвечать ей. Задача — не растерять доверие избирателей и привести себя к победе. Разумеется, навык сделан таким образом, чтобы победа в выборах не досталась легкой ценой. Поэтому не исключено, что игру не раз придется начинать заново. Но так ведь интереснее? А главное, вне зависимости от победы или поражения игроков никто потом не станет обвинять во вмешательстве в демократический процесс другой страны.
Голосовой помощник следит за новостными выпусками девяти радиостанций. А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — рассказал Андрей Законов, руководитель голосового помощника. Шоу и новости доступны в «Яндекс.
Как взглянуть на «Алису» по-новому? 5 необычных навыков для «Яндекс.Станции»
Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»: У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент. Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением. А так звучит результат синтеза: 3.
Новый вокодер Вероятно, вы уже догадались, что мы перешли к использованию нового нейросетевого вокодера. Именно он в реальном времени превращает мел-спектрограмму в голос. Наиболее близкий аналог нашего первого решения на основе нейросетей, которое вышло в 2018 году — модель WaveGlow.
Архитектура WaveGlow основана на генеративных потоках — довольно изящном методе создания генеративных сетей, впервые предложенном в статье про генерацию лиц. Сеть обучается конвертировать случайный шум и мел-спектрограмму на входе в осмысленный wav-сэмпл. За счёт случайного шума на входе обеспечивается выбор случайной wav-ки — одной из множества соответствующих мел-спектрограмме.
Как я объяснил выше, в домене речи такой случайный выбор будет лучше детерминированного среднего по всем возможным wav-кам. В отличие от WaveNet, WaveGlow не авторегрессионен, то есть не требует для генерации нового wav-сэмпла знания предыдущих. Его параллельная свёрточная архитектура хорошо ложится на вычислительную модель видеокарты, позволяя за одну секунду работы генерировать несколько сотен секунд звука.
Главное отличие, за счёт которого HiFi-GAN обеспечивает гораздо лучшее качество, заключается в наборе подсетей-дискриминаторов. Они валидируют натуральность звука, смотря на сэмплы с различными периодами и на различном масштабе. Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза.
Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже. Схема HiFi-GAN из статьи авторов модели Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса. Параллельно мы работали над улучшением отдельных элементов синтеза: Летом 2019 года выкатили разрешатор омографов homograph resolver — он научил Алису правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки» и так далее.
Здесь мы нашли остроумное решение. В русском языке эти слова пишутся одинаково, но в английском написание отличается, например, castle и lock, proteins и squirrels. Из этого представления легко выделить информацию о том, как произносить омограф, ведь перевод должен различать формы для корректного подбора английского варианта.
Буквально на 20 примерах можно выучить классификатор для нового омографа, чтобы по эмбеддингу перевода понимать, какую форму нужно произнести. Летом 2020 года допилили паузер для расстановки пауз внутри предложения. Язык — хитрая штука.
Не все знаки препинания в речи выражаются паузами Например, после вводного слова «конечно» на письме мы ставим запятую, но в речи обычно не делаем паузу. А там, где знаков препинания нет, мы часто делаем паузы. Если эту информацию не передавать в акустическую модель, то она пытается её выводить и не всегда успешно.
Первая модель Алисы из-за этого могла начать вздыхать в случайных местах длинного предложения. Для этого мы взяли датасет, разметили его детектором активности голоса, сгруппировали паузы по длительности, ввели класс длины паузы, на каждое слово навесили тэг и на этом корпусе обучили ещё одну голову внимания из тех же нейросетевых эмбеддингов, что использовались для детекции омографов. Осенью 2020 года мы перевели на трансформеры нормализацию — в синтезе она нужна, чтобы решать сложные случаи, когда символы читаются не «буквально», а по неким правилам.
Например, «101» нужно читать не как «один-ноль-один», а как «сто один», а в адресе yandex. Обычно нормализацию делают через комбинацию взвешенных трансдьюсеров FST — правила напоминают последовательность замен по регулярным выражениям, где выбирается замена, имеющая наибольший вес. Мы долго писали правила вручную, но это отнимало много сил, было очень сложно и не масштабируемо.
Тогда решили перейти на трансформерную сеть, «задистиллировав» знания наших FST в нейронку. Теперь новые «правила раскрытия» можно добавлять через доливание синтетики и данных, размеченных пользователями Толоки, а сеть показывает лучшее качество, чем FST, потому что учитывает глобальный контекст. Итак, мы научили Алису говорить с правильными интонациями, но это не сделало ее человеком — ведь в нашей речи есть еще стиль и эмоции.
Работа продолжалась. С чувством, толком, расстановкой: стили голоса Алисы Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение.
Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре. Казалось, что у неё менялось настроение в каждом предложении. Вот пример записи с явными перебоями в стилях: Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку».
Суть в том, что через очень lossy-пространство всего 16 чисел на всё предложение разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении. За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки. На инференсе мы генерируем стилевую подсказку, похожую на те, что были в обучающем сете.
Это можно делать, взяв готовый стиль из обучающего примера или обучив специальную подсеть генерировать стили по тексту. Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса. Или резкого и холодного.
Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование.
Победил кластер с очень мягкой и приятной интонацией. Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю.
Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека.
Утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь.
Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — отметил Андрей Законов, руководитель продукта голосового помощника «Алиса».
Она откроет тексты песен не только российских, но и зарубежных исполнителей. Кнопка «Т» в музыкальном плеере даст понять, для каких треков доступен текст. Персонализация утреннего шоу Теперь пользователь может решать, каким будет ваше утреннее шоу. Например, можно выбрать, какой контент и в каком порядке будет воспроизводиться: подкасты на разные темы, прогноз погоды, конкретные навыки, музыкальные треки или новости из определённых источников. Афиша мероприятий и новости Анонсы интересных событий в городе будут отображаться на главном экране Станции Дуо Макс.
В марте 2020 года «Алиса» начала читать статьи в «Яндекс. Голосовой помощник озвучит любой связный текст на странице без учёта навигационных элементов. Чтобы включить его, нужно нажать на значок наушников — он есть на страницах, где доступен режим чтения. С февраля пользователи сервиса «Навигатор» могут оплатить заправку, не покидая машины — для этого есть команда «Алиса, заправь меня»: программа проведёт бесконтактный платёж в «Яндекс.
Что нового в апреле у Алисы и умных устройств
«Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости на Яндекс Алисе: шаг за шагом. Настройка новостей в Яндекс Алисе позволяет получать свежие новости по интересующим вас темам. Чтобы настроить «Новости колонка Алиса», вам нужно открыть мобильное приложение или сайт Яндекс. В конце 2020 года утреннее шоу Алисы стало персонализированным. До публикации этой новости я мельком слышал про существование Алисы (видео, когда 2 телефона общаются между собой). Утреннее шоу Алисы — как настроить и использовать Утреннее шоу Алисы позволяет ознакомиться с новейшими новостями, прослушать интересные подкаcты и. первый шаг в этом направлении".
Как взглянуть на «Алису» по-новому? 5 необычных навыков для «Яндекс.Станции»
Отличное решение для караоке-вечеринки. Что ещё появилось на ТВ Станциях? Управлять можно голосом: поставить на паузу, продолжить, перемотать назад, выбрать качество или включить субтитры.
Голосовой помощник в колонках рассказывает персонализированные новости, проигрывает музыку из личного плейлиста дня, а также подбирает интересные конкретно для вас истории. В приложениях для смартфонов такого пока нет. Мы хотим, чтобы Алиса была не только помощником, но и другом, с которым приятно проводить время. Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме, и утреннее шоу — первый шаг в этом направлении.
Навигатор , Лончер и в мобильную и десктопную версии Яндекс. Браузера [2]. Общение с ассистентом возможно голосом и вводом запросов с клавиатуры. Алиса отвечает или прямо в диалоговом интерфейсе, либо же показывает поисковую выдачу по запросу или нужное приложение.
Анализ запроса и формирование ответа Распознать голосовой запрос Алисе помогает технология SpeechKit. На этом этапе происходит отделение голоса от фоновых шумов. Разобраться с акцентами, диалектами, сленгами и англицизмами алгоритмам позволяет накопленная Яндексом база из миллиарда произнесённых в разных условиях фраз [11] [12]. На следующем этапе наделить запрос смыслом и подобрать правильный ответ позволяет технология Turing, своим названием отсылающая к Алану Тьюрингу и его тесту. Благодаря ей «Алиса» может не только давать ответы на конкретные вопросы, но и общаться с пользователем на отвлечённые темы. Для этого текст запроса дробится на токены, как правило, это отдельные слова, которые в дальнейшем отдельно анализируются. Для максимально точного ответа Алиса учитывает историю взаимодействия с ней, интонацию запроса, предыдущие фразы и геопозицию. Это объясняет тот факт, что на один вопрос разные пользователи могут получить разные ответы [11] [12]. Первоначально нейросеть Алисы обучали на массиве текстов из классики русской литературы , включая произведения Льва Толстого , Фёдора Достоевского , Николая Гоголя , а затем — на массивах живых текстов из Интернета [13]. Как рассказывал глава управления машинного обучения Яндекса Михаил Биленко в интервью изданию Meduza , в ходе ранних тестов в манере общения Алисы появилась дерзость, которая удивляла и забавляла пользователей.
Чтобы дерзость не перешла в хамство и чтобы ограничить рассуждения Алисы на темы, связанные с насилием, ненавистью или политикой, в голосового помощника была внедрена система фильтров и стоп-слов [14]. Последний этап — озвучивание ответа — реализуется с помощью технологии Text-to-speech. Основой служат записанные в студии 260 тысяч слов и фраз, которые затем были «порезаны» на фонемы. Из этой аудиобазы нейросеть собирает ответ, после чего интонационные перепады в готовой фразе сглаживаются нейросетью, что приближает речь «Алисы» к человеческой [11] [12] [15]. Навыки Помимо сервисов Яндекса, в Алису могут быть интегрированы сторонние сервисы. В 2018 году компания расширила возможности Алисы через систему навыков, использующих платформу голосового помощника для взаимодействия с пользователем. Навыки — это чат-боты и другие интернет-сервисы, активирующиеся по ключевой фразе и работающие в интерфейсе «Алисы». В марте 2018 Яндекс открыл для сторонних разработчиков платформу Яндекс. Диалоги , предназначенную для публикации новых навыков и их подключения к Алисе. Уже к апрелю 2018 года на платформе Яндекс.
Диалогов были опубликованы более 3 тысяч навыков, более 100 прошли модерацию [17].
Виталий Н. А как продолжить. Роутер переключил канал и Алиса молчит. Сказал продолжить - в момент отключения играла музыка, Алиса начала играть просто музыку. С начала слушать не интересно.
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро
«Мы хотим, чтобы Алиса была не только помощником, но и другом, с которым приятно проводить время. Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме, и утреннее шоу — первый шаг в этом направлении». Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Теперь голосовой помощник может запускать новостные блоки с девяти станций, включая «Хит ФМ» и «Коммерсантъ FM». Утренние шоу впервые появились в апреле этого года. Яндекс Станция включает Шоу Алисы (погода, новости, музыка и т.п.). Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером. Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Утренние шоу впервые появились в апреле этого года. Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Теперь голосовой помощник может запускать новостные блоки с девяти станций, включая «Хит ФМ» и «Коммерсантъ FM». Утренние шоу впервые появились в апреле этого года.
Слушать утреннее и вечернее шоу Алисы на Станции
«Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости в Алисе Можно дать ей обычную команду «Алиса, настрой новости». «Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости в Алисе Можно дать ей обычную команду «Алиса, настрой новости». Множество полезных навыков для голосового помощника ждут вас в Каталоге навыков Алисы.
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро
Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса. Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование. Победил кластер с очень мягкой и приятной интонацией. Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю. Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. В принципе, этого можно было ожидать: уверен, многие предпочтут более ласковый разговор по телефону то есть с потерей в качестве живому, но холодному общению.
К примеру, так звучал резкий голос: А так — мягкий: Результаты турниров позволили нам выделить во всем обучающем датасете данные, которые относятся к стилю-победителю, и использовать для обучения только их. Благодаря этому Алиса по умолчанию стала говорить более мягким и дружелюбным голосом. Этот пример показывает, что с точки зрения восприятия важно работать не только над качеством синтеза, но и над стилем речи. После этого оставалось только обогатить Алису новыми эмоциями. Бодрая или спокойная: управляем эмоциями Алисы Когда вы включаете утреннее шоу Алисы или запускаете автоматический перевод лекции на YouTube, то слышите разные голоса — бодрый в первом случае и более флегматичный в другом. Эту разницу сложно описать словами, но она интуитивно понятна — люди хорошо умеют распознавать эмоции и произносить один и тот же текст с разной эмоциональной окраской. Мы обучили этому навыку Алису с помощью той же разметки подсказок, которую применили для стилей. У языка есть интересное свойство — просодия , или набор элементов, которые не выражаются словами. Это особенности произношения, интенсивность, придыхание и так далее. Один текст можно произнести со множеством смыслов.
Как и в случае со стилями речи, можно, например, выделить кластеры «веселая Алиса», «злая Алиса» и так далее. Поскольку стилевой механизм отделяет просодию «как говорим» от артикуляции «что говорим» , то новую эмоцию можно получить буквально из пары часов данных. По сути, нейросети нужно только выучить стиль, а информацию о том, как читать сочетания фонем, она возьмёт из остального корпуса. Прямо сейчас доступны три эмоции. Например, часть пользователей утреннего шоу Алисы слышат бодрую эмоцию. Кроме того, её можно услышать, спросив Алису «Кем ты работаешь? Флегматичная эмоция пригодилась для перевода видео — оказалось, что голос по умолчанию слишком игривый для этой задачи. Наконец, радостная эмоция нужна для ответов Алисы на специфические запросы вроде «Давай дружить» и «Орёл или решка? Ещё есть негативная эмоция, которую пока не знаем, как использовать — сложно представить ситуацию, когда людям понравится, что на них ругается робот. Первый корпус эмоций мы записали ещё при WaveGlow, но результат нас не устроил и выкатывать его не стали.
С переходом на HiFi-GAN стало понятно, что он хорошо работает с эмоциями, это позволило запустить полноценный эмоциональный синтез. Наконец, мы решили внедрить шёпот. Когда люди обращаются к Алисе шёпотом, она должна и отвечать шёпотом — это делает её человечнее. При этом шёпот — не просто тихая речь, там слова произносятся без использования голосовых связок. Спектр звука получается совсем другим. С одной стороны, это упрощает детекцию шёпота: по «картинке» мел-спектрограммы можно понять, где заканчивается обычная речь и начинается шепот. С другой стороны, это усложняет синтез шёпота: привычные механизмы обработки и подготовки речи перестают работать. Поэтому шёпотный синтез нельзя получить детерминированным преобразованием сигнала из речи. Так выглядят мел-спектрограммы обычной речи и шёпота при произнесении одной и той же фразы: Так звучит обычная речь: А так — шёпот: Сначала мы научили Алису понимать шёпот. Для этого обучили нейросеть различать спектры звука для обычного голоса и шёпота.
Система смотрит на спектр звука и решает, когда говорят шёпотом, а когда — голосом. В процессе обучения оказалось, что спектры шёпота и речи курильщиков похожи, так что пришлось научить нейросеть их различать. Для этого собрали больше пограничных данных с речью курильщиков и простуженных людей и донастроили нейросеть на них. Чтобы научить Алису говорить шёпотом, мы записали несколько часов шёпота речи в исполнении Татьяны Шитовой. Сложности начались уже на предобработке данных: наш VAD детектор тишины в речи сломался на шёпотных гласных — трудно отличить сказанное шёпотом «а! Починить его удалось, только совместив признаки энергии сигнала и данные от распознавания речи, при этом под шёпот конструкцию пришлось калибровать отдельно. Затем записанные данные добавили в обучающий корпус акустической модели. Мы решили рассматривать шёпот как еще один «стиль» речи или, в терминах нашего синтеза, «эмоцию». Добавив данные в трейнсет, мы дали акустической модели на вход дополнительную информацию — шёпот или эмоцию она сейчас проигрывает. По этому входу модель научилась по команде пользователя переключаться между генерацией речи и шёпота.
Сгенерированный шёпот по качеству не отличался от обычной речи. Оказалось, что ряд ошибок интонации в шёпотной речи были значительно менее ярко выражены. Этот голос будет полезен при общении с Алисой ночью, чтобы не мешать близким. Можно задавать вопросы тихим голосом и Алиса будет отвечать шёпотом. Кроме того, такой стиль ещё и звучит очень приятно — поклонники ASMR оценят. Послушайте, как шепчет Алиса: На этом мы не останавливаемся — в планах дальнейшее развитие голосового синтеза, добавление новых стилей и эмоций.
А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — рассказал Андрей Законов, руководитель голосового помощника.
Шоу и новости доступны в «Яндекс. Станции», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса».
Приложение можно использовать для создания нескольких видов сценариев. По ключевой фразеПользователь произносит определенную фразу — и сценарий запускается. Например, «Алиса, включи свет в гостиной». По расписаниюСценарий запускается в определенное время или по определенным дням недели. Например, «Включить кофеварку в 7 утра». По событиюСценарий запускается при срабатывании определенного датчика или устройства. Например, «Включить свет в коридоре, если датчик движения обнаружит движение».
По уведомлениюСценарий запускается, если на телефон пользователя приходит уведомление от системы. Например, «Включить камеру, если на датчик движения поступил сигнал». По звукуСценарий запускается, если система распознает определенный звук. Например, «Включить музыку, если в доме слышен плач ребенка».
Вы можете посмотреть на доступные навыки Алисы, чтобы узнать больше о том, что вы можете сделать с помощью Алисы.
Навык «Утреннее шоу» Алисы идеально подходит для людей, которые хотят быть в курсе всех новостей и интересных мероприятий. Вы можете активировать навык голосом и получать последние новости, прогноз погоды, мероприятия в вашем городе и музыкальные и книжные рекомендации.
Что нового в апреле у Алисы и умных устройств
В конце 2020 года утреннее шоу Алисы стало персонализированным. Какие новости нужно выбирать, чтобы быть в курсе последних событий, но не утомляться излишним потоком информации? Обновление Алисы также включает в себя улучшенное утреннее шоу: теперь там не только новости и музыка, но и короткие подкасты, даты в истории, мудрости и комплименты. После работы можно послушать вечернее шоу — Алиса поделится новостями и погодой на следующий день и поставит расслабляющую музыку.