Голосовой помощник «Алиса» для смарт-колонок «Яндекса» научился вести утренние шоу. В компании обещают персонализированные программы с полезной информацией, любимой музыкой, новостями и прочим интересным каждому пользователю контентом. О сервисе Прессе Авторские права Связаться с нами Авторам Рекламодателям Разработчикам.
Утреннее шоу «Алисы» стало персональным
- Что умеет Яндекс-станция: 17 функций и навыков Алисы
- Популярное
- Telegram: Contact @alice_yndx
- Утреннее шоу «Алисы» стало персональным
- «Яндекс» научил «Алису» вести персональное утреннее шоу
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
Пользователи умных колонок с голосовым помощником «Алиса» теперь могут послушать новости технологий от портала Утреннее шоу. первый шаг в этом направлении". В Алису от Яндекса добавили функцию Утреннее шоу.
Новый формат контента в утреннем шоу Алисы: истории от навыков
- Новые спортивные каналы по подписке
- «Алиса» начала проводить персональные утренние шоу в «умных» колонках — Сервисы на
- Еще по теме
- Тексты песен любимых исполнителей на «ТВ Станциях»
- «Алиса» начала проводить персональные утренние шоу в «умных» колонках — Сервисы на
- Утреннее шоу Алисы стало персональным 😎 | В гостях у Алисы | Дзен
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
При этом для шоу всегда подбираются актуальные к текущему моменту новости если в настройках указано, что шоу должно включать в себя новости. И тогда вместо мелодии будильника будет воспроизводиться шоу. Как настроить утреннее шоу от Алисы Пользователь Яндекс Станции может сформировать в утреннем шоу именно то, что он хочет слышать с утра. Например, это могут быть новостные сюжеты, информация об экономике, новые сведения о науке и так далее. Для настройки своего собственного утреннего шоу Алисы можно использовать официальное мобильное приложения Яндекс. Обратите внимание: В приложении Яндекс нужно авторизоваться с того аккаунта, к которому привязана Яндекс Станция.
Здесь можно настроить информацию, которая будет попадать в утреннее шоу.
Алиса, дай мне мероприятия в моем городе Алиса предлагает множество других навыков, которые вы можете использовать вместе с Утренним шоу. Вы можете использовать навыки Алисы для покупки товаров или выполнения задач по дому, управления умными устройствами и воспроизведения музыки. Вы также можете использовать навыки Алисы для игры в игры и для доступа к другим приложениям.
Новая функция доступна пока что на умных колонках с голосовым помощником. О поддержке её на смартфонах и PC пока ничего не говорится.
Но сейчас, прежде чем начать читать текст, Алиса ещё и оповестит получателя, из какой именно комнаты или Дома пришло сообщение. Звонки без постороннего шума Улучшилось шумоподавление внешних шумов во время звонка. Сейчас функция доступна на Станции Миди, Станции Макс и Станции 2, поддержка других моделей появится позже.
Обновление уже доступно пользователям Станций с сегодняшнего дня. Розыгрыш в нашем Телеграм-канале!
Команды и сценарии для Алисы: покоряем умного помощника
«Яндекс» добавил возможность персональной настройки утреннего шоу голосового помощника «Алиса». Функция появилась в ассистенте в апреле этого года. «Алиса» по-прежнему умеет зачитывать по утрам актуальные новости. Умная лампочка Яндекс с Алисой, цоколь E27, белая (YNDX-00501). Теперь пользователи могут добавить новости в Утреннее шоу Алисы. Для настройки новостей на Яндекс Алисе необходимо открыть раздел «Интеграция» в настройках приложения. «Утреннее шоу» и новости радиостанций доступны во всех умных колонках с поддержкой «Алисы».
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
Покупайте, слушайте утреннее шоу алисы, оно 3 часа или почти 4 часа. Что сказать: «Алиса, запусти утреннее шоу», «Алиса, включи утреннее шоу». Эти программы помогают узнать нужную информацию в начале дня или рассказать о том, что вы могли пропустить. Голосовой помощник «Алиса» научили проводить утренние шоу, которые подстраиваются под определённого пользователя.
Вышло большое обновление Алисы. Смотри, что теперь умеет твоя Яндекс Станция
Для этого достаточно открыть приложение Яндекс и сказать: «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей» - С умной колонкой можно слушать что угодно. А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет. Ему даже не нужно ничего говорить, кроме одной единственной фразы: "Алиса, включи утреннее шоу", - рассказывает руководитель голосового помощника Андрей Законов.
На коротких фразах это не всегда заметно, но если хотите услышать произвольный ответ длиной хотя бы в пару предложений например, быстрый ответ из поиска , то недостатки подхода становятся очевидны. В общем, unit selection перестал нас устраивать и нужно было развиваться дальше.
Иногда они возвращаются: опять параметрический синтез В результате мы вернулись к архитектуре из двух последовательных блоков: акустическая модель и вокодер. Правда, на более низком уровне обновилось примерно всё. Акустическая модель В отличие от старой параметрики, новую модель мы построили на основе seq2seq-подхода с механизмом внимания.
Помните проблему с потерей контекста в нашей ранней параметрике? Если нет нормального контекста, то нет и нормальной интонации в речи. Решение пришло из машинного перевода.
Дело в том, что в машинном переводе как раз возникает проблема глобального контекста — смысл слов в разных языках может задаваться разным порядком или вообще разными структурами, поэтому порой для корректного перевода предложения нужно увидеть его целиком. Для решения этой задачи исследователи предложили механизм внимания — идея в том, чтобы рассмотреть всё предложение разом, но сфокусироваться через softmax-слой на небольшом числе «важных» токенов. При генерации каждого нового выходного токена нейросеть смотрит на обработанные токены фонемы для речевого синтеза или символы языка для перевода входа и «решает», насколько каждый из них важен на этом шаге.
Оценив важность, сеть учитывает её при агрегировании результатов и получает информацию для генерации очередного токена выхода. Таким образом нейросеть может заглянуть в любой элемент входа на любом шаге и при этом не перегружается информацией, поскольку фокусируется на небольшом количестве входных токенов. Для синтеза важна подобная глобальность, так как интонация сама по себе глобальна и нужно «видеть» всё предложение, чтобы правильно его проинтонировать.
На тот момент для синтеза была хорошая seq2seq-архитектура Tacotron 2 — она и легла в основу нашей акустической модели. Мел-спектрограмма Параметрическое пространство можно сжать разными способами. Более сжатые представления лучше работают с примитивными акустическими моделями и вокодерами — там меньше возможностей для ошибок.
Более полные представления позволяют лучше восстановить wav, но их генерация — сложная задача для акустической модели. Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности. С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма.
Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах , а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия».
Строение улитки уха из Википедии Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты. Вспомните строение улитки в ухе: это просто канал, закрученный по спирали. Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов.
Низкочастотный же звук проходит вглубь. Поэтому люди хорошо различают низкочастотные звуки, но высокочастотные сливаются. Мел-спектрограмма как раз позволяет представить звук, акцентируясь на той части спектра, которая значимо различается слухом.
Это полезно, потому что мы генерируем звук именно для человека, а не для машины. Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»: У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент.
Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением. А так звучит результат синтеза: 3. Новый вокодер Вероятно, вы уже догадались, что мы перешли к использованию нового нейросетевого вокодера.
Именно он в реальном времени превращает мел-спектрограмму в голос. Наиболее близкий аналог нашего первого решения на основе нейросетей, которое вышло в 2018 году — модель WaveGlow. Архитектура WaveGlow основана на генеративных потоках — довольно изящном методе создания генеративных сетей, впервые предложенном в статье про генерацию лиц.
Сеть обучается конвертировать случайный шум и мел-спектрограмму на входе в осмысленный wav-сэмпл. За счёт случайного шума на входе обеспечивается выбор случайной wav-ки — одной из множества соответствующих мел-спектрограмме. Как я объяснил выше, в домене речи такой случайный выбор будет лучше детерминированного среднего по всем возможным wav-кам.
В отличие от WaveNet, WaveGlow не авторегрессионен, то есть не требует для генерации нового wav-сэмпла знания предыдущих. Его параллельная свёрточная архитектура хорошо ложится на вычислительную модель видеокарты, позволяя за одну секунду работы генерировать несколько сотен секунд звука. Главное отличие, за счёт которого HiFi-GAN обеспечивает гораздо лучшее качество, заключается в наборе подсетей-дискриминаторов.
Они валидируют натуральность звука, смотря на сэмплы с различными периодами и на различном масштабе. Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза. Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже.
Схема HiFi-GAN из статьи авторов модели Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса. Параллельно мы работали над улучшением отдельных элементов синтеза: Летом 2019 года выкатили разрешатор омографов homograph resolver — он научил Алису правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки» и так далее. Здесь мы нашли остроумное решение.
В русском языке эти слова пишутся одинаково, но в английском написание отличается, например, castle и lock, proteins и squirrels. Из этого представления легко выделить информацию о том, как произносить омограф, ведь перевод должен различать формы для корректного подбора английского варианта. Буквально на 20 примерах можно выучить классификатор для нового омографа, чтобы по эмбеддингу перевода понимать, какую форму нужно произнести.
Летом 2020 года допилили паузер для расстановки пауз внутри предложения. Язык — хитрая штука. Не все знаки препинания в речи выражаются паузами Например, после вводного слова «конечно» на письме мы ставим запятую, но в речи обычно не делаем паузу.
А там, где знаков препинания нет, мы часто делаем паузы.
Чтобы она включала наиболее подходящий контент, нужно указать свои предпочтения в настройках. Сейчас в голосовом помощнике доступны 11 новостных тематик и 21 рубрика для подкастов. В общей сложности у «Алисы» больше двух тысяч подкастов на разные темы. Новости радиостанций можно слушать как в утреннем шоу, так и отдельно. Причём их зачитывает ведущий. Голосовой помощник следит за новостными выпусками девяти радиостанций.
Во время непродолжительного диалога глава государства задал голосовому помощнику несколько вопросов, в том числе поинтересовался её самочувствием.
Об официальном запуске Алисы было объявлено 10 октября 2017 года: ассистент появился в поисковом приложении Яндекса для Android и iOS и бета-версии голосового помощника для Microsoft Windows [2] [3] [4]. В мае 2023 года в Алису внедрили генеративный ИИ YandexGPT , благодаря чему она научилась писать тексты, предлагать идеи и составлять планы [6]. Имя и личность Особенностью Алисы стала личность, разработанная коллективом Яндекса вместе с журналистом и бывшим руководителем группы маркетинга компании Владимиром Гуриевым. Было решено, что голосовым ассистентом станет молодая ироничная девушка, готовая помочь владельцу смартфона [2]. Голосом Алисы стала актриса дубляжа Татьяна Шитова , озвучившая большинство героинь Скарлетт Йоханссон и голос операционной системы OS1, назвавшей себя Саманта, в российском дубляже фильма Спайка Джонза « Она » [8] [9]. Выбор имени голосового помощника проходил в несколько этапов. Для начала был сформирован список требований: в имени не должно было быть буквы эр , которую не выговаривают маленькие дети, также имя не должно было входить в расхожие фразы. По этой причине было «забраковано» имя «Майя», которое могло ошибочно распознаваться в сочетаниях вроде «девятое мая».
Также, чтобы снизить количество ложных срабатываний, имя не должно было входить в число наиболее распространённых. Сперва сотрудники «Яндекса» составили список имён, которые, по их мнению, подходили голосовому помощнику по характеру. На основе этого списка был составлен опрос для пользователей Яндекс. Толоки , участникам которого требовалось определить черты характера девушки по имени. В итоговом опросе с большим отрывом победило имя «Алиса». В тестировании имени, которое проходило в течение пяти месяцев, приняли участие несколько десятков тысяч человек. Для семей, в которых есть другие Алисы, голосовому ассистенту добавили опциональную активацию по команде «Слушай, Яндекс» [2]. Технологии Алиса встроена в разные приложения Яндекса: поисковое приложение, Яндекс.
Навигатор , Лончер и в мобильную и десктопную версии Яндекс. Браузера [2]. Общение с ассистентом возможно голосом и вводом запросов с клавиатуры. Алиса отвечает или прямо в диалоговом интерфейсе, либо же показывает поисковую выдачу по запросу или нужное приложение. Анализ запроса и формирование ответа Распознать голосовой запрос Алисе помогает технология SpeechKit. На этом этапе происходит отделение голоса от фоновых шумов. Разобраться с акцентами, диалектами, сленгами и англицизмами алгоритмам позволяет накопленная Яндексом база из миллиарда произнесённых в разных условиях фраз [11] [12]. На следующем этапе наделить запрос смыслом и подобрать правильный ответ позволяет технология Turing, своим названием отсылающая к Алану Тьюрингу и его тесту.
Утреннее шоу от Алисы на Яндекс Станции
Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — рассказал Андрей Законов, руководитель голосового помощника. Шоу и новости доступны в «Яндекс. Станции», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса». Чтобы выбрать тематику новостей и подкастов, нужно просто открыть приложение Яндекс и сказать: «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей».
Установите «Разовый запуск», чтобы функция срабатывала только один раз в день. Сохраните сценарий. Мы опробовали функцию — пока она работает достаточно странно. Например, сценарий срабатывает, когда в комнате слышно телевизор или музыку, не отличая от человеческого голоса. Так что, есть над чем работать.
ТОП-10 реально полезных подарков на 8 марта для любимой, которые лучше купить вместо букета цветов Последнее обновление Алисы от Яндекс Обновление Алисы также включает в себя улучшенное утреннее шоу: теперь там не только новости и музыка, но и короткие подкасты, даты в истории, мудрости и комплименты. Настроить утреннее шоу с Алисой можно в пункте «Контент» — «Настройки шоу», где можно выбрать подходящие данные. Вот еще несколько новых фишек из апдейта. Кроссфейд и другие нововведения уже ждут вас в приложении Дом с Алисой Улучшили и воспроизведение аудиокниг в Алисе: можно не только слушать их на разных устройствах, но и быстро возвращаться в начало или переходить к нужной главе. Это касается и книг в подписке Букмейт : можно начать слушать по дороге с работы на Айфоне, а продолжить — дома на Яндекс Станции.
Кроме того, теперь Яндекс Станция поддерживает кроссфейд — ранее такая фича была только в Яндекс Музыке на телефоне.
Новое на Станциях — Выбирайте, что и в каком порядке слушать в Утреннем шоу Алисы: подкасты на избранные темы, прогноз погоды, навыки, треки или новости из определённых источников. Позже функция станет доступна и на других колонках. По традиции, на специальной странице Яндекс собрал всю информацию о настройках и совместимых устройствах.
Она - и советчик, и исполнитель желаний, и информатор... Сейчас же в умных колонках с Алисой появилось ее персональное утреннее шоу. Люди могут слушать полезную информацию, музыку и интересные истории, подобранные специально для них. Чтобы запустить программу, достаточно сказать: "Алиса, включи утреннее шоу! И в этот же момент к слушателям придут новости, прогноз погоды, музыка и короткие подкасты - например, о том, способны ли животные обманывать или как влияет шоколад на здоровье.