Искусственный интеллект VALL-E научили мгновенно имитировать любой человеческий голос

Для этого ему достаточно послушать оригинал всего три секунды

Microsoft представила искусственный интеллект, который может воспроизвести любой голос, передавая эмоции и тон говорящего.
Компания Microsoft представили искусственный интеллект VALL-E.

Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь,

При этом голос имитируется очень достоверно, с сохранением как тембра, так и эмоциональной окраски оригинала, которую невозможно отличить от голоса оригинала.

Исследователи из Корнуэльского университета использовали модель VALL-E для анализа механизмов генерации речи.

Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка опирается на технологии EnCodec.

В отличие от других методов преобразования текста, которые зачастую синтезируют речь, манипулируя формами сигналов, разработка Microsoft в основном анализирует, как именно звучит человек, разбивает эту информацию на отдельные «токены» и использует обучающие данные, чтобы сопоставить свои «знания» о том, как этот голос будет звучать, если ИИ произнесёт другие фразы.

VALL-E обучали на библиотеке LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. Это в сотни раз больше, чем у существующих аналогов.

Источник: ixbt.comhightech.fm