AI-Звук. Танцы с бубном

Миша Бредихин

2/19/2024

Нравится? Поддержите нас!

Будем рады вашим донатам на любую сумму

Поддержать

Миша Бредихин

Композитор, инженер, продюсер, и преподаватель

Недавно в рамках формата «открытые встречи Пражской медиашколы» к нам приходил наш давний друг Миша Бредихин и рассказывал о том, что происходит с AI в области музыки прямо сейчас. С разрешения Миши делимся этими знаниями с вами:

‍

Модели AI в области аудио развиты гораздо хуже, чем языковые и диффузионные. Даже MusicLM, еще не выпущенная Google в открытый доступ, — и та, судя по всему, генерирует довольно неубедительно.

Нейросети работают с музыкой, преобразуя ее в спектрограммы, что позволяет им анализировать звуковую информацию как изображение. Поскольку среднестатистическая композиция длится несколько минут, легко представить, какого размера получаются изображения (очень большого) — места на серверах тренировочным датасетам нужно гораздо больше. Чтобы хоть что-то получить, приходится жертвовать качеством, снижая разрешение исходных данных.

Ситуацию осложняет и то, что нейросеть не всегда может полностью понять, что она слышит, — требуется разметка, с которой может помочь только человек. В отличие от картинок, где можно задать стиль автора, генерация музыки требует конкретных данных о гармоническом контенте и источниках звука.

Генераторы музыки, продаваемые как нейросетевые, на самом деле не являются таковыми, подгружая в себя тонны библиотек и обращаясь к ним по старинке напрямую, а не через латентное пространство.

Музыка

Например, SoundDraw использует предварительно записанные фрагменты, которые комбинируются по алгоритму. Можно выбирать стиль, структуру, длительность, насыщенность, темп и инструменты. Позволяет создавать треки для использования в видеороликах или песнях, но требует подписки для доступа к функции «сохранить». Хотя можно использовать метод записи прямо из собственной звуковой карты.

SunoAI — сервис для создания песен из текста, превращающий любые слова в музыкальные композиции с помощью AI, который отлично подойдет для генерации треков в конкретных стилях: pop, rock, soul R&B и проч.

Или Output AI — их Coproducer очень удобно использовать для работы над треками: с помощью промптов на естественном языке от него можно получать сэмплы и лупы из Output AI и их флагманской библиотеки Arcade. Но имейте в виду, что Coproducer это скорее «хороший поисковик», а не как полноценный AI-генератор.

Шум

Начальным применением AI в аудио стало удаление шума из звуковых записей. Так, например, Spectralayers (Steinberg) эффективно отделяет голос от шума. Раньше алгоритмы оставляли часть голоса в шумах, но теперь Spectralayers может сделать это намного точнее. Плюс — возможность вырезать голос из музыки для ремиксов и разложить несколько голосов на отдельные дорожки.

Автор сказал мяу

Если нейросети могут различать инструменты, шум и голоса, то могут и быстро найти любые заимствования. Например, с помощью нейросетей недавно удалось найти сэмплы, использованные в треках группы Daft Punk. Это открывает перед нами невероятные возможности для отслеживания нарушений авторских прав и скорее всего, потребует новых методов регулирования.

Клонирование голоса

Еще один прорыв — генерации голоса. С помощью нейросетей можно скопировать интонацию и голос известных музыкантов, артистов и киноперсонажей. Это происходит путем обучения модели на их голосах и использования скриптов на Python — технология называется «клонирование голоса» (Voice Cloning).

Представьте себе: Винни-Пух, поющий песню System of a Down.

И «Прекрасное далеко» в исполнении Егора Летова.

Процесс генерации голоса требует большого количества времени и GPU и локально может быть запущен пока только на Windows. Отличные копии голосов, например, генерирует SO-VITs, которая была создана по аналогии с программой Vocaloid, позволяющей петь анимированным персонажам. Модель тренируется на объеме буквально в 500 слов и имеет множество настроек, которые можно менять в зависимости от материала.

Применение этой технологии в киноиндустрии позволит создавать живую, интонационно богатую речь из базы актерских голосов. Но может пригодиться и для создания цифровых ассистентов, озвучивания текста и других аудио-проектов.

Конечно же, стоит упомянуть, что уже сотни платных сервисов предлагают начитывать тексты голосами известных персонажей и личностей, таких как Морган Фриман, Трамп или Обама, но самый веселый источник для тестов новых разработок, скорее всего, знакомый вам «дом моделей», он же — платформа трансформеров, Hugging Face.

Кастомные решения

Любопытнее всего собирать самим и тестировать чужие мультимодальные решения — в звуке это, в основном, комбинации голосовых и музыкальных моделей, но бывает и с диффузионными — с широкими возможностями применения в искусстве, хотя больше известны по фиче анимировать движение рта под запись речи. Один из лидеров здесь — Vocaloid от Yamaha, но и у Dreamtonics получается очень реалистично.

Пожалуй, для успешного взаимодействия с аудиомоделями необходимо музыкальное образование, Python и любопытство. Но похоже, скоро можно обходиться и без первых двух, потому что пока одни обучают модели, другие помогут поучиться у моделей музыке.

Нет инструментов, способных создать музыку с нуля, и если вы хотите контролировать речь, вам придется самостоятельно озвучивать текст и присваивать ему характеристики, потому что синтезаторы не понимают контекст. Тренировка модели позволит сделать больше, но и у нее есть ограничения. Чтобы успешно работать с аудио, все еще никак не обойтись без понимания базовых метафор музыки.

ЧТО (СЕЙЧАС) НЕ РАБОТАЕТ?

Текущие ограничения и будущее развития нейросетей в обработке звука:

Понимание контекста и интонаций: хотя нейросети и хорошо справляются с распознаванием речи, полное понимание контекста и нюансов естественного языка остается сложной задачей.
Распознавание и интерпретация иронии, сарказма и других тонких аспектов речи.
Эмуляция человеческих эмоций в синтезированной речи: создание натурально звучащего, эмоционально выразительного синтезированного голоса все еще проблема в процессе решения.
Realtime render: некоторые виды обработки звука в условиях реального времени требуют значительных вычислительных ресурсов.
Автоматическое создание сложной музыки: нейросети пока не могут создавать музыкальные произведения, сравнимые по качеству и сложности с созданными опытными композиторами.

Отрасли, где все вот-вот изменится:

Анимация: использование AI для создания уникальных голосов персонажей, основанных на текстовых промптах — описаниях их характеристик.
Образование: музыкальные обучающие курсы, в которых AI используется для генерации музыкальных примеров и упражнений различной сложности.
Виртуальные DJ-сеты: разработка AI-систем, которая может создавать и воспроизводить музыкальные сеты в реальном времени на основе данных об аудитории.
Звонки и конференции: расширения для фильтрации фонового шума и улучшения четкости речи в реальном времени.
Видеоигры и кино: автоматическое создание звуковых эффектов, приложения, которые могут генерировать и адаптировать звуковые эффекты в зависимости от сценария игры или фильма.

А вот тут можно посмотреть встречу с Мишей целиком: