Недавно в рамках формата «открытые встречи Пражской медиашколы» к нам приходил наш давний друг Миша Бредихин и рассказывал о том, что происходит с AI в области музыки прямо сейчас. С разрешения Миши делимся этими знаниями с вами:
Модели AI в области аудио развиты гораздо хуже, чем языковые и диффузионные. Даже MusicLM, еще не выпущенная Google в открытый доступ, — и та, судя по всему, генерирует довольно неубедительно.
Нейросети работают с музыкой, преобразуя ее в спектрограммы, что позволяет им анализировать звуковую информацию как изображение. Поскольку среднестатистическая композиция длится несколько минут, легко представить, какого размера получаются изображения (очень большого) — места на серверах тренировочным датасетам нужно гораздо больше. Чтобы хоть что-то получить, приходится жертвовать качеством, снижая разрешение исходных данных.
Ситуацию осложняет и то, что нейросеть не всегда может полностью понять, что она слышит, — требуется разметка, с которой может помочь только человек. В отличие от картинок, где можно задать стиль автора, генерация музыки требует конкретных данных о гармоническом контенте и источниках звука.
Генераторы музыки, продаваемые как нейросетевые, на самом деле не являются таковыми, подгружая в себя тонны библиотек и обращаясь к ним по старинке напрямую, а не через латентное пространство.
Например, SoundDraw использует предварительно записанные фрагменты, которые комбинируются по алгоритму. Можно выбирать стиль, структуру, длительность, насыщенность, темп и инструменты. Позволяет создавать треки для использования в видеороликах или песнях, но требует подписки для доступа к функции «сохранить». Хотя можно использовать метод записи прямо из собственной звуковой карты.
SunoAI — сервис для создания песен из текста, превращающий любые слова в музыкальные композиции с помощью AI, который отлично подойдет для генерации треков в конкретных стилях: pop, rock, soul R&B и проч.
Или Output AI — их Coproducer очень удобно использовать для работы над треками: с помощью промптов на естественном языке от него можно получать сэмплы и лупы из Output AI и их флагманской библиотеки Arcade. Но имейте в виду, что Coproducer это скорее «хороший поисковик», а не как полноценный AI-генератор.
Начальным применением AI в аудио стало удаление шума из звуковых записей. Так, например, Spectralayers (Steinberg) эффективно отделяет голос от шума. Раньше алгоритмы оставляли часть голоса в шумах, но теперь Spectralayers может сделать это намного точнее. Плюс — возможность вырезать голос из музыки для ремиксов и разложить несколько голосов на отдельные дорожки.
Если нейросети могут различать инструменты, шум и голоса, то могут и быстро найти любые заимствования. Например, с помощью нейросетей недавно удалось найти сэмплы, использованные в треках группы Daft Punk. Это открывает перед нами невероятные возможности для отслеживания нарушений авторских прав и скорее всего, потребует новых методов регулирования.
Еще один прорыв — генерации голоса. С помощью нейросетей можно скопировать интонацию и голос известных музыкантов, артистов и киноперсонажей. Это происходит путем обучения модели на их голосах и использования скриптов на Python — технология называется «клонирование голоса» (Voice Cloning).
Представьте себе: Винни-Пух, поющий песню System of a Down.
И «Прекрасное далеко» в исполнении Егора Летова.
Процесс генерации голоса требует большого количества времени и GPU и локально может быть запущен пока только на Windows. Отличные копии голосов, например, генерирует SO-VITs, которая была создана по аналогии с программой Vocaloid, позволяющей петь анимированным персонажам. Модель тренируется на объеме буквально в 500 слов и имеет множество настроек, которые можно менять в зависимости от материала.
Применение этой технологии в киноиндустрии позволит создавать живую, интонационно богатую речь из базы актерских голосов. Но может пригодиться и для создания цифровых ассистентов, озвучивания текста и других аудио-проектов.
Конечно же, стоит упомянуть, что уже сотни платных сервисов предлагают начитывать тексты голосами известных персонажей и личностей, таких как Морган Фриман, Трамп или Обама, но самый веселый источник для тестов новых разработок, скорее всего, знакомый вам «дом моделей», он же — платформа трансформеров, Hugging Face.
Любопытнее всего собирать самим и тестировать чужие мультимодальные решения — в звуке это, в основном, комбинации голосовых и музыкальных моделей, но бывает и с диффузионными — с широкими возможностями применения в искусстве, хотя больше известны по фиче анимировать движение рта под запись речи. Один из лидеров здесь — Vocaloid от Yamaha, но и у Dreamtonics получается очень реалистично.
Пожалуй, для успешного взаимодействия с аудиомоделями необходимо музыкальное образование, Python и любопытство. Но похоже, скоро можно обходиться и без первых двух, потому что пока одни обучают модели, другие помогут поучиться у моделей музыке.
Нет инструментов, способных создать музыку с нуля, и если вы хотите контролировать речь, вам придется самостоятельно озвучивать текст и присваивать ему характеристики, потому что синтезаторы не понимают контекст. Тренировка модели позволит сделать больше, но и у нее есть ограничения. Чтобы успешно работать с аудио, все еще никак не обойтись без понимания базовых метафор музыки.
А вот тут можно посмотреть встречу с Мишей целиком: