AI-Звук. Танцы с бубном

Миша Бредихин
2/19/2024
Нравится? Поддержите нас!
Будем рады вашим донатам на любую сумму
Миша Бредихин
Композитор, инженер, продюсер, и преподаватель

Недавно в рамках формата «открытые встречи Пражской медиашколы» к нам приходил наш давний друг Миша Бредихин и рассказывал о том, что происходит с AI в области музыки прямо сейчас. С разрешения Миши делимся этими знаниями с вами:

Модели AI в области аудио развиты гораздо хуже, чем языковые и диффузионные. Даже MusicLM, еще не выпущенная Google в открытый доступ, — и та, судя по всему, генерирует довольно неубедительно. 

Нейросети работают с музыкой, преобразуя ее в спектрограммы, что позволяет им анализировать звуковую информацию как изображение. Поскольку среднестатистическая композиция длится несколько минут, легко представить, какого размера получаются изображения (очень большого) — места на серверах тренировочным датасетам нужно гораздо больше. Чтобы хоть что-то получить, приходится жертвовать качеством, снижая разрешение исходных данных. 

Ситуацию осложняет и то, что нейросеть не всегда может полностью понять, что она слышит, — требуется разметка, с которой может помочь только человек. В отличие от картинок, где можно задать стиль автора, генерация музыки требует конкретных данных о гармоническом контенте и источниках звука. 

Генераторы музыки, продаваемые как нейросетевые, на самом деле не являются таковыми, подгружая в себя тонны библиотек и обращаясь к ним по старинке напрямую, а не через латентное пространство.

Музыка

Например, SoundDraw использует предварительно записанные фрагменты, которые комбинируются по алгоритму. Можно выбирать стиль, структуру, длительность, насыщенность, темп и инструменты. Позволяет создавать треки для использования в видеороликах или песнях, но требует подписки для доступа к функции «сохранить». Хотя можно использовать метод записи прямо из собственной звуковой карты. 

SunoAI — сервис для создания песен из текста, превращающий любые слова в музыкальные композиции с помощью AI, который отлично подойдет для генерации треков в конкретных стилях: pop, rock, soul R&B и проч. 

Или Output AI — их Coproducer очень удобно использовать для работы над треками: с помощью промптов на естественном языке от него можно получать сэмплы и лупы из Output AI и их флагманской библиотеки Arcade. Но имейте в виду, что Coproducer это скорее «хороший поисковик», а не как полноценный AI-генератор.

Шум

Начальным применением AI в аудио стало удаление шума из звуковых записей. Так, например, Spectralayers (Steinberg) эффективно отделяет голос от шума. Раньше алгоритмы оставляли часть голоса в шумах, но теперь Spectralayers может сделать это намного точнее. Плюс — возможность вырезать голос из музыки для ремиксов и разложить несколько голосов на отдельные дорожки.

Автор сказал мяу

Если нейросети могут различать инструменты, шум и голоса, то могут и быстро найти любые заимствования. Например, с помощью нейросетей недавно удалось найти сэмплы, использованные в треках группы Daft Punk. Это открывает перед нами невероятные возможности для отслеживания нарушений авторских прав и скорее всего, потребует новых методов регулирования. 

Клонирование голоса 

Еще один прорыв  — генерации голоса. С помощью нейросетей можно скопировать интонацию и голос известных музыкантов, артистов и киноперсонажей. Это происходит путем обучения модели на их голосах и использования скриптов на Python — технология называется «клонирование голоса» (Voice Cloning).

Представьте себе: Винни-Пух, поющий песню System of a Down.

И «Прекрасное далеко» в исполнении Егора Летова.

Процесс генерации голоса требует большого количества времени и GPU и локально может быть запущен пока только на Windows. Отличные копии голосов, например, генерирует SO-VITs, которая была создана по аналогии с программой Vocaloid, позволяющей петь анимированным персонажам. Модель тренируется на объеме буквально в 500 слов и имеет множество настроек, которые можно менять в зависимости от материала.

Применение этой технологии в киноиндустрии позволит создавать живую, интонационно богатую речь из базы актерских голосов. Но может пригодиться и для создания цифровых ассистентов, озвучивания текста и других аудио-проектов. 

Конечно же, стоит упомянуть, что уже сотни платных сервисов предлагают начитывать тексты голосами известных персонажей и личностей, таких как Морган Фриман, Трамп или Обама, но самый веселый источник для тестов новых разработок, скорее всего, знакомый вам «дом моделей», он же — платформа трансформеров, Hugging Face.

Кастомные решения 

Любопытнее всего собирать самим и тестировать чужие мультимодальные решения — в звуке это, в основном, комбинации голосовых и музыкальных моделей, но бывает и с диффузионными — с широкими возможностями применения в искусстве, хотя больше известны по фиче анимировать движение рта под запись речи. Один из лидеров здесь — Vocaloid от Yamaha, но и у Dreamtonics получается очень реалистично. 

Пожалуй, для успешного взаимодействия с аудиомоделями необходимо музыкальное образование, Python и любопытство. Но похоже, скоро можно обходиться и без первых двух, потому что пока одни обучают модели, другие помогут поучиться у моделей музыке.

Нет инструментов, способных создать музыку с нуля, и если вы хотите контролировать речь, вам придется самостоятельно озвучивать текст и присваивать ему характеристики, потому что синтезаторы не понимают контекст. Тренировка модели позволит сделать больше, но и у нее есть ограничения. Чтобы успешно работать с аудио, все еще никак не обойтись без понимания базовых метафор музыки.

ЧТО (СЕЙЧАС) НЕ РАБОТАЕТ?

Текущие ограничения и будущее развития нейросетей в обработке звука:

  • Понимание контекста и интонаций: хотя нейросети и хорошо справляются с распознаванием речи, полное понимание контекста и нюансов естественного языка остается сложной задачей.
  • Распознавание и интерпретация иронии, сарказма и других тонких аспектов речи.
  • Эмуляция человеческих эмоций в синтезированной речи: создание натурально звучащего, эмоционально выразительного синтезированного голоса все еще проблема в процессе решения.
  • Realtime render: некоторые виды обработки звука в условиях реального времени требуют значительных вычислительных ресурсов.
  • Автоматическое создание сложной музыки: нейросети пока не могут создавать музыкальные произведения, сравнимые по качеству и сложности с созданными опытными композиторами.

Отрасли, где все вот-вот изменится:

  • Анимация: использование AI для создания уникальных голосов персонажей, основанных на текстовых промптах — описаниях их характеристик.
  • Образование: музыкальные обучающие курсы, в которых AI используется для генерации музыкальных примеров и упражнений различной сложности.
  • Виртуальные DJ-сеты: разработка AI-систем, которая может создавать и воспроизводить музыкальные сеты в реальном времени на основе данных об аудитории.
  • Звонки и конференции: расширения для фильтрации фонового шума и улучшения четкости речи в реальном времени.
  • Видеоигры и кино: автоматическое создание звуковых эффектов, приложения, которые могут генерировать и адаптировать звуковые эффекты в зависимости от сценария игры или фильма.

А вот тут можно посмотреть встречу с Мишей целиком:

онлайн
Мастерство Midjourney
Курс по практическому применению нейросетей в работе и творчестве
Узнать больше
Подпишитесь на наш канал в Telegram!
И узнавайте первыми о новых курсах и стипендиях

Рекомендуемые курсы

Алексей Навальный во вселенной Рика и Морти: Евгений Никитин о работе над персонажами

Алексей Навальный во вселенной Рика и Морти: Евгений Никитин о работе над персонажами

1/4/2024

Как AI-революция изменила кодинг, и почему это хорошая новость для гуманитариев

Майя Гусева и Илья Сагайдак о том, как знание основ синтаксиса Python и умение общаться с ChatGPT навсегда изменят жизнь гуманитариев и прочих НЕпрограммистов.

25/3/2024

Новая команда /tune в Midjourney: показываем на яйцах

Новый инструмент Midjourney, который позволяет создавать свой стиль

24/11/2023
AI-Коллега
Искусственный интеллект - больше не стажер, который занимает ваше время и вызывает тревогу за будущее, а надежный коллега, с которым всегда есть что обсудить и можно в разведку.
Узнать больше
Разгадать код (живой онлайн курс)
Этот курс поможет вам начать использовать код в вашей работе и творчестве без предыдущего опыта в программировании. С помощью GPT-4 и наших опытных тренеров вы научитесь искать, читать, писать и править код, открывая новые горизонты ваших профессиональных и творческих возможностей.
Узнать больше
AI VideoLab. Нейросети для создания видео
Курс для всех, кто хочет научиться создавать видеоконтент нового поколения, который завоевывает внимание соцсетей и завораживает зрителей в кино.
Узнать больше