Meta випустила нову модель штучного інтелекту з відкритим кодом під назвою AudioCraft, яка дозволяє створювати музику та звуки за допомогою текстових підказок.
Модель складається із трьох підмоделей, які призначені для різних сфер генерації звуків:
- MusicGen — модель, що використовує текстові дані для створення музики й була навчена на 20 000 годинах музики, «яка належить Meta або ліцензована спеціально для цієї мети». Інструмент TextToSample для генерації семплів, про який ми писали вчора, теж працює за її допомогою.
- AudioGen — модель, що створює аудіо з текстових підказок, імітуючи, наприклад, гавкіт собак або звук кроків.
- EnCodec — покращена версія декодера Meta, що дозволяє створювати звуки з меншою кількістю артефактів.
Meta не перша компанія, яка поєднала музику з ШІ. Google створила MusicLM — велику мовну модель, яка генерує хвилинні звуки на основі текстових підказок, однак вона доступна лише для дослідників.