AudioCraft, la nueva herramienta de META, crea composiciones con un sonido genérico basadas en indicaciones de texto. Se trata de un conjunto de herramientas de inteligencia artificial para generar audio y música realistas de alta calidad a partir de texto.
“Imagine a un músico profesional que pueda explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento; igual al propietario de una pequeña empresa que agrega una banda sonora a su último anuncio de video en Instagram con facilidad” comentó Meta.
AudioCraft consta de tres modelos: MusicGen (para música), AudioGen (para efectos de sonido) y EnCodec (un decodificador generativo de IA). MusicGen se capacitó en aproximadamente 400.000 grabaciones junto con descripción de texto y metadatos, lo que equivale a 20.000 horas de música propiedad de Meta o con licencia específica para este propósito, según el gigante tecnológico. “Las pistas de música son más complejas que los sonidos ambientales, y generar muestras coherentes en la estructura a largo plazo es especialmente importante cuando se crean piezas musicales novedosas”.
Agregaron que: “Con aún más controles, creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, como los sintetizadores cuando aparecieron por primera vez. Meta compartió un clip de cómo suena la música generada por MusicGen. Además del riff de reggae, los ejemplos incluyen ‛Escena de película en un desierto con percusión’, ‛Electrónica de los 80 con ritmos de batería’, ‛Jazz instrumental, tempo medio, piano enérgico’ y ‛Hip-hop suave, rascado de vinilo, música profunda’, bajo”.
AudioGen fue entrenado en “efectos de sonido públicos” y puede generar sonidos ambientales y efectos de sonido como el ladrido de un perro, bocinazos de automóviles o pasos en un piso de madera. La compañía también lanzó lo que dijo es una versión mejorada del decodificador EnCodec, “que permite la generación de música de mayor calidad con menos artefactos”.