Una nueva IA añade sonidos realistas a cualquier vídeo
La semana pasada, OpenAI sorprendió al mundo al lanzar un nuevo modelo de inteligencia artificial llamado Sora, capaz de generar clips de video de alta resolución a partir de indicaciones de texto.
Sin embargo, estos clips vídeos esencialmente ingeniosas películas mudas. Ahora, ElevenLabs, una startup de clonación de voz basada en IA, ha llevado la experiencia un paso más allá al agregar sonidos de fondo a los vídeos creados por Sora.
ElevenLabs es conocida por su software de texto a voz impulsado por inteligencia artificial y una herramienta de doblaje automático diseñada para traducir el discurso de un video a más de 20 idiomas mientras «mantiene el tono y estilo de voz original».
Ahora, la compañía está trabajando en algo nuevo, que puede generar sonidos para acompañar videos aparentemente silenciosos basándose en descripciones de escenas proporcionadas por el usuario.
Para demostrar su habilidad, Elevenlabs lo ha aplicado a algunos contenidos generados por Sora.«Utilizamos indicaciones de texto como ‘olas chocando’, ‘metal golpeando’, ‘pájaros cantando’ y ‘motor de coche de carreras’ para generar audio que superpusimos a algunos de nuestros clips favoritos del anuncio de OpenAI Sora», explicó la compañía en una publicación de blog.
Aún no se han revelado los detalles precisos de los Efectos de Sonido de ElevenLabs, pero la demostración muestra una serie de clips de video generados por Sora acompañados de sonidos de fondo bastante realistas: desde pasos en una bulliciosa calle con el zumbido de la ciudad hasta pitidos y el zumbido mecánico de un robot del futuro. Todo esto aparentemente proviene de indicaciones de texto a audio.
Aún no se ha anunciado cuándo podemos esperar que la tecnología de Efectos de Sonido esté disponible, pero aquellos interesados en obtener más información pueden apuntarse aquí.