Google DeepMind logra componer bandas sonoras con IA para videos

En un post publicado ayer en su blog oficial, DeepMind, el laboratorio de investigación de inteligencia artificial (IA) de Google, declaró que está desarrollando una tecnología de IA que generará bandas sonoras para videos, ofreciendo a los usuarios algo nunca visto.

“Los modelos para generar videos están progresando a un ritmo increíble, pero muchos de los sistemas actuales únicamente consiguen crear videos mudos”, escribió DeepMind al anunciar su nuevo proyecto. Pero la tecnología V2A, abreviatura de video-to-audio (video a audio), en la que están trabajando los investigadores de Google marcaría una importante evolución en el sector, al permitir por fin la “generación audiovisual sincronizada”.


La nueva generación de AlphaFold, de Google Deepmind, está preparada para un avance significativo en el desarrollo de medicamentos, gracias a esta IA mejorada capaz de modelizar anticuerpos, ADN y moléculas de organismos patógenos.


V2A: Bandas sonoras enriquecidas con la IA de Google DeepMind

De acuerdo con el anuncio del laboratorio, la tecnología V2A es capaz de comprender los pixeles en bruto de un video y sincronizar automáticamente el audio generado con el video, incluso sin una instrucción (prompt) descriptiva, para crear música, efectos de sonido y diálogos que se adapten perfectamente a los personajes y al estilo del contenido.

De hecho, para que la función de la IA sea verdaderamente óptima, DeepMind está trabajando en la mejora de la “sincronización labial para videos con habla”, con el fin de evitar un desajuste entre las palabras pronunciadas y los movimientos de la boca del personaje.

En resumen, una herramienta útil en todos los sentidos, que también se beneficia del apoyo de SynthID “para aplicar una marca de agua a todos los contenidos generados por la IA y ayudar a proteger contra posibles usos indebidos de esta tecnología”.

Prompt para el audio: Música. Transcripción: “Este pavo luce increíble, tengo mucha hambre”.

Segura y eficaz, la tecnología V2A se basa en un modelo de IA entrenado en una combinación de sonidos y transcripciones de diálogos, además de secuencias de video, para ofrecer el ambicioso resultado que buscaban los desarrolladores de DeepMind. “Entrenándose con videos, audios y comentarios adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con diversas escenas visuales, respondiendo a la información proporcionada en las anotaciones o transcripciones”, destaca el laboratorio, haciendo hincapié en la capacidad de la V2A para generar audio que coincida perfectamente con las tomas de video.

Esta información pertenece a su autor original y se encuentra disponible en: https://es.wired.com/articulos/google-deepmind-logra-componer-bandas-sonoras-con-ia-para-videos

case studies

See More Case Studies

Contact us

Partner with Us for Comprehensive IT

We’re happy to answer any questions you may have and help you determine which of our services best fit your needs.

Your benefits:
What happens next?
1

We Schedule a call at your convenience 

2

We do a discovery and consulting meting 

3

We prepare a proposal 

Schedule a Free Consultation