Nvidia entra a la carrera de los modelos de IA abiertos con Nemotron 3

Nvidia ha hecho una fortuna suministrando chips a empresas que se usan para la inteligencia artificial, pero hoy ha dado un paso más para convertirse en una fabricante de modelos más seria al publicar una serie de modelos abiertos de vanguardia, junto con datos y herramientas para ayudar a los ingenieros a utilizarlos.
Esta medida, que llega en un momento en el que empresas de IA como OpenAI, Google y Anthropic están desarrollando sus propios chips cada vez más capaces, podría servir para evitar que estas empresas se alejen de la tecnología de Nvidia con el tiempo.
Los modelos abiertos son ya una parte crucial del ecosistema de la IA, y muchos investigadores y empresas de nueva creación los utilizan para experimentar, crear prototipos y construir. Aunque OpenAI y Google ofrecen pequeños modelos abiertos, no los actualizan con tanta frecuencia como sus rivales en China. Por esta y otras razones, los modelos abiertos de las empresas chinas son actualmente mucho más populares, según datos de Hugging Face, una plataforma de alojamiento de proyectos de código abierto.
Los nuevos modelos Nemotron 3 de Nvidia se encuentran entre los mejores que pueden descargarse, modificarse y ejecutarse en el propio hardware, según las puntuaciones de referencia compartidas por la empresa antes de su lanzamiento.
«La innovación abierta es la base del progreso de la inteligencia artificial», declaró Jensen Huang, CEO de la compañía, en un comunicado previo a la noticia. «Con Nemotron, estamos transformando la IA avanzada en una plataforma abierta que ofrece a los desarrolladores la transparencia y la eficiencia que necesitan para construir agentes de IA a escala».
Nvidia está adoptando un enfoque más transparente que muchos de sus rivales estadounidenses al publicar los datos utilizados para entrenar a Nemotron, un hecho que debería ayudar a los ingenieros a modificar los modelos más fácilmente. La empresa también está publicando herramientas que facilitan la personalización y el ajuste. Entre ellas se incluye una nueva arquitectura híbrida de modelos de mezcla latente de expertos que, según Nvidia, es especialmente adecuada para crear agentes de IA que puedan realizar acciones en computadoras o en la web. La empresa también está lanzando bibliotecas que permiten a los usuarios entrenar a los agentes para que hagan cosas utilizando el aprendizaje por refuerzo, que consiste en dar a los modelos recompensas y castigos simulados.
Los modelos Nemotron 3 vienen en tres tamaños: Nano, con 30,000 millones de parámetros; Super, con 100,000 millones; y Ultra, con 500,000 millones. Los parámetros de un modelo se corresponden con su capacidad y con lo difícil que es de manejar. Los modelos más grandes son tan engorrosos que tienen que funcionar en bastidores de hardware caro.
Fundamentos de los modelos
Kari Ann Briski, vicepresidenta de software de IA generativa para empresas de Nvidia, afirma que los modelos abiertos son importantes para los creadores de IA por tres razones: los creadores necesitan cada vez más personalizar los modelos para tareas concretas; a menudo resulta útil transferir consultas a diferentes modelos; y es más fácil exprimir respuestas más inteligentes de estos modelos después del entrenamiento haciéndoles realizar una especie de razonamiento simulado. «Creemos que el código abierto es la base de la innovación en IA, que seguirá acelerando la economía mundial», opina Briski.
El gigante de las redes sociales Meta lanzó los primeros modelos abiertos avanzados bajo el nombre de Llama en febrero de 2023. Sin embargo, a medida que se ha intensificado la competencia, Meta ha señalado que sus futuras versiones podrían no ser de código abierto.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://es.wired.com/articulos/nvidia-entra-a-la-carrera-de-los-modelos-de-ia-abiertos-con-nemotron-3




