Tecnología

es gratis, hecha en China y ya la puedes probar desde México

Actualización 27/01/2025: Se actualizó esta publicación para incluir el anuncio de Janus-Pro, una serie de modelos capaces de crear imágenes y que según la compañía, superan a DALL-E 3 de OpenAI.

Es de China, gratis, de código abierto, y supera a otras IAs, como ChatGPT en varias pruebas de rendimiento. Se trata de DeepSeek-R1, una inteligencia artificial desarrollada en el país asiático que tiene como principales características el haber utilizado menos recursos para su entrenamiento contra otros modelos con potencia similar.

Eso no es todo, sino que luego de su presentación, la app de chatbot de DeepSeek se ha terminado por colocar en los primeros lugares de la App Store de Apple en Estados Unidos.

Qué es DeepSeek- R1

El más reciente anuncio de la compañía es la presentación del modelo DeepSeek-R1, un gran modelo que mezcla 671 mil millones de parámetros, con una arquitectura diferente que le permite tener un «rendimiento sólido» y un «entrenamiento e inferencia eficientes», esto último gracias a un sistema de predicción de tokens que mejora sus procesos sin necesitar una mayor cantidad de recursos para hacerlo.

Según DeepSeek, para entrenar a su modelo, la compañía necesitó de menos de 6 millones de dólares, aproximadamente dos meses y 2,000 chips especializados H800 de NVIDIA, un componente con menor potencia que otras variantes, por las restricciones de la guerra comercial con Estados Unidos. Caso contrario, GPT-4 requirió de 100 millones de dólares, según Sam Altman, y al menos 16,000 componentes para el desarrollo de su IA.

Inteligencia Artificial 01

Esto le permite, dice la compañía, tener un «rendimiento comparable» al de OpenAI-01 en tareas de razonamiento, gracias al «aprendizaje por refuerzo» (RL) puro. Este permite mejorar el desempeño del modelo en temas de razonamiento, en lugar de utilizar un proceso de ajuste fino supervisado (SFT), común en el entrenamiento de grandes modelos de lenguaje (LLM).

Es decir, se confió directamente en él para que pudiera desarrollar capacidades independientes, y evitar problemas con el uso de datos predeterminados, además de acelerar su entrenamiento.

Eso sí, de acuerdo con el equipo, eventualmente requirió de un STF limitado en sus etapas finales de desarrollo, para así obtener un modelo capaz de tener un nivel de rendimiento similar sin los grandes costos de hardware ni de tamaño en comparación con otras alternativas.

El origen de este modelo

DeepSeek-R1 se entrenó a partir de un modelo intermedio, llamado DeepSeek-R1-Zero, que sirvió como antesala a partir del uso exclusivamente de aprendizaje de refuerzo puro, lo que le permitió «pensar» de forma independiente, y que era recompensado con las respuestas correctas, así como con los procesos lógicos que se utilizaban para llegar a estas.

Después, el modelo comenzó a asignarse tiempo de procesamiento para problemas más complejos, como el categorizar tareas a partir de su dificultad, sin la necesidad de métodos de entrenamiento tradicionales.

Ai Pensamiento
Ai Pensamiento

Eso sí, no todo fue bueno, pues este modelo también tuvo varios problemas, como comportamientos de razonamiento «inesperados«, entre ellos una mala legibilidad de los contenidos que se le proporcionaban, pero también la mezcla de idiomas, como el iniciar en chino y terminar en inglés.

A partir de los descubrimientos de este modelo, se definieron las bases para R1. Este también está basado en la arquitectura V3 de DeepSeek, pero con algunas limitaciones SFT para poder evitar comportamientos similares, y luego se le sometió a un proceso de entrenamiento similar al de R-1 Zero de aprendizaje de refuerzo.

La comparativa contra otras IAs

Según los datos de DeepSeek, R1 tiene un rendimiento a la par de OpenAI-01, uno de los últimos modelos de OpenAI con capacidades de razonamiento, que lo hacen uno de los más potentes.

Además, tiene varias características adicionales, como que tanto su modelo y el informe técnico de su funcionamiento son de código abierto, por lo que cualquier persona lo puede revisar, utilizar y adaptar, pero también cuenta con una licencia MIT, es decir, que se puede comercializar libremente.

Como se puede ver en la siguiente gráfica, DeepSeek-R1 tiene una potencia prácticamente idéntica a la de ChatGPT en distintas pruebas, desde en conocimientos generales, programación y hasta la resolución de problemas matemáticos, a pesar de su menor tiempo de entrenamiento y en principio menor potencia.

Ghvi3aoaaaaw 4z
Ghvi3aoaaaaw 4z

Grafica del rendimiento de DeepSeek-R1 contra otras IAs como OpenAI-o1

Cómo utilizar DeepSeek-R1 en México

Poder utilizar DeepSeek-R1 es bastante sencillo, y funciona de forma similar a otras herramientas con IA que tenemos actualmente en el mercado.

Para ello será necesario dirigirse ya sea a su página oficial en nuestro navegador web, o descargar la app del chatbot directamente de la tienda de aplicaciones de nuestro sistema operativo, sea Android o iOS.

Después, necesitaremos iniciar sesión para comenzar a usarla, algo que podremos hacer si nos registramos con un correo electrónico o si vinculamos nuestra cuenta de Google.

Sin embargo, al momento de escribir esta nota, los servidores de la compañía están lentos, de acuerdo con DeepSeek, por un ataque malicioso a gran escala, por lo que la única forma de hacerlo es si nos damos de alta en la versión web para celular, enlazamos el perfil de Google y luego entramos a la app o al navegador web del mismo modo, donde ya no marcará error en el registro.

Deepseek App 01
Deepseek App 01

Al ingresar encontraremos unos cuantos botones en la interfaz que deberemos activar, como los de usar el modelo R1 en lugar del V3, para mayor capacidad de razonamiento, y si queremos también tener la opción de buscar contenido en la web gracias a su navegador integrado, algo que también hace ChatGPT, pero en su variante Plus de pago.

De acuerdo con su informe, DeepSeek tiene múltiples capacidades gratuitas, como el poder realizar tareas de programación avanzada, resolver problemas matemáticos y explicar el proceso de solución, acceso a internet, además del análisis y procesamiento de datos complejos.

Dicho de otra forma, con DeepSeek se pueden hacer una gran cantidad de tareas que ya son posibles con chatbots como ChatGPT o Gemini, por mencionar algunas, como el poder cargarle archivos y realizar consultas sobre ellos o hacerle preguntas «complicadas«.

Un modelo de generación de imágenes

Además de anunciar DeepSeek-R1, la compañía también reveló Janus-Pro, su nueva familia de modelos diseñados para la generación de imágenes que tienen tamaños de entre 1,000 y 7,000 millones de parámetros, con rendimientos que superan a opciones como DALL-E 3 y Stable Diffusion.

Janus Pro Teaser2
Janus Pro Teaser2

Estos nuevos modelos utilizan el aprendizaje automático multimodal para generar imágenes y cuentan con un «marco autorregresivo», que les permite analiazr y crear nuevas imágenes.

Janus-Pro, de la misma forma que con DeepSeek-R1 cuenta con una licencia MIT, por lo que se puede usar de forma comercial sin ninguna restricción.

DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://www.xataka.com.mx/robotica-e-ia/deepseek-r1-desafia-dominio-ia-chatgpt-gratis-hecha-china-puedes-probar-mexico

Publicaciones relacionadas

Botón volver arriba