Cada vez es más común entrenar modelos de IA con contenidos generados por IA. Son malísimas noticias

La inteligencia artificial se ha convertido en una herramienta prácticamente omnipresente y un aliado valioso. Chatbots como ChatGPT han llegado a sustituir a Google como la principal fuente de consulta para las nuevas generaciones. Sin embargo, la IA podría estar a punto de colapsar bajo su propio peso debido a un problema con su entrenamiento.
En 2024, investigadores advirtieron en la ICLR 2024 Conference sobre el riesgo de que los modelos de inteligencia artificial eventualmente lleguen a ser entrenados con contenidos generados por IA. El resultado de esto serían respuestas cada vez más «sesgadas, homogéneas, deficientes e imprecisas«, según señala un artículo de Inria.
¿De quién aprende la IA?
Sabemos que los modelos de IA (como ChatGPT, Stable Diffusion, Gemini, entre otros) se entrenan a partir de creaciones humanas como libros, música o imágenes. Algunos de esos datos son extraídos mediante procesos automatizados como el web scraping, lo que incluso llevó a empresas como OpenAI a los tribunales tras ser demandadas por creadores que no estaban de acuerdo con el uso que se le daba a sus obras.
Una vez recopilados, esos datos se organizan y depuran para el entrenamiento de la IA. Es en esta etapa cuando la IA adquiere conceptos y aprende a discernir entre ellos. Posteriormente, cuando un usuario hace una consulta, el modelo analiza la pregunta, busca en su base de datos y ofrece una respuesta basada en las coincidencias encontradas.
Pero, ¿qué pasa cuando a la IA la entrena la IA? Pues que la posibilidad de que algún error o dato falso se cuele. Esos errores se acumulan y convierten a la inteligencia artificial en una serpiente que se muerde la cola, pues se vuelve cada vez más «tonta» y poco fiable. En un artículo publicado en Nature, los autores concluyen que, si no se aborda este problema, la consecuencia sería el colapso de los modelos de IA generativa, pues sus respuestas serían cada vez más sesgadas y propensas a cometer errores.

Un problema que puede prevenirse
Como señala Datacamp, para hacer frente al colapso, se requiere de una combinación de estrategias. A saber: prácticas de validación de datos filtren los contenidos con los que se entrena un modelo, enfoque de formación híbrida y, por supuesto, intervención y supervisión humanas. El artículo advierte que la responsabilidad no solo recae en los laboratorios y centros de datos, también en las legislaciones que regulan la IA.
Con el tiempo es probable que nos encontremos con dos tipos de modelos de IA generativa: por un lado, los de grandes empresas capaces de invertir en métodos de extracción de datos humanos de alta calidad. Por el otro, los pertenecientes a empresas pequeñas, las cuales, al no contar con los recursos de las primeras, deberán conformarse con el contenido repetitivo generado por IA que perpetúa los errores.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://www.xataka.com.mx/robotica-e-ia/cada-vez-comun-entrenar-modelos-ia-contenidos-generados-ia-malisimas-noticias




