Los datos sintéticos en América Latina: ¿estamos a las puertas de una sociedad basada en simulaciones?

En banca y comercio electrónico, los datos sintéticos permiten simular fraudes, patrones de consumo y escenarios de riesgo que, aunque no existan en la realidad, ayudan a anticipar problemas y diseñar soluciones, siendo clave para la notable cantidad de soluciones fintech que están surgiendo en América Latina.
Y en gobiernos, están comenzando a ganar protagonismo para modelar políticas públicas en contextos donde no hay estadísticas confiables o donde los censos se realizan cada década.
A pesar de las ventajas que los datos sintéticos ofrecen para simular numerosos escenarios y entrenar modelos más diversos, es crucial validarlos con la realidad para evitar que reflejen o amplifiquen sesgos existentes.
“Los datos sintéticos tienen un gran potencial para proteger la privacidad, especialmente en contextos donde compartir datos reales puede violar regulaciones o comprometer información sensible”, dijo a WIRED en Español Mauricio Mora, Sr. Data Science Manager en BBVA.
“Sin embargo, su capacidad para reducir sesgos depende en gran medida de cómo se generen. Si el modelo generador aprende de datos sesgados, reproducirá o incluso amplificará esos sesgos. Es decir, no basta con que los datos sean sintéticos, también deben ser cuidadosamente diseñados y validados para no perpetuar las mismas inequidades del mundo real”, advierte Mora.
¿Sociedad sintética o sociedad real?
Si bien originalmente estas técnicas nacieron para anonimizar datos personales, hoy su alcance se ha expandido: los datos sintéticos ya no solo representan lo existente, sino que generan escenarios, perfiles, conductas y mundos enteros, muchos de los cuales nunca han ocurrido en la realidad.
Esta transición plantea una pregunta urgente: ¿qué sucede cuando la “verdad” sobre la que se basa la IA es, en esencia, una simulación? Más allá del clásico debate sobre sesgos, la nueva era donde los datos son la base de diversas soluciones implica que las decisiones de impacto social y político podrían estar condicionadas por datos fabricados o inferidos, no por hechos comprobados.
La proliferación de esta “sociedad sintética” abre dilemas profundos: ¿cómo verificamos la ética de modelos entrenados con mundos que no existen? ¿Quién es responsable si una IA, alimentada por ficciones, instaura regulaciones o diagnósticos médicos que afectan a millones de personas?
Dada la importancia de verificar que los datos sintéticos usados reflejen realidades locales y no únicamente escenarios artificiales, los expertos recomiendan una auditoría que incluya una combinación de técnicas estadísticas, pruebas de robustez y validación empírica con datos reales.
“Algunas buenas prácticas incluyen procesos como comparar distribuciones entre datos sintéticos y reales para asegurar que capturan adecuadamente las características locales; evaluar el desempeño de modelos entrenados con datos sintéticos en escenarios reales, usando métricas como precisión, recall y F1 en conjuntos de prueba representativos; auditorías éticas y revisiones por expertos del dominio, que pueden detectar sesgos o inconsistencias que los modelos automáticos no ven; y total transparencia en la generación para saber qué variables, fuentes y algoritmos se usaron para generar los datos. Esto permite entender sus límites”, explica Mauricio Mora.
Mientras un 55% de latinoamericanos está a favor de regular la inteligencia artificial, la frontera entre simulación y realidad se hace cada vez más delgada y corremos el riesgo de derribar el principio fundamental de la verificación: la capacidad de contrastar una afirmación con la experiencia vivida o con evidencia directa.
En este nuevo mundo impulsado por algoritmos y desarrollos artificiales, la transparencia que prometen algunas compañías ya no basta. Se requieren mecanismos de auditoría, límites claros y marcos regulatorios que permitan comprender y controlar el poder de los datos sintéticos en la construcción de verdades compartidas. Porque si dejamos en manos de la simulación la base del conocimiento social y económico, podríamos estar fundando nuestra realidad sobre una ficción cuidadosamente elaborada y fragmentando, en el proceso, la confianza colectiva.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://es.wired.com/articulos/los-datos-sinteticos-en-america-latina-estamos-a-las-puertas-de-una-sociedad-basada-en-simulaciones