250 archivos maliciosos bastan para envenenar las respuestas de enormes modelos de IA

Solo se necesitan 250 documentos maliciosos para “envenenar” los datos de entrenamiento de un modelo de inteligencia artificial (IA), sin importar su tamaño ni el volumen de información con el que fue capacitado. Esta es la inquietante conclusión de un estudio realizado por Anthropic, en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, que desafía la creencia común de que los atacantes deben controlar una parte considerable del conjunto de datos para comprometer el comportamiento de un modelo y adaptarlo a fines nocivos.
El objetivo del estudio fue evaluar la viabilidad y alcance de los ataques de data poisoning durante la etapa de preentrenamiento, una técnica que consiste en alterar deliberadamente los datos con los que se entrena un modelo para manipular su conducta futura.
Como prueba de concepto, los investigadores emplearon un ataque de denegación de servicio (DoS, por sus siglas en inglés), diseñado para que los modelos contaminados generaran texto incoherente al detectar la frase
El equipo creó una serie de documentos alterados a partir de fragmentos aleatorios del conjunto de entrenamiento, a los cuales añadió el término clave
Los investigadores incorporaron estos archivos maliciosos en 72 modelos de cuatro tamaños distintos (600M, 2B, 7B y 13B parámetros). En todos los casos, los sistemas fueron entrenados con 20 tokens limpios por parámetro, cantidad considerada óptima para garantizar el máximo rendimiento teórico según la Ley de Escalamiento Chinchilla. Para cada tamaño se probaron tres niveles de envenenamiento con 100, 250 y 500 documentos contaminados, realizando tres repeticiones por configuración.
El éxito del ataque se evaluó mediante la métrica de perplejidad, un estándar en el procesamiento del lenguaje natural que mide el grado de coherencia del texto generado. Una perplejidad baja indica que el modelo predice con certeza la siguiente palabra y produce frases lógicas; en cambio, una alta refleja confusión y da lugar a resultados aleatorios o incoherentes.
Tras los experimentos, los autores concluyeron que la efectividad del ataque no depende del tamaño del modelo, sino del número absoluto de documentos alterados. Aunque los modelos más grandes fueron entrenados con conjuntos de datos más amplios y limpios, en todos los casos bastó con 250 archivos maliciosos para modificar su comportamiento.
“Nuestros resultados desafían la suposición común de que los atacantes deben controlar un porcentaje de los datos de entrenamiento; en realidad, podrían necesitar solo una cantidad pequeña y fija”, señalan los investigadores.
El estudio demuestra que los ataques de envenenamiento de datos son más factibles y escalables de lo que se pensaba. Sin embargo, los autores reconocen que aún es necesario ampliar la investigación para determinar si el patrón observado se mantiene en modelos con más de 13B parámetros o en escenarios más complejos que un simple ataque DoS.
No obstante, destacan que sus hallazgos subrayan la urgencia de desarrollar salvaguardas y mecanismos de defensa escalables y proactivos capaces de prevenir y responder a este tipo de amenazas.
“Nuestro trabajo se centra en una puerta trasera limitada que produce texto ininteligible, la cual probablemente no represente riesgos graves en los modelos de frontera. Aun así, compartimos estos resultados para evidenciar que los ataques de data poisoning podrían ser más prácticos de lo que se cree. Es fundamental ampliar la investigación sobre esta amenaza y sus posibles defensas”, concluye el informe.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://es.wired.com/articulos/250-archivos-maliciosos-bastan-para-envenenar-una-ia