Internet archive está en peligro

Este mes, USA Today publicó un informe que reveló cómo el Servicio de Inmigración y Control de Aduanas (ICE) retrasó la divulgación de información clave sobre los impactos de sus políticas de detención. Los autores utilizaron la herramienta Wayback Machine de Internet Archive para recopilar y analizar las estadísticas de detención de ICE y rastrear cómo la agencia había cambiado bajo la administración Trump. La historia es uno de los innumerables ejemplos de cómo Wayback Machine, que rastrea y conserva páginas web, ha ayudado a preservar la información para el bien público. También fue, según Mark Graham, director de la Wayback Machine, «un poco irónico».
USA Today Co., el conglomerado editorial antes conocido como Gannett, que gestiona tanto su periódico homónimo como más de 200 medios de comunicación adicionales, impide que la Wayback Machine archive su trabajo. «Pueden recopilar sus investigaciones periodísticas gracias a la Wayback Machine. Pero, al mismo tiempo, bloquean el acceso», afirma Graham.
Otras grandes organizaciones periodísticas, como The New York Times, decidió impedir que Wayback Machine archive sus artículos. Según un análisis de la empresa de IA Originality AI, 23 de los principales sitios de noticias bloquean actualmente ia_archiverbot, el rastreador web utilizado habitualmente por Internet Archive para el proyecto Wayback. Reddit también lo ha hecho. Otros medios están limitando el proyecto de diferentes maneras: The Guardian no bloquea el rastreador, pero excluye su contenido de la API de Internet Archive y filtra los artículos de la interfaz de la Wayback Machine, lo que dificulta el acceso del público general a las versiones archivadas de sus artículos.
Qué está pasando con Internet Archive y los periodistas
La portavoz de USA Today Co., Lark-Marie Anton, recalcó que «no se busca bloquear específicamente Internet Archive», sino que forma parte de los esfuerzos más amplios de la compañía para bloquear todos los bots de rastreo web. Robert Hahn, director de asuntos comerciales y licencias de The Guardian, afirma que han estado en conversaciones con Internet Archive sobre «la preocupación por el posible uso indebido por parte de empresas de IA de los conjuntos de contenido rastreados con fines de preservación».
Ahora, algunos periodistas se oponen a esta tendencia. Esta semana, organizaciones como Electronic Frontier Foundation y Fight for the Future han unido a los periodistas en torno a la causa de Wayback Machine. La coalición recogió más de 100 firmas de periodistas en activo que reconocen el valor de la herramienta y presentó una carta de apoyo a Internet Archive. Entre los firmantes se encuentran desde la estrella de la televisión Rachel Maddow hasta periodistas independientes como Kat Tenbarge, de Spitfire News, y Taylor Lorenz, de User Mag. «En generaciones anteriores, los periodistas acudían a los archivos físicos de un periódico local o de una biblioteca pública local para acceder a reportajes históricos y seguir los hilos del presente hasta la historia. Con muchos periódicos cerrados, y sin una vía clara para que las bibliotecas públicas locales preserven la información exclusivamente digital, la labor de salvaguardar el registro del periodismo recae cada vez más en Internet Archive«, reza la carta.
Laura Flynn, una de las firmantes y productora supervisora de podcasts en The Intercept, afirma que Internet Archive ha sido una «herramienta esencial» a lo largo de su carrera, desempeñando un papel decisivo en la comprobación de hechos y sacando a la luz clips de audio. Otro de los firmantes, Micco Caporale, redactor del Chicago Reader, afirma que Wayback Machine ayuda a la hora de escribir sobre grupos y personajes culturales antiguos, ya que permite acceder a sitios de fans que, de otro modo, se perderían en el tiempo.
Caporale afirma que la herramienta también le ha sido útil en su papel de organizador sindical: «También he utilizado mucho Wayback Machine en mi trabajo de organización sindical para encontrar antiguos anuncios de trabajo y saber para qué afirmaba la empresa que contrataba a la gente frente a las funciones que realmente le asignaba, o para ver cómo se han modificado los distintos puestos en diferentes momentos. Estos puestos también nos ayudan a hacer un seguimiento de las fluctuaciones salariales en toda la organización a lo largo del tiempo».
La mayor preocupación son los modelos de IA
Otros editores han justificado su decisión de bloquear Wayback Machine señalando su preocupación por cómo las empresas tecnológicas pueden utilizar los datos de Internet Archive para entrenar modelos de IA. El portavoz del New York Times, Graham James, explica: «La cuestión es que el contenido del Times en el Internet Archive está siendo utilizado por empresas de IA en violación de la ley de derechos de autor para competir directamente con nosotros». El Times declinó aclarar si esto era algo que estaba ocurriendo realmente o más bien una preocupación hipotética.
Reddit ya ha manifestado anteriormente que la preocupación por la IA también le llevó a bloquear el rastreador Wayback Machine. Existe una guerra constante entre editores y empresas de IA sobre la legalidad de las herramientas de IA que se entrenan en sus contenidos sin permiso; muchas de las más de 100 demandas por derechos de autor de IA en Estados Unidos se centran en esta cuestión. Las empresas tecnológicas utilizan contenidos de todo internet, y como Wayback Machine ofrece un fondo de material tan extenso, se considera una fuente de datos especialmente atractiva.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://es.wired.com/articulos/internet-archive-esta-en-peligro



