Como la inteligencia artificial está siendo envenenada en su contra
El año pasado publicamos un estudio del SHERPA – iniciativa financiada por la UE, destinada a analizar cómo se utilizará el aprendizaje automático a futuro – que, entre otras cosas, explicaba cómo los sistemas que usan inteligencia artificial están siendo atacados. Nuestro informe detallaba varios métodos conocidos, como el engañar a un determinado sistema para clasificar incorrectamente un input u obtener información sobre los datos utilizados para entrenarlo o “envenenarlo”. De todos ellos, el envenenamiento de algoritmos es el más grave y a eso dedicaremos este artículo.
El aprendizaje automatizado moldea la realidad
Las sistemas adiestrados en línea están presentes en muchos servicios que utilizamos a diario. Aquellos con los que probablemente estemos más familiarizados son los denominados “recomendadores” o aquellos que sugieren actividades basadas en la forma en que usted interactúa con un sistema. Un claro ejemplo sería el YouTube.
Estas fueron las sugerencias predeterminadas que me dieron cuando visité YouTube de incógnito a través de una ventana de navegador.
YouTube suele recomendar videos a un espectador basándose en lo que es popular en su región o en los videos vistos anteriormente por el usuario. A medida que se vean más videos, el sistema recomendará con mayor exactitud el contenido, basándose en lo que fue visto, gustado o suscrito por otras personas que han interactuado con contenido similar. Si un usuario está registrado en el sitio, con el tiempo los mecanismos de base recogerán más y más datos para ajustar las recomendaciones y sugerir nuevos contenidos cuando se vuelva a visitar el sitio a futuro. La misma lógica se aplica a otras plataformas, de vídeo como Netflix y a los servicios de transmisión de música como Spotify.
Asimismo, los servicios de compras online como Amazon realizan recomendaciones de productos de manera similar. Cuando un usuario ve un artículo, se aconsejan los mismos que otros usuarios han buscado o comprado, después de haberse interesado por él. Mientras más compre, el sistema más perfeccionará las sugerencias para hacer coincidir los hábitos de compra de éste con los de otros perfiles similares.
Cabe decir que las redes sociales como Facebook, Twitter, Instagram y TikTok se basan casi completamente en los “recomendadores”. Cada acción, ya sea un post, una vista, un retweet o un seguimiento alimenta a los algoritmos de recomendación, los cuales sugieren otras cuentas a seguir, envían avisos sobre la actividad reciente e incluso llegan a determinar el contenido que un usuario ve en su timeline.
Los sistemas de aprendizaje basados en inteligencia artificial también se utilizan con otros fines menos obvios, como la prevención de fraude con tarjetas de crédito, la detección de intrusiones en la red, la filtración de correos no deseados, los diagnósticos médicos y la detección de defectos. Asimismo, se encuentran en sitios en línea (como TripAdvisor) y en bots de chat como Tay de Microsoft, el cual fue rápidamente manipulado por los usuarios de Twitter para volverse racista.
Lo que todos estos servicios tienen en común es cómo funcionan bajo la superficie. Están basados en modelos de inteligencia artificial que se actualizan constantemente y se alimentan de los nuevos datos creados por los usuarios del servicio. Cada retweet, hashtag, o seguimiento en Twitter sirve como información para un posterior update del modelo. Cada video visto, cada like o comentario y cada canal suscrito en YouTube proporciona datos para seguir entrenando al programa. Si bien, los detalles de cómo funcionan estos modelos y cómo se adiestran varían entre un servicio y otro o en lo referente a la funcionalidad, pero los mecanismos base son siempre similares.
Si las recomendaciones pueden ser manipuladas, nosotros también podemos serlo
Los algoritmos de recomendación y otros sistemas similares pueden ser alterados fácilmente realizando acciones que afectan el input antes de la próxima actualización. Por ejemplo, si alguien desea atacar un sitio de compras en línea para recomendar un producto B a un comprador que vio o compró el producto A, todo lo que tiene que hacer es mirar a A y luego B varias veces (o agregar tanto a A como a B a una lista de favoritos o al carrito de compras). Si alguien quiere que un hashtag esté super de moda en una red social, simplemente lo publica y/o vuelve a twittearlo. Si el fin es que una nueva cuenta política falsa se haga notar, simplemente se requiere crear un montón de otras cuentas falsas que la sigan y se interesen continuamente por su contenido.
No es necesario ser un científico para darse cuenta de cómo se pueden manipular los algoritmos de las redes sociales, tal como se muestra en este ejemplo. El dueño de esta cuenta habla de retwitear el contenido continuamente. Esto podría significar que el usuario en cuestión controla otras tantas cuentas de Twitter. Este sitio permite a los usuarios volver a twittear, borrar y luego volver a twittear. El re-tweet se usa para “golpear” el contenido una y otra vez. Esta táctica es utilizada en algunas cuentas de Twitter incluso para alcanzar más visibilidad en su propio contenido.
Otro ejemplo fue el período previo a las elecciones generales del Reino Unido del 2019. La desinformación respecto a un incidente en un hospital de Leeds fue provocada por un grupo organizado de cuentas falsas, que publicaban respuestas a destacados periodistas y políticos en Twitter. Este spam de respuestas es famoso por engañar a la gente (para que crean en contenidos, se interesen por ellos etc.), especialmente si los usuarios están ocupados o en un momento de pánico. Si una cuenta de Twitter con muchos seguidores se ocupa de desinformación como esta, le da legitimidad. Grupos de derecha en Twitter se enteraron de lo que estaba sucediendo y prosiguieron a publicar mensajes similares desde sus propias cuentas, fomentando así aún más la desinformación (y enmascarando la mala intención). Este tipo de actividad es sumamente habitual en las redes sociales.
Estos son sólo algunos de los tweets falsos publicados durante el incidente del hospital de Leeds en el 2019. Observe cómo estos tweets son respuestas a contenidos publicados por políticos y periodistas. Estos fueron posteriormente copiados por otros usuarios de Twitter.
Cómo manipular algoritmos
De acuerdo al motivo del atacante, los algoritmos de recomendación pueden ser objeto de ataques de diversas maneras. Rivales pueden utilizar los ataques de promoción para engañar a un sistema de recomendación con el fin de dar énfasis a un producto, un contenido o una persona ante el mayor número posible de usuarios. A la inversa, se observan ataques de desclasificación para hacer que un producto, un contenido o un usuario esté menos presente de lo que debiera. La manipulación algorítmica también puede utilizarse con fines de ingeniería social. Teóricamente hablando, si un rival tiene información sobre la forma en que un usuario en particular ha interactuado con un sistema, puede elaborar un ataque dirigido con una mala recomendación, como un vídeo de YouTube, una aplicación maliciosa o una cuenta fantasma a seguir. Esta manipulación puede utilizarse con diversos fines, entre ellos la desinformación, el phishing, las estafas, la alteración de la opinión pública, la promoción de contenidos no deseados y el descrédito de personas o marcas. Hoy en día incluso usted puede pagarle a alguien para que manipule la función de autocompletación de búsqueda de Google.
Aquí hablamos de los ataques de descrédito en este blog: https://blog.f-secure.com/5-adversarial-ai-attacks-that-show-machines/
Los ataques contra los algoritmos de recomendación se realizan mediante la automatización o coordinación a gran escala. Dado que se requiere una cantidad bastante grande de datos para alterar el sistema de manera importante, se utilizan cuentas falsas para efectuar los ataques. Hay que señalar, sin embargo, que dichos sistemas cuentan con mecanismos de protección basados en inteligencia artificial destinados a prevenir los ataques de “envenenamiento”. Por esta razón, los delincuentes prueban primero la capacidad de detección del sistema antes de lanzar un ataque real. Esto es efectuado por medio de cuentas desechables. Una vez conocidas la capacidad de detección automatizada, el atacante puede crear diversas cuentas falsas, para que parezcan reales y se comporten como usuarios normales.
Es bastante poco usual detectar cuentas de desinformación hablando de sus hallazgos en público. En este caso, lo conseguimos. Aquí se está discutiendo sobre cómo evadir los mecanismos establecidos para detectar el racismo y el discurso de odio.
En general, los mecanismos de detección de ataques de envenenamiento están diseñados para notar grandes cambios repentinos en las informaciones entrantes. Pero para evadirlos, los atacantes pueden usar una estrategia de introducir datos distorsionados lentamente y durante un período de tiempo.
Los ataques de envenenamiento de IA no son teoría, son una industria
Actualmente se están realizando numerosos ataques contra recomendadores, navegadores y otros servicios en línea de este tipo. De hecho, existe toda una industria para apoyar estos ataques. Con una simple búsqueda en la web es posible encontrar servicios de compra baratos para manipular las notas de las tiendas de aplicaciones, para publicar críticas falsas de restaurantes, para publicar comentarios en los sitios web o influir en las encuestas en línea y aumentar la interacción con contenidos o en las cuentas de las redes sociales y mucho más. La predominancia y el bajo costo de esos servicios indican que son ampliamente utilizados.
Se trata de cuentas de Twitter que pueden ser compradas.
Justamente mientras escribía este artículo, un investigador de desinformación con el que colaboro frecuentemente (botvolution), detectó esta cuenta que anunciaba la venta de seguidores en Twitter en los círculos políticos del Reino Unido.
Por lo general pasa desapercibido cuando un modelo de inteligencia artificial ha sido adulterado. Si una tienda en la web empieza a recomendar un producto B junto a un producto A es muy poco probable que alguien se percate. Los posibles compradores pueden considerar curioso que el producto B les haya sido sugerido, pero simplemente siguen adelante. Cabe recalcar que los ataques contra los algoritmos de compra online no son teoría – por ejemplo el algoritmo de recomendación de Amazon ha sido alterado para recomendar literatura anti-vacunación en publicaciones médicas y sitios de médicina, para difundir la supremacía blanca, el antisemitismo y la islamofobia, para apoyar a una campaña de los trolls de 4 canales y también para recomendar contenidos referentes a QAnon.
Asimismo, se descubrió recientemente que los malhechores están usando tipos de nombres creativos para eludir la lógica de detección de Amazon, con el objetivo de vender artículos relacionados con Boogaloo. Si bien, este ejemplo no es un ataque de manipulación de algoritmos, es muy interesante, ya que demuestra cómo la competencia es capaz de eludir las medidas adoptadas para evitar que ciertos contenidos sean publicados, o en este caso, vendidos.
Por qué es tan difícil corregir un modelo dañado
Si el titular de un sistema se da cuenta de que algo va mal y sospecha que ha sido atacado, ¿cómo lo soluciona? En la mayoría de los casos, el proceso en cuestión no es banal. Si el propietario de una tienda en línea nota que su sitio ha comenzado a recomendar el producto B junto con el producto A y sospecha que hay algo raro, lo primero que tendría que hacer es revisar los datos anteriores para determinar por qué el programa comenzó a hacer esta sugerencia. Para ello, hay que reunir todos los casos en los que el producto B se viera, gustara o comprara junto con el producto A. Luego se trata de determinar si los usuarios que generaron esas interacciones son reales o ficticios, algo probablemente extremadamente difícil si el atacante sabe cómo hacer que sus cuentas falsas parezcan y se comporten como personas reales. Si el titular de un sitio concluye que se trata de un ataque, entonces habría reparar su sistema.
Corregir un modelo estropeado, en la mayoría de los casos, implica volver a entrenar con la inteligencia artificial. Para ello se toma una versión antigua (de antes del día del ataque) y se alimenta con todos los datos acumulados entre esa fecha y la actual, pero sin las informaciones maliciosas, ya eliminadas anteriormente. Luego se reimplementa el sistema nuevo y se reanudaría el negocio. Hay que considerar que tanto la filtración del input envenenado, como el reentrenamiento pueden llevar bastante tiempo. Si a futuro advierte un nuevo ataque, tendrá que realizar los mismos pasos una y otra vez.
Las redes sociales y otros grandes sitios en línea son objeto de ataques desde numerosos frentes y de manera casi constante. Sería impracticable reciclar constantemente su sistema y sus datos a medida que se descubren nuevos ataques. Por eso no lo hacen. Incluso en el más simple de los casos, corregir un modelo alterado es algo poco realista y , por lo tanto, los algoritmos envenenados simplemente se dejan como están.
La manipulación “falsa” puede convertirse en “real”
Vale mencionar que, en el caso de las redes sociales, el envenenamiento de los algoritmos puede ser originado tanto a través de una actividad “falsa” como de una actividad real. Los agentes coordinados “inflan” una parte del contenido lo suficiente como para ser utilizada por los usuarios reales, que, a su vez, la amplifican. Protagonistas sofisticados (como los Estado-nación) llegan a la cumbre de los esfuerzos manipuladores para hacer avanzar su propio programa, lo que ha ocurrido durante los acontecimientos políticos de alto nivel en los últimos años. La manipulación a gran escala en este momento es un arma para propagar la desinformación sobre el coronavirus, para difundir historias falsas sobre incidentes en protestas y para reclutar personas para grupos extremistas.
El 28 de julio de 2020 (mientras yo escribía este post) por ejemplo, una campaña de desinformación anti-máscara y anti-vacuna estaba siendo potenciada en Facebook.
Este lanzamiento en Facebook causó una ola similar de participación en Twitter, constituyendo las dos principales tendencias en los Estados Unidos, como vemos en la pantalla que se muestra a continuación. Obsérvese que la tendencia principal probablemente fue codificada de forma dura, en un intento de contrarrestar la desinformación que se estaba extendiendo. Es así como persistió durante muchas horas después de que la segunda tendencia había disminuido.
Las redes sociales reaccionaron eliminando los link referentes a la historia, pero no antes de que hubiera circulado. Como tal, muchas personas la habrán visto y calificado de verdadera – no notarían el hecho de que fue desacreditada y eliminada de los medios sociales más tarde. Así es como se difunden muchas historias falsas y teorías de conspiración y es por eso que grupos como QAnon son tan populares en este momento. El contenido de las listas de negación es sólo un parche para un problema que debería haber sido resuelto a un nivel más profundo – los mecanismos para multiplicar el contenido de esta manera deben ser entendidos y abordados, para que campañas de este tipo puedan ser bloqueadas antes de que tengan un efecto real en la gente que los ve.
Detenga el envenenamiento desde un comienzo
Dado que la reparación de un modelo ya alterado es, en la mayoría de los casos, poco factible, lo lógico sería por lo tanto detectar los ataques a medida que ellos se producen. Si se logra, las informaciones contaminadas pueden ser descartadas antes de la siguiente actualización del algoritmo, conservando así la integridad de éste.
Existen diversos mecanismos y prácticas para detectar y prevenir este tipo de ataques. Entre ellos vemos la limitación de la tasa, las pruebas de regresión, las comprobaciones de la validez de los inputs, la regulación manual y diversas metodologías estadísticas y de detección de anomalías, escritas en nuestro informe del SHERPA – iniciativa destinada a analizar cómo se utilizará el aprendizaje automático en el futuro –. En un próximo blog describiremos otros más al respecto. Eso si, la detección de la manipulación algorítmica sigue siendo una tarea muy compleja.
Una manera de abordar el problema es desarrollar mecanismos de ataque y entender cómo afectan los datos que se suministran al algoritmo y a él en si. Una vez que se entiende un ataque, debería ser posible desarrollar mecanismos de defensa contra él. Como parte del proyecto SHERPA estamos estudiando los ataques contra los sistemas de aprendizaje via inteligencia artificial. Estamos simulando situaciones reales contra sistemas de detección de anomalías para así estudiar cómo funcionan y que tan efectivos son. Luego utilizaremos estos datos para crear mecanismos de detección de ataques. Este trabajo está actualmente en curso, sin embargo, esperamos publicar nuestros primeros resultados en un futuro cercano, ¡así que quédese con nosotros!
Dándole un vistazo a las redes sociales, la detección de ataques de envenenamiento es sólo una parte del problema a ser resuelto. Para poder identificar a usuarios de un sistema que estén creando intencionadamente información errónea como input, también se requiere detectar las cuentas falsas o aquellas coordinadas específicamente para manipular la plataforma. También hay otros problemas ajenos a la manipulación algorítmica de las redes sociales a ser resueltos, como el acoso en línea y la incitación al odio.
No subestime el impacto o cuántos problemas deben ser resueltos
Me gustaría concluir este artículo reiterando el significativo peligro proveniente de la manipulación de los “recomendadores”, especialmente la utilizada en las redes sociales, ya tiene una amplia repercusión en la sociedad. Sabemos que la manipulación algorítmica da lugar a historias completamente falsas, teorías de conspiración y noticias genuinas o con cifras, estadísticas o encuestas en línea alteradas, que circulan como noticias verídicas. Estos mecanismos de desinformación, que siguen funcionando con gran eficacia, perjudican la salud pública, dividen a la sociedad, aumentan el odio y apoyan el extremismo e incluso pueden llegar a amenazar el orden cívico. Hecho mencionado incluso en el informe del Reino Unido sobre Rusia.
Asimismo, constituyen un arma poderosa que sin duda están investigando y perfeccionando diversos grupos (la próxima “Analítica de Cambridge”) e indudablemente algunos estados-nación. Creo poder decir que las empresas que operan en las redes sociales están conscientes de estos problemas y que están intentando abordarlos.
No obstante, los descubrimientos más recientes muestran que hay muchas problemáticas que aún deben ser resueltas y que se podría hacer un esfuerzo mucho mayor en esta área.
Autor: Andrew Patel
Categorías