BOTS, SU DETECCIÓN Y LA PARTICIPACIÓN EN LAS CAMPAÑAS ELECTORALES EN MÉXICO

El pasado 21 de junio, en el noticiero de Carmen Aristegui, se presentó una entrevista con el científico de redes, Albert-László Barabási, y una publicación en un blog de la empresa Maven7us de la que es socio, que se entiende, se deriva de un estudio que hasta la fecha no ha sido publicado, acerca de la influencia de bots durante la elección presidencial mexicana desde la perspectiva de la ciencia de redes.

por Signa_Lab , Enjambre Digital , Openlabs ITESM

13 de junio 2018

En su conjunto, el material presentado en el noticiero y en la publicación ofreció las siguientes conclusiones:

  • 53% de más de 1 millón de cuentas de Twitter analizadas tienen más de 50% de posibilidad de ser bots.
  • Entre el 45% y 67% de los seguidores de los candidatos tienen más de 50% de posibilidad de ser bots.
  • Si la conversación en Twitter se limpia de las cuentas identificadas como bots, la conversación es pro-Anaya y en contra de López Obrador.
  • Las cuentas clasificadas como bots son a favor del PRI.

La entrevista de Aristegui ha generado reacciones encontradas, por un lado, seguidores de AMLO han respondido en redes con el hashtag #NoSoyBot para desmentir la afirmación de que más del 60% de los seguidores del candidato son cuentas automatizadas; por otro, la alianza Por México al Frente hizo pública una denuncia contra la campaña de López Obrador por exceder el gasto permitido y destinarlo a la contratación de bots.

Mientras todo esto ocurre, distintos grupos de académicas, académicos y analistas de redes que colaboramos y compartimos herramientas y metodologías (Openlabs, Enjambre Digital y Signa_Lab ITESO), hemos estado atentos y trabajando de manera conjunta en las características y resultados del artículo en el que está basado el material presentado por Carmen Aristegui.

El presente documento tiene por objetivo matizar desde las ciencias sociales y el análisis de redes esos mismos resultados, a la luz de investigaciones y observaciones llevadas a cabo en el país, para ofrecer una mirada que contribuya al diálogo informado y crítico sobre lo que ocurre en las redes sociodigitales en un proceso tan importante y disputado como la elección presidencial en México.

La entrevista publicada por Carmen Aristegui se interrumpe en un punto nodal de la discusión con Barabasi, esto es justo cuando se le pregunta al científico sobre la posibilidad de que los bots no solo ayuden a un candidato sino que también sean utilizados para atacar. Esto es muy importante, ya que en México distintos actores y análisis en los últimos años han demostrado que los bots son, sobre todo, utilizados para atacar, principalmente a través de las siguientes estrategias:

  • Crear un trending topic aleatorio para desviar la atención de una tendencia en específico.
  • Atacar a usuarios con un perfil político específico, a través de la combinación de cuentas automatizadas y el uso de troles que son cuentas manejadas por humanos con grados muy altos de violencia.
  • Atacar un trending topic directamente con la intención de diluirlo en la conversación general de Twitter.
  • La posibilidad de sumar deliberadamente bots a la cuenta de un candidato como una estrategia para criticarlo o incluso para disminuir la categoría y alcance de la cuenta de usuario.

El algoritmo Botometer, desarrollado a través de la colaboración del Indiana University Network Science Institute (IUNI) y el Center for Complex Networks and Systems Research (CNetS), utilizado por la mayoría de los desarrolladores de apps y sitios que ofrecen la posibilidad de “detectar” la presencia de bots en Twitter se basa en pautas de evaluación de seis características (features), cada una con un conjunto de variables, que incluyen el análisis del contenido publicado, el análisis de sentimiento, del usuario (datos y metadatos de la cuenta), amigos, rasgos de la red y tiempo1. Estas características se ponderan para asignar una evaluación de los patrones de comunicación e interacción de la cuenta, el tipo de actividad (ciclos temporales de publicación de tweets, retweets y los hashtags utilizados) y el tipo de conectividad en la red que tiene el usuario (las menciones que hace y las que recibe), y así determinar si una cuenta tiene mayor o menor probabilidad de ser bot.

Estos parámetros intervienen a la hora de asignar una alta o baja probabilidad de ser un bot a una cuenta de Twitter; sin embargo, no son concluyentes. Después de algunos años de estudio se ha observado la evolución de los procesos de automatización y la compleja articulación de estrategias para simular patrones humanos de comportamiento en cuentas automatizadas. Por tanto, afirmar que una cuenta con una probabilidad asignada mayor al 50% por el algoritmo es un bot, conlleva un margen de duda, ya que hay elementos del comportamiento de los usuarios humanos que llegan a coincidir con los comportamientos de cuentas automatizadas. Por ejemplo, personas que no crean contenido propio y sólo retuitean, personas a las que sus empleadores les marcan pautas para postear contenido en redes sociales, de modo que el “dénle like” no se vuelve optativo, sino mandatorio, cuentas de asociaciones o colectivos que solo tuitean sus eventos con poca o nula interacción con otras cuentas, o usuarios que crean una cuenta y en menos de un año postean más de 20,000 tuits acerca del tema electoral. Por lo que hacer el corte para afirmar si una cuenta es un bot o no en la probabilidad del 50% no nos parece el criterio más pertinente. Si quisiéramos reducir el margen de error, sugeriríamos situar ese corte en una probabilidad mayor al 80% para poder afirmar con mayor certeza la presencia de cuentas automatizadas. Asumiendo incluso así, cierto margen de error. Es decir, cabe la posibilidad de que haya cuentas por debajo del 80% que son bots, así como quizá cuentas por encima del 80% que no lo sean.

En síntesis, podemos asegurar que al día de hoy no hay un consenso acerca de qué intervalo de confianza cabe elegir para asegurar si una cuenta es un bot o no, sin revisar cualitativamente el contenido de la misma. Se pueden correr análisis sobre comportamientos anómalos o extraños, pero además hay que considerar dos dinámicas que ocurren a la par. Por un lado, en la medida en que la sofisticación del machine learning, la inteligencia artificial y otras herramientas de programación avanzan, se hace más difícil identificar cuentas no-humanas, que son capaces de sostener niveles de conversación más o menos “naturales” o que simulan un nivel de respuesta “humana”. Por otro lado, el uso que muchos usuarios de esta red, en no pocas ocasiones, tiende a seguir patrones de automatización, esto es, millones de usuarios solo se dedican a dar retweet a los mensajes que están más cerca de sus filias y fobias, lo que hace más susceptible que el algoritmo que busca bots los identifique como cuentas automatizadas y no como personas reales. El panorama de polarización política en un país como México no hace más que acentuar las posibilidades para que este tipo de comportamiento, “humanamente automatizado”, de respuesta inmediata sea cada vez más frecuente.

El indicador de Botometer es un objeto controvertido y en disputa que puede usarse de diferentes formas para filtrar bases de datos y detectar la presencia de bots. Puede utilizarse como una herramienta didáctica que posibilita la discusión sobre estos temas pero por estas razones, es que es arriesgado utilizar sólo este indicador como dato concluyente.

Aunado a lo anterior, un análisis detenido y cualitativo de algunas de las cuentas que cuantitativamente tienen más posibilidades de ser bot, muestran un comportamiento peculiar que da pie a pensar en una nueva categoría entre “la automatización mecánica” y “la automatización humana”. Se trata de cuentas que cumplen la tarea tanto de producir contenido como de compartirlo, con un ritmo de publicación muy intenso, que puede alcanzar los miles de tweets en pocos meses, y que en tiempos de competencia electoral y guerra sucia podrían ser atribuibles a personas que se convierten en una suerte de “tecno-artillería política”, esto es, perfiles contratados para ser quienes sostengan sistemáticamente el tren de conversación a favor o en contra de uno de los candidatos. Día y noche, marcar pauta, sostener un tema, levantar otro, reclutar perfiles, monitorear la conversación en torno a una de las campañas.

1 Para más información sobre las características que evalúa el programa se recomienda revisar las siguientes fuentes: Ferrara, E., Varol, O., Davis, C., Menczer, F. & Flammini, A. (2016) The Rise of Social Bots. Communications of the ACM. DOI: 10.1145/2818717. Varol, O., Ferrara, E., Davis, C., Menczer, F. & Flammini, A. (2017). Online Human-Bot Interactions: Detection, Estimation, and Characterization. arXiv preprint arXiv:1703.03107.

El análisis presentado en el sitio maven7us.com, utilizado como referente en la nota y entrevista de Aristegui, muestra resultados numéricos que desde las ciencias de redes y de datos afirman que, de acuerdo con los resultados del bot score o “puntuación bot”, una cuenta puede ser considerada como automatizada si obtiene más de .5 de probabilidad en la medición. El método no está en duda, sin embargo, dadas las apreciaciones hechas sobre los límites implícitos del script utilizado para llevar a cabo esta medición, es posible decir que en un contexto social de usos de la tecnología con líneas cada vez más borrosas entre lo humano y lo automatizado, para poder identificar cuentas con mayor posibilidad de ser bots, desplazar el medidor a el .8 en el bot score sería más adecuado para ofrecer un panorama, que no una afirmación categórica, del volumen de cuentas automatizadas. Además de agregar que es necesaria también una mirada cualitativa sobre esos primeros resultados, para acercarse aún más a una descripción más fiable sobre el caso.

Frente a este panorama es necesario partir de una postura clara: internet no es una sustitución del espacio público ni de las prácticas políticas, sino un escenario de rearticulación de los repertorios comunicativos y políticos. La emergencia de bots sociales y en particular bots políticos como estrategia de campaña es una muestra de cómo la lucha por los regímenes de verdad y la “producción” de lo político en los entornos digitales ha entrado en una fase marcada por los procesos de automatización.

Revisando las cuentas de bots desde 0.8 en Botscore el equipo descubrió que muchas de las cuentas marcadas como bots fueron borradas después del día de la elección, y otras borraron los tweets previos a esta fecha.Una de las cuentas únicamente generó un tweet original, mientras que el resto de sus interacciones se limitan a hacer retweets de otras cuentas.

Podemos mostrar algunos usos locales del script Botometer para contribuir a la discusión sobre los procesos de automatización en las campañas electorales. Un primer caso, es el desarrollo de la plataforma Atrapabot realizada con la colaboración del Instituto de Tecnología y Sociedad de Río de Janeiro, AppCivico, Enjambre Digital y Openlabs. Atrapabot es una adaptación de Botometer al español, que se plantea como una herramienta didáctica que posibilita el debate público sobre estos temas a través del análisis de cuentas individuales de Twitter. Con esta herramienta se busca que la ciudadanía pueda tener al alcance un instrumento que le permita explorar las posibilidades de que ciertas cuentas estén simulando comportamientos humanos o la existencia de cuentas puramente automatizadas.

Otro ejemplo es Proton Pack2, un script de detección de bots desarrollado bajo la coordinación de Luis Guillermo Natera Orozco, por el equipo de Signa_Lab, que, al igual que el utilizado por el Dr. Barabási, está basado en el script Botometer. Este script actúa conectándose a la API de Botometer para enviar, de manera automatizada, todas las cuentas que se quieren analizar y recibir el informe con la probabilidad de ser bot de cada una.

Utilizando Proton Pack, Signa_Lab hizo una prueba para comparar cómo las mismas cuentas de Twitter pueden ser mostradas como bots o como humanas dependiendo de cómo se decida categorizar la puntuación que obtenga cada cuenta en el bot score. Para ello tomamos una muestra de 1450 cuentas enlazadas con los 4 candidatos a la presidencia de México los días 15 al 22 de mayo. A la base de datos se le agregaron dos categorías para la detección de bots, una que marca las cuentas como automatizadas a partir de .5 en el bot score, y otra que lo hace a partir de .8 en dicha escala. La intención de este último ejercicio es la de hacer hincapié en la necesidad de agregar una capa cualitativa a los resultados numéricos mostrados por las técnicas y herramientas para la detección de cuentas automatizadas Los resultados se muestran a continuación:

Descripción de grafo Tableau.

Created with Highcharts 6.0.5UnitsChart context menuData extracted from a HTML table in the pageJaneJohnApplesPearsPlumsBananasOranges024681012Highcharts.comJohn11 plums
Bots a partir de .8 en el bot score Bots a partir de .5 en el bot score
Probabilidad muy alta de ser bot 15 96
Probabilidad media de ser bot 21 0
Poca probabilidad de ser bot 1414 1354

2 El nombre de la pistola usada en la película de los Caza Fantasmas para capturar a las presencias no deseadas.

Algunas conclusiones:

  • Las metodologías y herramientas (scripts) que se utilizan para establecer la presencia de bots en Twitter no son absolutamente concluyentes, por los distintos factores que hemos mencionado.

  • Los bots no actúan ni operan solos, para el éxito de sus estrategias de contaminación de un tema o conversación, llevan “trolls”, esas cuentas manejadas por humanos que siembran odio, amenazas, burlas o humillaciones con gran efecto emocional sobre sus “blancos” y las cuentas que siguen a estos blancos.

  • Por la razón anterior, en el caso de México, un estudio sobre bots no puede estar completo sin un análisis de esas figuras amenazantes; su trabajo es mucho más efectivo o, mejor, se potencia con las miles de cuentas automatizadas que impulsan una tendencia.

  • En términos metodológicos, lo fundamental es acordar (o no, pero mantener una conversación sobre sus implicaciones) el punto del “margen de error” y asumir la enorme dificultad que representa -por los comportamientos no previsibles de los usuarios humanos- establecer el punto de marcación en .5, como hemos mostrado, por debajo del .8 con el que estamos trabajando. Las cuentas en la mira, más que bots, parecen trolls, lo que nos obliga a mejorar esfuerzos metodológicos, triangular los datos y reforzar la observación cualitativa.

  • Hace falta que este tipo de estudios se enmarquen en un espacio de discusión más amplio que incluya diversas voces para contextualizar, matizar y contrastar las evidencias empíricas desde distintas perspectivas y con diversas fuentes. Sería valioso promover a nivel nacional una cultura colaborativa y de datos abiertos que posibilite la replicación de los estudios y la elaboración de informes producidos en nuestros contextos desde posiciones académicas y no únicamente comerciales.