En 2019, Facebook derribó en promedio cerca de 2 mil millones cuentas falsas por trimestre. Los estafadores usan estas cuentas falsas para difundir spam, enlaces de phishing o malware. Es un negocio lucrativo que puede ser devastador para cualquier usuario inocente que atrape.
Facebook ahora publica detalles sobre el sistema de aprendizaje automático que utiliza para enfrentar este desafío. El gigante tecnológico distingue entre dos tipos de cuentas falsas. Primero, hay "cuentas clasificadas erróneamente por el usuario", perfiles personales para negocios o mascotas que están destinados a ser Páginas. Estos son relativamente fáciles de manejar, simplemente se convierten en páginas. "Violar cuentas", por otro lado, es más grave. Estos son perfiles personales que se dedican a estafas y spam o que violan los términos de servicio de la plataforma. Las cuentas infractoras deben eliminarse lo más rápido posible sin generar una red demasiado amplia y enganchar cuentas reales también.
Para hacer esto, Facebook usa reglas codificadas a mano y aprendizaje automático para bloquear una cuenta falsa antes de que se cree o antes de que se active. En otras palabras, antes de que pueda dañar a los usuarios reales. La etapa final es después de que una cuenta falsa se haya activado. Esto es cuando la detección se vuelve mucho más complicada y donde entra el nuevo sistema de aprendizaje automático, conocido como Clasificación de Entidades Profundas (DEC).
Ir a fondo
DEC aprende a diferenciar a los usuarios falsos y reales por sus patrones de conexión en la red. Llama a estas "características profundas" e incluyen cosas como la distribución promedio de edad o género de los amigos del usuario. Facebook utiliza más de 20,000 características profundas para caracterizar cada cuenta, proporcionando una instantánea de cómo se comporta cada perfil para dificultar a los atacantes jugar el sistema cambiando las tácticas.
El sistema comienza utilizando una gran cantidad de etiquetas generadas por máquina de baja precisión. Estos se generan a través de una combinación de reglas y otros modelos de aprendizaje automático que estiman si los usuarios son reales o falsos. Una vez que esos datos se utilizan para entrenar una red neuronal, el modelo se ajusta con un pequeño lote de datos etiquetados a mano de alta precisión, generados por personas de todo el mundo que comprenden las normas culturales locales.
El sistema de clasificación final puede identificar uno de los cuatro tipos de perfiles falsos: cuentas ilegítimas que no son representativas de la persona, cuentas comprometidas de usuarios reales que han sido asumidos por atacantes, spammers que envían repetidamente mensajes generadores de ingresos y estafadores que manipulan a los usuarios. Divulgación de información personal. Desde la implementación de DEC, dice Facebook, ha mantenido el volumen de cuentas falsas en la plataforma en alrededor del 5% de los usuarios activos mensuales.
Los detalles de los esfuerzos de limpieza de Facebook surgen en medio de las preocupaciones sobre la manipulación en las próximas elecciones presidenciales de los Estados Unidos, especialmente en torno a las falsificaciones. En diciembre, el New York Times reportado una campaña coordinada de desinformación que utiliza deepfakes para crear cuentas falsas en masa con imágenes de perfil convincentes.
Salvaguardar las elecciones
El equipo de Facebook dijo que el momento de su lanzamiento fue solo una coincidencia. “Se trata solo de detectar violaciones en general; no está específicamente dirigido a ningún tipo de tema electoral ", dice Daniel Bernhardt, gerente de ingeniería del equipo de Integridad de la Comunidad de Facebook. Pero el DEC sería complementario a los otros esfuerzos de la plataforma para reprimir la manipulación de las elecciones. Debido a que el sistema se basa en características profundas para clasificar cada perfil, será resistente a ser engañado por imágenes de perfil falsas, por ejemplo.
Aviv Ovadya, quien fundó el Proyecto de Tecnología Reflexiva sin fines de lucro y estudia el diseño y la gobernanza de la plataforma, dice que el esfuerzo de Facebook para ser más transparente con sus procedimientos de limpieza es encomiable. "Puede ser realmente útil y poderoso hablar con cuidado sobre las decisiones arquitectónicas y las formas en que funcionan los sistemas de seguridad que otras empresas pueden emular", dice. "Debido a que las empresas como Facebook tienen muchos más recursos para invertir que las empresas más pequeñas, es útil compartir este conocimiento".
Pero los esfuerzos de limpieza también tienen un largo camino por recorrer. Con 2.500 millones de usuarios activos mensuales, el 5% sigue siendo 125 millones de cuentas falsas. El aprendizaje automático también irá solo hasta cierto punto: no importa cuántos datos se entrene un modelo, nunca detectará todas las cuentas malas con una precisión perfecta. La plataforma probablemente tendrá que recurrir a otras combinaciones de humanos y máquinas para mejorar.
Actualizar: Una versión anterior de este artículo hacía referencia a números obsoletos sobre el impacto del sistema DEC de Facebook. Se han actualizado para reflejar la información más reciente.