Trabajando con metadatos disponibles públicamente de Twitter, un algoritmo de aprendizaje automático pudo identificar a los usuarios con una precisión del 96,7 por ciento
Investigadores del University College London mostraron cómo podían identificar a un usuario individual de Twitter en función de los metadatos asociados con sus tweets
Los metadatos están en todas partes, lo que tuiteas, cada foto que tomas y cada actualización de estado que publicas. En Facebook llevan metadatos que pueden utilizarse por las fuerzas de seguridad para identificar a las personas que intentan ocultar sus identidades y ubicaciones. Los metadatos asociados en selfies pueden atrapar inadvertidamente a criminales sin saber que los datos pueden destruir su coartada.
En Twitter también se pueden utilizar para identificarnos de forma precisa a todos y cada uno de nosotros. Resulta que tus tweets, no importa cuán anónimos pienses que son, se pueden rastrear hasta llegar a ti con una precisión infalible.
Científicos analizaron tweets y sus metadatos asociados para identificar a cualquier usuario de un grupo de 10.000 usuarios de Twitter con una precisión del 96,7 por ciento. Incluso cuando se enturbia hasta el 60 por ciento de los metadatos, el modelo aún podría identificar a una sola persona con más del 95 por ciento de precisión.
“Los metadatos son mucho más extensos si los comparamos con el contenido real de un tweet“.
Nadie le daría a un extraño su dirección pero con los metadatos se puede saber hasta con qué frecuencia enciendes la luz de tu baño.
Parece que no son importantes pero combinándolos con otra información se sabe cuándo estás en casa o no.
Es una creencia común, el usuario medio no reconoce que pueda ser fácilmente identificado usando metadatos. La mayoría no tienen idea de que Twitter contiene 144 piezas de metadatos, a los que se puede acceder públicamente a través de la API del sitio.
Ser un troll no te ayudará
Científicos analizaron cinco millones de usuarios de Twitter y publicaron 14 metadatos de sus tweets a través de tres algoritmos de aprendizaje automático diferentes. Consiguieron saber
la hora en que se creó la cuenta, la hora en que se publicó un tweet y el número de favoritos, seguidos y seguidores.
El más eficiente para identificar cuentas individuales con la mejor precisión también fue uno de los algoritmos de aprendizaje automático más básicos. Demostró que es posible identificar con una precisión casi total a un individuo usando solo un puñado de metadatos.
Lo hace entrenando al modelo con un conjunto de datos conocido de usuarios, demostrando que se comportan de cierta manera en Twitter en función de los metadatos de sus tweets.Tratar de anonimizar los datos recopilados por las redes sociales no es la respuesta, dado que es muy difícil anonimizar un conjunto de datos. La triangulación utilizando uno o más conjuntos de datos es fácil de hacer, y a menudo puede deshacer cualquier intento de eliminar la información de identificación.
Con la introducción del RGPD mejoró la situación el artículo 25 del RGPD pide “protección de datos por diseño y por defecto”. La minimización de datos, requiere que solo las empresas traten los datos específicos necesarios para llevar a cabo una tarea.
La pregunta más importante, más allá de si es correcto o no que las empresas puedan tener tanta información de identificación sobre todos nosotros, es ¿ si los usuarios valora su privacidad en primer lugar? .
Por supuesto, al usuario le debería importar, pero no sabemos si realmente es así.
Post escrito con información extraída de www.wired.co
Dejar un comentario
¿Quieres unirte a la conversación?Siéntete libre de contribuir!