¿Que es la anonimización?

La anonimización  es el proceso de proteger información privada o confidencial borrando o encriptando identificadores que conectan a un individuo con los datos almacenados. Por ejemplo, puede ejecutar información de identificación personal (PII) , como nombres, números de seguro social y direcciones a través de un proceso de anonimización de datos que retiene los datos pero mantiene la fuente anónima.

Sin embargo, incluso cuando borra los datos de los identificadores, los atacantes pueden usar métodos de anonimización para volver a rastrear el proceso de anonimización de datos. Dado que los datos generalmente pasan a través de múltiples fuentes, algunas disponibles para el público, las técnicas de anonimización pueden cruzar las fuentes y revelar información personal.

El Reglamento General de Protección de Datos (GDPR) describe un conjunto específico de reglas que protegen los datos del usuario y crean transparencia. Si bien el RGPD es estricto, permite a las empresas recopilar datos anónimos sin consentimiento, usarlos para cualquier propósito y almacenarlos por tiempo indefinido, siempre que las empresas eliminen todos los identificadores de los datos.

Técnicas de anonimización de datos

  • Enmascaramiento

     de datos: ocultar datos con valores alterados. Puede crear una versión reflejada de una base de datos y aplicar técnicas de modificación como el barajado de caracteres, el cifrado y la sustitución de palabras o caracteres. Por ejemplo, puede reemplazar un carácter de valor con un símbolo como “*” o “x”. El enmascaramiento de datos hace imposible la ingeniería inversa o la detección.

  • Seudonimización

     Método de gestión de datos que reemplaza los identificadores privados con identificadores falsos o seudónimos, por ejemplo, reemplazando el identificador “John Smith” con “Mark Spencer”. La seudonimización preserva la precisión estadística y la integridad de los datos, lo que permite que los datos modificados se utilicen para capacitación, desarrollo, pruebas y análisis, al mismo tiempo que se protege la privacidad de los datos .

  • Generalización

     : elimina deliberadamente algunos de los datos para hacerlos menos identificables. Los datos se pueden modificar en un conjunto de rangos o en un área amplia con límites apropiados. Puede eliminar el número de casa en una dirección, pero asegúrese de no eliminar el nombre de la calle. El propósito es eliminar algunos de los identificadores manteniendo una medida de precisión de los datos.

  • Intercambio de datos

     : también conocido como barajado y permutación, una técnica utilizada para reorganizar los valores de los atributos del conjunto de datos para que no se correspondan con los registros originales. El intercambio de atributos (columnas) que contienen valores de identificadores como la fecha de nacimiento, por ejemplo, puede tener más impacto en la anonimización que los valores de tipo de membresía.

  • Perturbación de datos:

     modifica ligeramente el conjunto de datos original mediante la aplicación de técnicas que redondean números y agregan ruido aleatorio. El rango de valores debe ser proporcional a la perturbación. Una base pequeña puede conducir a una anonimización débil, mientras que una base grande puede reducir la utilidad del conjunto de datos. Por ejemplo, puede usar una base de 5 para redondear valores como la edad o el número de casa porque es proporcional al valor original. Puede multiplicar el número de una casa por 15 y el valor puede conservar su credibilidad. Sin embargo, usar bases más altas como 15 puede hacer que los valores de edad parezcan falsos.

  • Datos sintéticos

     : información fabricada algorítmicamente que no tiene conexión con hechos reales. Los datos sintéticos se utilizan para crear conjuntos de datos artificiales en lugar de alterar el conjunto de datos original o usarlo tal como está y arriesgar la privacidad y la seguridad. El proceso implica la creación de modelos estadísticos basados ​​en patrones encontrados en el conjunto de datos original. Puede utilizar desviaciones estándar, medianas, regresión lineal u otras técnicas estadísticas para generar los datos sintéticos.

Entradas

Corredores en Ámsterdam, Países Bajos.

Una App de fitness revela los hogares de soldados y espías

Strava, una aplicación de fitness revela ubicaciones delicadas Una App fitness revela ubicación de los hogares y vidas de las personas que hacen ejercicio en lugares secretos, como agencias de inteligencia, bases militares y aeródromos,…
metadatos de Twitter

Los metadatos de Twitter son una pesadilla para la privacidad

Trabajando con metadatos disponibles públicamente de Twitter, un algoritmo de aprendizaje automático pudo identificar a los usuarios con una precisión del 96,7 por ciento Investigadores del University College London mostraron cómo podían…

Investigadores alemanes pudieron identificar a las personas en función de sus patrones de navegación web “anónimos”.

Las preferencias pornográficas de un juez y la medicación utilizada por un parlamentario alemán se encontraban entre los datos personales descubiertos por dos investigadores alemanes.  De esta forma, adquirieron los hábitos de navegación…

Los datos son una huella dactilar

  "Se pueden rastrear  las migas de pan digitales que vamos dejando por la red". Hace unos años el gobierno australiano publicó un conjunto de datos "anonimizados" que comprendía facturas médicas, incluidas todas las recetas y cirugías,…