Introducción a la anonimización de datos

Dado el crecimiento exponencial de la información atado al surgimiento de nuevas tecnologías como la inteligencia artificial y el Big Data, se incrementan los desafíos en relación con la gestión y protección de datos personales. Por ejemplo, una Entidad pública como el Ministerio del Trabajo podría realizar innumerables análisis y estudios de la información contenida en sus bases de datos, respecto a los trabajos más demandados u ofertados en Colombia, los mejor pagados, los menos usuales, entre otras posibilidades. Estas bases de datos construidas por entidades públicas u organizaciones privadas usualmente contienen información respecto a los ciudadanos y usuarios, información que los identifica directamente y de forma inequívoca, y que puede poner en riesgo a estas personas, su identidad y vulnerar sus derechos.

Otro ejemplo de los riesgos que puede generar la mala gestión de los datos personales es:

En un bloque de datos anonimizados podríamos tener un conjunto de datos como edad-patología-población, estos datos pueden ser cruzados con otras fuentes de información, con dicha combinación es posible obtener información de una persona o grupo de personas, incluso, por ejemplo: con información publicada por el propio interesado en relación con su dolencia y, por lo tanto, se tendría acceso a su identidad. Esto es lo que podríamos denominar un riesgo de re-identificación, riesgo que aumenta a medida que vamos utilizando nuevas fuentes de información y analizándola con herramientas de big data. (Calvo, 2018)

El Archivo General de la Nación dispuso una guía de anonimización de datos estructurados, que brinda conceptos generales y una propuesta metodológica. La finalidad de este proceso es “evitar la identificación de las personas y reducir su probabilidad de re-identificación sin afectar la veracidad de los resultados y la utilidad de los datos que han sido tratados. Este procedimiento es especialmente relevante en los entornos que surgen con la evolución tecnológica y fenómenos como Big Data u Open Data, los cuales aumentan la probabilidad de re-identificación de las personas.” (Rangel, 2020 pág. 7) Es decir, este es un proceso donde los datos identificativos se desasocian de los datos personales, por tanto, es un proceso irreversible y su objetivo es minimizar los riesgos que pueden surgir al tratar datos personales masivos.

Según el MIT, la anonimización “condiciona un conjunto de datos de modo que no se pueda identificar a una persona, pero pueda ser utilizada para realizar análisis técnico y científico válido sobre ese conjunto de datos.” (MIT, 2007 citado en Rangel, 2020)

Principalmente, las entidades que deberían adoptar esta metodología propuesta por el AGN son para aquellas que “gestionen, almacenen, obtengan, produzcan, procesen, custodien y publiquen información independientemente de su soporte o medio y que deban dar cumplimiento a la normatividad de protección de datos personales” (Rangel, 2020 pág. 7)

Ahora bien, hay que tener en cuenta que los datos personales son cualquier dato que sea un punto de acceso, o un modo para identificar a una persona, por ejemplo, aquellos como nombre, numero de identificación, información laboral, datos de ubicación, raza, datos biométricos, entre otros. En este sentido, se deben considerar las razones por las cuales anonimizar, por ejemplo:

“Para publicar de manera segura datos abiertos protegiendo la privacidad de las personas. Los datos abiertos incrementan la transparencia del gobierno, y permiten que cualquier ciudadano pueda hacer uso y reutilización de conjuntos de datos con diferentes propósitos entre los que se encuentra la innovación y desarrollo de productos y servicios.” (Rangel, 2020 pág. 14)
Para proteger la identidad de los usuarios cuando hay intercambios de información entre Entidades donde se incluyen datos personales.
Garantizar los derechos de los titulares de la información, y disminuir el riesgo de re-identificación.

Por otro lado, los tres tipos de anonimización son la aleatorización, generalización y la eliminación. La aleatorización consiste en modificar la veracidad y autenticidad de los datos al eliminar el vinculo que hay entre ellos y entre su titular, lo cual hace que los datos se vuelvan inciertos al intento de vincularlos nuevamente entre ellos. Esto sucede cuando se adiciona ruido al conjunto de datos, o mezclar los valores de los atributos.

La generalización consiste en “modificar datos a través de escalas u órdenes, para generar esquemas de datos de acuerdo con características comunes.” (Rangel, 2020 pág. 61). Un ejemplo de generalización es modificar la fecha de cumpleaños y delimitarla únicamente en el mes y año de nacimiento, o únicamente el año.

Finalmente, la eliminación como su nombre lo indica, consiste en eliminar aquellos datos identificativos de los personales, sin embargo, hay que considerar que este modo sería irreversible.

Referencias

Calvo, R. (2018). La importancia de anonimizar datos. : I+S: Revista de la Sociedad Española de Informática y Salud, ISSN 1579-8070, Nº. 131 (octubre 2018), 2018 (Ejemplar dedicado a: Precisión y salud “S.A.D. contra el cáncer” XXV Jornadas Nacionales de Innovación y Salud en Andalucía), págs. 61-64. Recuperado de https://dialnet.unirioja.es/servlet/articulo?codigo=6735935

Rangel, E. (2020). Guía de Anonimización de datos estructurados, conceptos generales y propuesta metodológica. Recuperado de https://www.archivogeneral.gov.co/sites/default/files/Estructura_Web/5_Consulte/Recursos/Publicacionees/Guia_de_Anonimizacion-min.pdf

Introducción a la anonimización de datos

Deja una respuesta Cancelar la respuesta