A privacidade diferencial como um boost anonimizador

Tempo de leitura: 3 minutos

Um dos direitos previstos na LGPD para os titulares dos dados (eu, você, todos nós) é o direito à anonimização dos dados pessoais. Mas o que é isso?

Segundo a LGPD, em seu artigo 5º, IX:

“Anonimização: utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo”

A anonimização é um processo pelo qual é quebrado o vínculo entre o(s) dado(s) e seu(s) respectivo(s) titular(es)1. Este processo pode utilizar diferentes técnicas para “atingir” a anonimização, algumas dessas técnicas são: 1. Supressão; 2. Generalização; 3. Randomização e 4. Pseudoanonimização.

Diversas discussões têm sido levantadas acerca dos dados anonimizados, e assim, estudos recentes indicam contradições sobre o que realmente significa ter um ‘’dado anonimizado’’. Existe uma ideia de que estes dados estão isentos de uma identificação e que, portanto, estaria garantido o anonimato dos titulares3. No entanto, é possível desfazer essa anonimização a partir do cruzamento desses dados com dados disponíveis em outras bases de dados.

Um caso amplamente conhecido é o da NETFLIX, no qual por meio de concurso, ela disponibilizou sua base de dados com avaliações de filmes feitas por usuários, suprimindo seus nomes e demais dados diretamente identificados, assim, a partir de um cruzamento com os dados que estavam disponíveis no IMDB4 foi possível identificar todos aqueles usuários.5

É cada vez mais recorrente a publicação de estudos que demonstram que a técnica de anonimização é algo falível. A representação simbólica de que os vínculos de identificação de uma base de dados poderiam ser completamente eliminados, garantindo-se com 100% de eficácia, o anonimato das pessoas, é um mito6.

Ao se ter ciência dessa fragilidade da anonimização, tivemos o surgimento da técnica chamada privacidade diferencial.

A técnica da privacidade diferencial foi criada em 2006 pela cientista da computação Cynthia Dwork. Esta técnica consiste em um modelo matemático com o objetivo de fornecer informações estatísticas sobre um conjunto de dados sem comprometer a privacidade dos indivíduos envolvidos, ou seja, a Privacidade Diferencial é uma técnica de anonimização mais robusta.

Inicialmente, a Privacidade Diferencial foi criada para atuar em um ambiente interativo. Ao se realizar uma consulta naquele banco de dados, o retorno desta consulta seria como de um dado verdadeiro, porém com um ruído.

Na prática, sua aplicação nada mais é do que inserção de informações (fabricadas) em bancos de dados verdadeiros, para dificultar a reidentificação dos indivíduos que participam daquela estatística.7 Se a NETFLIX tivesse usado o modelo matemático da privacidade diferencial, talvez não a citássemos como uma falha, mas sim como um case de sucesso em anonimização.

Utilizando a privacidade diferencial, torna-se mais difícil associar um indivíduo a um conjunto de dados, nesta técnica, um ruído matemático é adicionado àquele conjunto de dados que se pretende anonimizar, entretanto, o resultado estatístico dos dados parecerá o mesmo independente das informações estarem incluídas ou omitidas.

É importante notar, também, que a adição de ruído a um conjunto de dados pode torná-lo menos útil, porém mais seguro para aqueles que fazem parte do banco de dados, especialmente se estivermos falando de um banco de dados que contenha dados sensíveis. Se, por algum motivo, você pretende divulgar seu banco de dados, a Privacidade diferencial é uma ótima solução para garantir a privacidade de das pessoas naturais que tiveram seus dados armazenados neste banco de dados.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *