Sapere Scienza

Sapere Scienza

Dati anonimi, la vostra privacy potrebbe essere comunque a rischio

27 Agosto 2019

La nostra presenza nel mondo digitale è costante e costante è il flusso di dati che inviamo attraverso la rete. Per scaricare app, per iscriverci a eventi o servizi, per pagare un oggetto o una bolletta, inseriamo negli appositi form informazioni su di noi, quelle stesse informazioni che poi possono diventare parte di enormi database e essere strumenti per differenti scopi, dalle statistiche mediche all'invio di pubblicità personalizzata. Per proteggere la nostra privacy quei dataset sono sottoposti a un processo di anonimizzazione, eliminando i dati sensibili. È sufficiente far questo per garantire che la nostra identità non venga rintracciata? Secondo un recente studio, pubblicato su Nature Communications, sembra proprio di no.

 

Il puzzle della nostra identità e i dati che contribuiscono a completarlo

 

Della ricerca sull'efficacia dei processi di anonimizzazione dei dati ha parlato anche Scientific American in uno dei suoi articoli, in cui è spiegato in sintesi cosa succede alla grande quantità di informazioni che condividiamo ogni giorno. Per preservare la nostra privacy, questi dati vengono anonimizzati prima di essere venduti a ricercatori o a esperti di marketing. Sono i famosi "big data" grazie ai quali i medici possono studiare l'andamento di una determinata malattia, gli scienziati cercano di allenare le intelligenze artificiali per ottenere comportamenti più simili a quelli umani, i pubblicitari riescono a progettare campagne di promozione più efficaci, il tutto senza risalire alla singola persona. Come? Eliminando o sostituendo alcuni pezzi del puzzle che compone la nostra identità.

 

banner articoli sapere3

 

Anonimizzazione dei dati: perché non funziona?

 

Il processo per far diventare i dati anonimi consiste nell'eliminare per lo più i dati anagrafici e, a volte, nel sostituire alcuni dettagli specifici con altri più generici. Una volta ottenuto il nuovo dataset, questo può essere rilasciato o venduto in parte o integralmente. Molte delle procedure di questo tipo più comuni, però, sono state ideate negli anni '90, agli albori del digitale e quando ancora non si maneggiava una mole di informazioni così ingente. È per questo che questi metodi non sono così efficaci ed è relativamente facile ricondurre un gruppo di dati a una specifica persona. Pensate a un detective privato: se sta cercando un determinato individuo in una città e ne conosce solo genere ed età, la sua missione sarà piuttosto ardua. Lo scenario cambia se scopre anche data di nascita, numero di figli, impiego e modello di automobile.

 

Quante caratteristiche sono necessarie per risalire alla nostra identità?

 

Gli autori dell'articolo pubblicato su Nature Communications sono stati in grado, attraverso un nuovo modello statistico, di calcolare quanto è probabile che una qualsiasi voce di un insieme di dati senza nome sia riconducibile alla persona a cui apparteneva, rivelandone l'identità. Sembra sia abbastanza semplice, anche lavorando su set di dati incompleti: negli Stati Uniti bastano solo 15 caratteristiche – che includono età, genere e stato civile – per identificare un utente in più del 99% dei casi. Quindici caratteristiche appaiono poche ma non lo sono. Come riportato su Scientific American, nel 2017 una compagnia di analisi nel settore marketing si trovò nei guai per aver accidentalmente pubblicato un set contenente i dati di 123 milioni di famiglie americane, caratterizzate da 123 attributi.

 

La necessità di strumenti come il GDPR

 

Questa tipologia di studi potrebbe spaventarci ma siamo tutti consapevoli che il progresso non conosce la via del ritorno e che dobbiamo convivere con i nuovi problemi legati alle tecnologie e al mondo del digitale, un universo ormai indispensabile per qualsiasi area della nostra vita. I risultati ottenuto serviranno sicuramente a sviluppare nuovi e più efficaci metodi di anonimizzazione di dati e a elaborare leggi che proteggano la nostra privacy. In Europa abbiamo il GDPR (General Data Protection Regulation), regolamento generale sulla protezione dei dati, ufficialmente regolamento (UE) n. 2016/679, operativo a partire dal 25 maggio 2018. I punti salienti del regolamento dell'Unione europea in materia di trattamento dei dati personali e di privacy sono l'introduzione di norme più chiare sulle informative e il consenso e di leggi più rigorose per i casi di violazione dei dati, l'inserimento di limitazioni sul trattamento dei dati personali e di criteri più rigidi sul loro trasferimento fuori dai confini dell'Unione europea. Non dobbiamo sentirci inermi davanti alla diffusione delle informazioni riguardanti noi e la nostra vita ma è necessario essere coscienti del loro trattamento e sapere come la legge può tutelarci.

 

Anche i nostri dati sanitari saranno presto completamente in rete. Ce ne parla Stefano Micocci nell'articolo "La nostra salute in un fascicolo sanitario elettronico", pubblicato nel numero di Sapere di ottobre 2018.

 

Credits immagine: foto di rawpixel da Pixabay

copertina   settembre-ottobre 2019

  COMPRA IL NUMERO

 
  ABBONATI

 
  SOMMARIO

 
  EDITORIALE

bannerCnrXSapere 0

iscriviti copia

clark

Questo sito utilizza cookie, anche di terze parti, per migliorare la tua esperienza di navigazione. Se vuoi saperne di più consulta l'informativa estesa. Cliccando su ok acconsenti all'uso dei cookie.