Professionisti di qualsiasi ambito – dai giornalisti ai commercianti – possono accedere a corposi set di dati per ricavarne informazioni utili per il proprio lavoro. Maneggiare una miriade di numeri, però, richiede la comprensione, a volte anche approfondita, della statistica, l’insieme di metodi scientifici il cui scopo è la conoscenza quantitativa e qualitativa dei fenomeni collettivi (fenomeni il cui studio richiede una pluralità di osservazioni) mediante la raccolta, l’ordinamento, la sintesi e l’analisi dei dati. Ciò restringe di molto il campo di azione dei non esperti. E se ci fosse una soluzione, un modo per esaminare il materiale a disposizione con strumenti per i non addetti? A questo hanno pensato i ricercatori del MIT-Massachusetts Institute of Technology.
Professionisti di qualsiasi ambito – dai giornalisti ai commercianti – possono accedere a corposi set di dati per ricavarne informazioni utili per il proprio lavoro. Maneggiare una miriade di numeri, però, richiede la comprensione, a volte anche approfondita, della statistica, l’insieme di metodi scientifici il cui scopo è la conoscenza quantitativa e qualitativa dei fenomeni collettivi (fenomeni il cui studio richiede una pluralità di osservazioni) mediante la raccolta, l’ordinamento, la sintesi e l’analisi dei dati. Ciò restringe di molto il campo di azione dei non esperti. E se ci fosse una soluzione, un modo per esaminare il materiale a disposizione con strumenti per i non addetti? A questo hanno pensato i ricercatori del MIT-Massachusetts Institute of Technology.
Elaborare dati senza essere un esperto di statistica
Gli scienziati sperano di rendere più democratica la scienza dei dati con un nuovo strumento per persone non specializzate in statistica che genera automaticamente modelli per analizzare dati grezzi. Cosa significa “democraticizzare la scienza dei dati”? Vuol dire fare in modo che ogni persona, con poca o nessuna esperienza nell’analisi statistica dei dati, possa applicarsi alla data science se dotato di un sufficiente numero di dati e di strumenti di analisi user-friendly. Sulla base di questa definizione, i ricercatori hanno progettato un sistema che mastica dataset per poi generare modelli statistici sofisticati solitamente impiegati da specialisti per analizzare, interpretare e prevedere schemi. Questa soluzione è attualmente ospitata su Jupyter Notebook, un web framework open-source che permette agli utenti di eseguire programmi interattivamente nei propri browser. Gli utenti devono solo conoscere poche righe di codice per accedere finalmente a nuove conoscenze riguardanti, ad esempio, andamenti finanziari, schemi di voto, diffusioni di malattie.
La statistica bayesiana
Il lavoro svolto dal gruppo di ricerca del MIT si basa sul modello bayesiano, un metodo statistico che aggiorna continuamente la probabilità di una variabile ogni volta che divengono disponibili maggiori informazioni su di essa. In generale, i modelli bayesiani possono essere impiegati per previsioni – predire un valore non presente nel dataset – e per svelare schemi nei dati e relazioni tra variabili. Lo studio si è focalizzato su due tipi di set di dati: la serie storica (o temporale), una sequenza di dati in ordine cronologico, e i dati tabulati, dove ciascuna riga rappresenta un’entità di interesse e ciascuna colonna un attributo. Approfondiamo questi concetti per capire meglio.
Le serie storiche possono essere adoperate per predire, ad esempio, il traffico aereo nei prossimi mesi o anni. Un modello di probabilità macina dati storici sul traffico e produce un grafico con i futuri schemi di traffico. Il modello può anche rivelare fluttuazioni periodiche correlate ad altre variabili.
I dataset tabulari, invece, sono spesso utili nella ricerca sociologica e possono contenere da centinaia a migliaia di righe, ciascuna rappresentante una singola persona, con variabili legate all’occupazione, al salario, all’abitazione e risposte a sondaggi. In questo caso i modelli probabilistici possono servire a calcolare le variabili mancanti, come prevedere il salario in base all’occupazione e luogo di abitazione, o a identificare variabili che condizionano altre, come ad esempio trovare che l’età anagrafica e l’occupazione sono predittive del salario. Cosa farebbe un esperto di statistica per elaborare i dati con il modello bayesiano? Dapprima stabilirebbe un’ipotesi ragionata sulla struttura del modello e sui suoi parametri, basandosi sulla conoscenza generale del problema e dei dati a disposizione; in seguito adopererebbe un ambiente di programmazione statistica per costruire il modello, adeguare i parametri, controllare i risultati e ripetere il processo finché non si giunge a un buon compromesso tra la complessità del modello e la sua qualità. Avrete intuito che la statistica bayesiana è uno strumento molto potente ma è altrettanto complesso e dispendioso in termini di tempo. Come facilitarne l’utilizzo e renderlo il più accessibile possibile?
La sintesi bayesiana per una scienza dei dati più democratica
Con il nuovo approccio progettato dal MIT, gli utenti scrivono solo una linea di codice che dà informazioni sulla collocazione dei dati grezzi. Il sistema carica i dati e crea più programmi probabilistici, ciascuno rappresentante un modello bayesiano dei dati. Tutti questi modelli generati automaticamente sono scritti in linguaggi di programmazione probabilistici dominio-specifici – linguaggi di programmazione sviluppati per specifiche applicazioni – i quali sono ottimizzati per rappresentare i modelli bayesiani per un determinato tipo di dati. Lo strumento lavora adoperando una versione modificata di una tecnica chiamata program synthesis e crea automaticamente programmi a partire dai dati e un linguaggio su cui lavorare. In pratica una sorta di programmazione inversa: si hanno esempi in entrata (input) e in uscita (output) e la sintesi opera procedendo dalla fine all’inizio, riempiendo gli spazi vuoti per costruire un algoritmo (visibile all’utente) che produca quei determinati output basandosi sugli input. Ecco che la parte più complessa dell’analisi statistica dei dati passa dall’uomo alla macchina.
La programmazione probabilistica si sta mostrando un campo emergente nato dall’intersezione tra linguaggi di programmazione, intelligenza artificiale e statistica e grandi realtà, come Google, Uber e Microsoft, hanno iniziato a interessarsene.
Parliamo di scienza e democrazia dal punto di vista della comunicazione nell’articolo di Maria Grazia Coggiola e Gian Piero Siroli, “Fake news: propaganda e disinformazione all’epoca di internet”, pubblicato nel numero di aprile 2018 di Sapere.