I dati sintetici sono dati che sono stati trasformati o creati da un algoritmo o da un’operazione manuale a partire da dati iniziali. L’obiettivo? Eliminare la natura sensibile di alcuni dati iniziali e consentirne l’utilizzo, in generale, per validare un modello matematico e il suo comportamento in relazione alla realtà. I cosiddetti “Synthetic Data” sono molto apprezzati dai data scientist che li utilizzano nel loro lavoro di ricerca e modellazione. Leggiamo questo articolo dal blog di Francesco Gadaleta che volentieri lo ha condiviso con la nostra redazione web
L’importanza dei dati sintetici
Negli ultimi decenni, lo sviluppo di Internet ha portato la questione privacy, ovvero il diritto alla protezione dei dati personali, al centro del dibattito sociale, politico e giuridico. Nei file di dati iniziali spesso si nascondono dati personali, dati specifici degli utenti, anche dati commerciali sensibili… insomma, dati che non è bene esporre agli occhi di tutti. Eppure, ingegneri ed esperti di dati devono essere in grado di lavorare sui loro modelli. La sfida dei dati sintetici quindi, è quella di consentire loro di lavorare senza accedere ai dati iniziali ritenuti sensibili.
Chi genera dati sintetici ha a disposizione due tecniche: la prima tecnica ovvero la “data alteration“, consiste nel rendere disponibili dataset di lavoro sostituendo i dati iniziali (es. si tolgono i nominativi, i numeri di telefono degli utenti e si sostituiscono con codici anonimizzati). La seconda tecnica, ovvero la “data augmentation“, consiste nel modificare i dati esistenti e aggiungerli al nuovo set di dati e viene impiegata per l’apprendimento automatico (o machine learning) delle reti neuronali artificiali.
Naturalmente, è possibile combinare i due metodi, la sfida principale è di stabilire una base di dati sufficientemente ricca per consentire la creazione di un modello matematico che genererà valore e permetterà numerose simulazioni che favoriscano il processo decisionale.
I dati sintetici, scrive Francesco Gadaleta, sono utilizzati per qualsiasi tipo di simulazione per immaginare situazioni presenti ma anche future. Facebook li utilizza per combattere le fake news, la propaganda politica e le molestie online; gli ingegneri per progettare veicoli autonomi in grado di muoversi da soli; agli informatici di simulare attacchi hacker; ai team di marketing di ottimizzare i propri investimenti pubblicitari su segmenti di potenziali clienti; alle aziende di addestrare robot per svariate attività nelle fabbriche; ecc.
Chi è Aindo
I dati sintetici rappresentano una grande opportunità di mercato, lo sa bene Aindo, una startup tutta italiana fondata nel 2018, con sede nell’Area Science Park di Trieste. L’azienda è nata grazie a otto ricercatori della Scuola Internazionale Superiore di Studi Avanzati (SISSA): ingegneri, fisici, informatici specializzati nella generazione di dati sintetici e un ragazzo olandese con un Mba a Oxford per lo sviluppo del business. La bella notizia è che Aindo ha appena ricevuto in investimento di 2,8 milioni di euro dal fondo Vertis Venture 3 Technology Transfer per la generazione di dati sintetici Intuite.Ai. La startup, infatti, vanta già prestigiosi clienti internazionali nei settori fintech, medicale e insultech.
I database sintetici sono un mercato enorme, lo dimostra il fatto che, all’interno del programma Horizon dell’Unione europea, ci siano due progetti aperti. Anche gli Sates ormai guardano verso la stessa direzione.