Per gli amanti della statistica è pane quotidiano: sta per Garbage In, Garbage Out… “spazzatura dentro, spazzatura fuori”. Si riferisce all’idea che in qualsiasi sistema, la qualità dell’output è determinata dalla qualità dell’input. Ad esempio, se un’equazione matematica è formulata in modo improprio, è improbabile che la risposta sia corretta. Allo stesso modo, se dati errati vengono utilizzati come input in un programma informatico, è improbabile che l’output sia corretto o informativo.
GIGO semplicemente significa che l’output prodotto da un sistema dipende dall’input che riceve. Se inserisci spazzatura, è probabile che otterrai spazzatura come risultato. L’idea di GIGO è comunemente usata in matematica e informatica, in particolare nello sviluppo software. Tuttavia, può essere estesa a qualsiasi sistema decisionale o processo in cui dati precisi ed accurati sono essenziali per generare risultati corretti che possono essere utilizzati per prendere decisioni corrette.
Il primo utilizzo registrato della frase “spazzatura dentro, spazzatura fuori” risale al 1957, anche se George Fuechsel, un programmatore e istruttore IBM, è generalmente accreditato come il creatore del termine nei primi anni ’60. Si dice che Fuechsel abbia utilizzato il termine per affermare concisamente che un modello o programma informatico elabora semplicemente ciò che gli viene dato: se gli viene fornita una cattiva informazione, produrrà cattiva informazione.
Il termine è ora ampiamente usato in matematica, informatica, IT, scienza dei dati, intelligenza artificiale (AI), apprendimento automatico (ML) e internet delle cose (IoT). GIGO è utilizzato per riferirsi a una vasta gamma di situazioni nel mondo reale, come una decisione difettosa presa a seguito di informazioni incomplete.
Ci sono molti esempi reali di GIGO in azione:
- Se un editor di testo cerca di leggere un file binario, mostrerà contenuti illeggibili (output di spazzatura) perché non è configurato per leggere l’input (binario). Per l’editor, l’input binario è spazzatura.
- Se un programma informatico cerca di accedere a una sezione di memoria per cui l’accesso non è stato configurato, il kernel ne negherà l’accesso. Di conseguenza, il programma terminerà in modo anomalo (noto anche come crash del programma).
- Se un modello di apprendimento automatico non riceve dati di addestramento corretti, il modello apprenderà in modo errato e produrrà output errati ovunque venga applicata la sua conoscenza.
- Se uno psicologo non dispone di tutte le informazioni su un paziente necessarie per diagnosticare un disturbo mentale, potrebbe diagnosticare in modo errato e causare danni non voluti al paziente.
Negli ultimi anni, la pandemia ha fornito esempi di GIGO e dei suoi effetti. Nei primi giorni della pandemia, alcuni paesi hanno creato previsioni temporali molto alte su ospedalizzazioni e decessi. A queste previsioni hanno fatto seguito previsioni spaventose, molte delle quali alla fine non si sono realizzate, alcune delle quali sì. Maggiore è la qualità dei dati (cioè non spazzatura) utilizzati in queste previsioni, più accurate saranno le previsioni.
L’input di spazzatura potrebbe essere dovuto a dati:
- Errati (include errori)
- Ottenuti o registrati in modo errato
- Troppo diversi dagli altri dati (outlier)
- Troppo simili agli altri dati
- Mancanti
- Non applicabili alla situazione o all’applicazione specifica
In tutti questi casi, quando i dati vengono inseriti nel sistema, possono risultare in risultati fuorvianti o incorretti.
Detto questo…cosa si può fare?
Il data management master (MDM) può eliminare il GIGO, perché riguarda la creazione di un singolo record principale per tutte le fonti di dati e le applicazioni. I migliori processi di MDM utilizzano tecnologie e processi multipli per preparare il record principale. Le attività di MDM puliscono e arricchiscono i dati e rimuovono voci duplicate, ridondanti ed erronee. Tengono anche traccia delle fonti di dati e creano tracciati di audit delle modifiche. In questo modo, forniscono dati consistenti e affidabili che possono quindi essere utilizzati per una vasta gamma di applicazioni senza causare il problema del GIGO. Inoltre, il MDM consente alle aziende di prendere decisioni più informate e basate sui dati.
Oltre al MDM, ci sono altri modi per migliorare la qualità dei dati di input ed evitare il GIGO, tra cui:
- Pulire i dati di input correggendo o rimuovendo valori errati
- Combinare dati da più fonti
- Riformattare i dati, se necessario
- Dividere i dati in set di addestramento, test e convalida prima di costruire il modello
- Impostare criteri di successo e valutare le prestazioni del modello in base a tali criteri
- Revisionare regolarmente i set di dati per correggere le inesattezze
Domande? Dubbi? Approfondimenti? YOURgroup e i suoi yourCOO sono pronti ad aiutarvi!