Correlazione vs Causalità
Da quando esistono i “big data” che, nel vero senso della parola, indica genericamente una raccolta di dati informativi così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valori, il metodo scientifico sembra poter essere messo in discussione. Questi dati possono essere raccolti in qualsiasi modo: cookies, applicazioni, social network etc.
Perché vi racconto tutto questo?
Al giorno d’oggi chiunque, chiunque con qualche base di management o di informatica, col giusto software può permettersi di incrociare dati e permettersi di impartire lezioni di economia, ingegneria, medicina...
Vedete, il punto è questo: ognuno utilizza e vede solo i dati che vuole vedere, per interesse o per necessità, anche se tutto questo non ha nulla a che vedere con il metodo scientifico.
Per questo motivo, lo scienziato che fa una ricerca è abituato al fatto che la sola correlazione non implichi automaticamente quella di causalità e che quindi non si possono trarre conclusioni affrettati sulla sola base di quei dati. E’ necessario (tanto quanto utile ai fini della credibilità) comprendere le dinamiche che connettono tra loro due dati, costruendo un modello che possa spiegare la correlazione.
Tutto questo perché i dati, senza un modello, una teoria basata su conoscenze tecnico-scientifiche che spieghino quell’incrocio di dati è solo tanto rumore che getto nell’oceano della disinformazione. Non ci credete? Vi riporto qualche meraviglioso esempio.
Il CDC (center for disease control and prevention) ha raccolto alcune correlazioni, tra il 1999 e il 2009, che legano:
- al 99,79% l’investimento della spesa pubblica statunitense in scienza, spazio e tecnologia col tasso di suicidi per strangolamento;
- al 99,26% il tasso di divorzi nel Maine col consumo pro capite di margarina;
- al 94,71% il consumo pro capite di formaggio con il numero di persone morte arrotolandosi tra le coperte.
Concludo citando un famoso premio nobel: “Se torturi i dati abbastanza a lungo confesseranno qualsiasi cosa” Ronald Coase.
Da quando esistono i “big data” che, nel vero senso della parola, indica genericamente una raccolta di dati informativi così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valori, il metodo scientifico sembra poter essere messo in discussione. Questi dati possono essere raccolti in qualsiasi modo: cookies, applicazioni, social network etc.
Perché vi racconto tutto questo?
Al giorno d’oggi chiunque, chiunque con qualche base di management o di informatica, col giusto software può permettersi di incrociare dati e permettersi di impartire lezioni di economia, ingegneria, medicina...
Vedete, il punto è questo: ognuno utilizza e vede solo i dati che vuole vedere, per interesse o per necessità, anche se tutto questo non ha nulla a che vedere con il metodo scientifico.
Per questo motivo, lo scienziato che fa una ricerca è abituato al fatto che la sola correlazione non implichi automaticamente quella di causalità e che quindi non si possono trarre conclusioni affrettati sulla sola base di quei dati. E’ necessario (tanto quanto utile ai fini della credibilità) comprendere le dinamiche che connettono tra loro due dati, costruendo un modello che possa spiegare la correlazione.
Tutto questo perché i dati, senza un modello, una teoria basata su conoscenze tecnico-scientifiche che spieghino quell’incrocio di dati è solo tanto rumore che getto nell’oceano della disinformazione. Non ci credete? Vi riporto qualche meraviglioso esempio.
Il CDC (center for disease control and prevention) ha raccolto alcune correlazioni, tra il 1999 e il 2009, che legano:
- al 99,79% l’investimento della spesa pubblica statunitense in scienza, spazio e tecnologia col tasso di suicidi per strangolamento;
- al 99,26% il tasso di divorzi nel Maine col consumo pro capite di margarina;
- al 94,71% il consumo pro capite di formaggio con il numero di persone morte arrotolandosi tra le coperte.
Concludo citando un famoso premio nobel: “Se torturi i dati abbastanza a lungo confesseranno qualsiasi cosa” Ronald Coase.