Big data e regressioni fantasiose….Correlazione vs Causalità
Da quando esistono i “big data” che, nel vero senso della parola, indica genericamente una raccolta di dati informativi così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valori, il metodo scientifico sembra poter essere messo in discussione. Questi dati possono essere raccolti in qualsiasi modo: cookies, applicazioni, social network etc.
Perché vi racconto tutto questo?
Al giorno d’oggi chiunque, chiunque con qualche base di management o di informatica, col giusto software può permettersi di incrociare dati e permettersi di impartire lezioni di economia, ingegneria, medicina...
Vedete, il punto è questo: ognuno utilizza e vede solo i dati che vuole vedere, per interesse o per necessità, anche se tutto questo non ha nulla a che vedere con il metodo scientifico.
Per questo motivo, lo scienziato che fa una ricerca è abituato al fatto che la sola correlazione non implichi automaticamente quella di causalità e che quindi non si possono trarre conclusioni affrettati sulla sola base di quei dati. E’ necessario (tanto quanto utile ai fini della credibilità) comprendere le dinamiche che connettono tra loro due dati, costruendo un modello che possa spiegare la correlazione.
Tutto questo perché i dati, senza un modello, una teoria basata su conoscenze tecnico-scientifiche che spieghino quell’incrocio di dati è solo tanto rumore che getto nell’oceano della disinformazione. Non ci credete? Vi riporto qualche meraviglioso esempio.
Il CDC (center for disease control and prevention) ha raccolto alcune correlazioni, tra il 1999 e il 2009, che legano:
- al 99,79% l’investimento della spesa pubblica statunitense in scienza, spazio e tecnologia col tasso di suicidi per strangolamento;
- al 99,26% il tasso di divorzi nel Maine col consumo pro capite di margarina;
- al 94,71% il consumo pro capite di formaggio con il numero di persone morte arrotolandosi tra le coperte.
Concludo citando un famoso premio nobel: “Se torturi i dati abbastanza a lungo confesseranno qualsiasi cosa” Ronald Coase.
Vedi l'allegato 328928
Premesso che non è assolutamente polemica o critica, anzi, a trovarne di ragazze così spiritose, tuttavia quando sento e o vedo questo tipo di goliardie fatte da una donna, penso sempre che quando le stesse cose le fa un uomo viene etichettato, dalle stesse donne come maniaco, porco o con frasi tipo "che schifo", "che volgarita'" ecc... Due metri e due misure? Ma fa niente, va bene anche così
Ridicolo e tragico si occhieggiano spesso. La cialtroneria nell'analisi dei dati è del resto spesso in agguato ma è ovvio che se prendi decisioni sulla base di informazioni sbagliate, avrai bisogno di una dose extra di fortuna per vedere qualce risultato positivo. Esattamente quali sarebbero i casi aziendali che citi?Più che far ridere è preoccupante.
Certo che organizzazioni che prendono decisioni strategiche su queste correlazioni della minchia - aziende, enti, stati, singoli cittadini - sono inesorabilmente destinati ad imbattersi in fallimenti.
Che Dio ce la mandi buona!