È forse una querelle non di attualità ma che comunque continua a essere presente sia tra i ricercatori sia tra i decisori che utilizzano i risultati delle ricerche e delle analisi: fare analisi statistiche con modalità semplici o costruire modelli complessi ed avanzati?

/documenti/get_image.php?img=ftp_folder/2020/blog_cislaghi_prev/1250/figura per blog.jpeg

Qualche anno fa il sospetto era che a favore delle analisi “semplici” si schierassero i vetero ricercatori che nella loro formazione non avevano acquisito dimestichezza con l’uso della modellistica statistica, mentre a favore dell’uso di modelli vi fossero gli statistici rampanti che volevano imporsi sulla scena. Ormai queste posizioni sono superate e in virtù di una preparazione teorica omologatasi ed anche grazie alla disponibilità di packages statistici di sempre più facile e assistito accesso, la capacità di eseguire analisi con modelli è molto diffusa.

G.A. Maccacaro, fondatore della rivista che ci ospita, parlandomi di quello che gli diceva in Inghilterra il suo maestro, quel Ronald Aylmer Fisher che tutti conosciamo anche perché il test usato nell’analisi della varianza porta la sua iniziale, mi ricordava che «il buon statistico è quello che per almeno cinque ore al giorno si sporca le mani immergendole nei dati».

Richard Doll and A. Bradford Hill nel 1950 (1) dimostrano infatti la relazione tra fumo e tumore ai polmoni utilizzando per analisi solo delle tabelle senza neppure dei test statistici anche se in seguito è proprio Doll nel 1952 (2) a pubblicare con John Buckatzsch una “experimental factor analysis”  tra percentuali di fumatori e prevalenza di tumori ai polmoni, ringraziando  «Miss E. M. Hines, Miss A. H. Huntley and Miss M. Rogers for assistance in the calculations», calcoli durati un lungo mese.

Oggi la raccolta dati ha più o meno lo stesso tempo di una volta o forse anche più a causa delle normative di rispetto della privacy, mentre i calcoli necessari per le analisi con modelli anche molto complessi durano pochi secondi. Il rischio di non sporcarsi abbastanza le mani nei dati, nella valutazione della loro qualità, nell’esame di semplici caratteristiche è crescente e troppo spesso ci si approccia ai dati avviando subito dei modelli e poi “credendo” nei risultati “a prescindere”.

Questi pericoli non riguardano ovviamente quei ricercatori e quegli statistici seri capaci di riflettere innanzitutto sulle ipotesi plausibili da testare e che solo in una fase successiva analizzano i dati validati con modelli capaci di evidenziare le relazioni tra le informazioni disponibili. Riguardano invece quella “schiera” di analizzatori che devono dare ai loro direttori o ai loro politici, magari in tempi stretti, dei risultati che appaiano “ben elaborati” con “buone tecniche” e non si preoccupano di riflettere se i modelli abbiano colto l’informazione giusta o l'abbiano stravolta. I packages statistici rappresentano oggi una potenzialità enorme, ma anche un rischio elevato di utilizzo acritico e maldestro. Un suggerimento a chi riceve queste analisi per usarle in contesti decisionali: è quello di chiedere anche le analisi descrittive che hanno preceduto e indirizzato la scelta dei modelli utilizzati, e di chiedere agli statistici di mostrare le mani per vedere se se le sono sporcate tenendole immerse per un tempo congruo nei dati stessi.

_______________

(1) Richard Doll , A. Bradford Hill. Smoking and Carcinoma of the Lung, Br Med J,1950 Sep 30; 2(4682):739–748.
(2) John Buckatzsch and Richard Doll An experimental factor analysis of cancer mortality in England and Wales 1921–30, J. Hyg. (Lond.), 50. 384-390.

 24/07/2020      Visite