Le insidie della complessità e l’ansia del controllo totale

di Alessandro Giuliani.

Nel 2005 uscì un articolo che fece molto scalpore, il titolo era già un proclama ‘Why most Published Research Findings are false’ né più né meno ‘Perché la maggior parte dei risultati scientifici pubblicati sono falsi’.

La rivista era delle più prestigiose e John Ioannidis, statistico greco di stanza a Stanford, uno scienziato di chiara fama. Ioannidis non usava ipotesi moralistico-consolatorie (molto in voga negli Stati Uniti) come “E’ la smania di successo di alcuni scienziati che li porta a falsificare i dati”, ma individuava la fallacia di gran parte della ricerca scientifica in semplici considerazioni statistiche. Il furioso dibattito che seguì alla pubblicazione ebbe termine con il riconoscimento della effettiva mancanza di ripetibilità della ricerca (soprattutto in biomedicina).

Grandi agenzie di finanziamento come l’NIH (National Institutes of Health, l’agenzia di ricerca biomedica americana che è di gran lunga il maggior erogatore di fondi) inserirono standard molto severi sulla congruità statistica dei risultati e Nature (insieme a Science la rivista scientifica più di tendenza) ha recentemente pubblicato un intero numero sul problema della mancanza di ripetibilità dei risultati della ricerca di base in biomedicina.

La prestigiosa Rivista PLoS Biology ha inaugurato in queste settimane una sezione denominata ‘Meta-Research’ tutta dedicata all’analisi della verosimiglianza dei risultati scientifici che in molti campi è drammaticamente bassa.

Quello che traballa è niente meno che il fondamento della conoscenza scientifica: le galileiane ‘sensate esperienze’ che sembrano smarrire la loro qualità precipua: quella di poter essere riprodotte da altri sperimentatori in maniera indipendente.

Come si è arrivati a questa crisi conoscitiva? Si tratta di un esempio di quella vasta classe di problemi legata agli effetti di scala: raggiungere con una strada di campagna una spiaggia contornata da pini per passare una giornata d’estate è di per sé un’idea splendida, se la stessa idea è condivisa da migliaia di persone che, dopo una estenuante fila sotto il sole, si ritrovano su un arenile affollato le cose cambiano di molto.

Fuor di metafora, se un ricercatore vuole verificare la fondatezza di una sua ipotesi, organizza un esperimento in cui definisce operativamente e teoricamente una misura (osservabile), raccoglie un numero sufficiente di osservazioni (animali, colture cellulari…) indipendenti e controlla se la misura in questione ha dei valori compatibili con l’ipotesi di partenza.

La verosimiglianza di questa compatibilità viene di norma valutata in maniera ‘falsificazionista’: si confronta il valore osservato con quanto ci si attende per il puro effetto del caso (che, a seconda dei contesti viene immaginato in termini di particolari distribuzioni di probabilità come la distribuzione gaussiana, uniforme, binomiale … ) e, se la probabilità di osservare per puro effetto del caso, un valore uguale (o più estremo) di quello effettivamente ottenuto è più bassa di una certa soglia, si ‘scommette’ sulla significatività del risultato ottenuto. E’ importante sottolineare il carattere personale di questa (come di qualsiasi altra) scommessa: accettare un risultato come ‘significativo’ (e quindi corroborante l’ipotesi) se la probabilità di osservare un risultato identico o più estremo di quello effettivamente osservato per il puro effetto del caso è minore di 1 su 20 (il famoso p < 0.05) non è niente di più che ‘una buona e assodata consuetudine’ non certo la dimostrazione di un teorema.

Fin qui nessun problema, la scommessa è stata fatta ‘prima’ di andare a vedere le carte e soprattutto i suoi termini sono chiari: essa vale esclusivamente per una sola misura che si definisce come rilevante per il fenomeno in studio.

Implicito nel criterio ‘p < 0.05’   è il fatto che se si eseguono 200 misure differenti, ci si aspetta di osservare una media di 10 risultati ‘statisticamente significativi’ puramente casuali, è chiaro quindi che se un gruppo di ricerca fa quello che in gergo si chiama ‘cherry-picking’ (letteralmente ‘scegliersi le ciliegie’) su molte sperimentazioni, si imbatterà di sicuro in un risultato statisticamente significativo per puro effetto del caso. Se il gruppo di ricerca pubblicherà questo risultato (scelto ad hoc) corredato da una dotta e conseguente discussione, questo verrà considerato una evidenza scientifica da parte della comunità laddove è solo una naturale conseguenza del concetto stesso di probabilità. Moltiplicate questo fenomeno perverso per il milione e passa di ricercatori attualmente attivi nel solo campo biomedico e avrete un’idea delle dimensioni del problema. Nel loro editoriale sulla rivista Significance della Royal Statistical Society, Stanley Young e Alan Karr forniscono un quadro molto lucido della gravità della situazione con grande rigore metodologico e cristallina chiarezza.

Una forma differente dello stesso problema di sovra-determinazione la abbiamo nel campo della modellizzazione matematica.

A differenza del caso precedentemente descritto della verifica statistica della congruità di un’ipotesi, che è comunque procedura ‘esterna’ alla natura profonda del fenomeno studiato, qui in qualche modo assistiamo a un ‘corto-circuito’ tra la natura intima degli oggetti e lo stile della scienza.

L’idea che ‘più aspetti si prendono in considerazione, più accurate saranno le nostre previsioni su un certo fenomeno’ sembra del tutto pacifica e non meritevole di alcun approfondimento. Le cose però stanno in maniera molto diversa: la nostra conoscenza scientifica si è sviluppata attraverso un approccio alla conoscenza completamente differente. I modelli di successo in scienza sono ‘grossolani’ (sloppy nel gergo dell’analisi dei dati): essi riescono a prevedere con buona (a volte ottima) approssimazione il comportamento di sistemi molto complessi prendendo in considerazione pochissimi parametri di controllo e deliberatamente trascurando un’infinità di dettagli potenzialmente interessanti.

Claudio Ronchi, nel suo fondamentale trattato, ci racconta come l’incredibile semplicità e accuratezza delle leggi di Keplero riassunte nella sintesi Newtoniana sia stata possibile concentrandosi sull’interazione diadica tra i singoli pianeti e il sole tralasciando tutte le interazioni (comunque presenti) con gli altri pianeti del sistema solare.

In tempi moderni ci si rese conto che il moto di precessione di Mercurio non era in accordo con le leggi di Newton e ci volle la teoria della Relatività Generale per renderne conto. Purtroppo le correzioni necessarie presentano gravi problemi matematici per essere calcolate ab initio per cui si rese necessario introdurre, attraverso il metodo matematico delle perturbazioni (e chiaramente il calcolo elettronico), circa 100 ‘fattori di correzione empirici’ in maniera non troppo dissimile dall’uso tolemaico di 18 rotazioni ‘eccentriche’ per rendere conto delle orbite effettivamente osservate dei pianeti. Se Keplero avesse avuto a disposizione strumenti di misura accurati come quelli oggi disponibili, con tutta probabilità la scienza moderna non sarebbe mai nata.

E qui siamo al ‘grado zero’ della complessità: pochissimi enti interagenti in maniera regolare, quando abbiamo di fronte un sistema con molti elementi le cui interazioni reciproche variano a seconda delle condizioni al contorno (si pensi ad esempio alle reti metaboliche delle cellule), i problemi diventano molto più gravi e la ricerca di descrizioni ‘più esaurienti’ che ‘tengano conto’ dell’effettiva complessità del sistema porta a patologie (e conseguenti errori di previsione) molto più gravi.

(… segue …)

Leggi l’articolo completo: Alessandro Giuliani, Le insidie della complessità e l’ansia del controllo totale, in Biodisciplines (a cura di Marta Bertolaso e Mirko Di Bernardo), Scienze e Ricerche n. 30, 1° giugno 2016, pp. 17-20