Post in evidenza

Covid-19 la nostra app è sempre attuale

  Con l'assidua collaborazione  Marco Mingione  e  Pierfrancesco Alaimo Di Loro  abbiamo creato uno strumento web interattivo che consen...

venerdì 20 marzo 2020

Perché Poisson sì e la retta in scala logaritmica No

Queste righe nascono dal bisogno di chiarire alcuni aspetti dell’analisi di dati, come quelli che descrivono un’epidemia. I dati in questione sono numeri interi, sono conteggi: conto quante persone si ammalano, quante persone guariscono, quante persone muoiono, ecc. Nel caso di un’epidemia, questi conteggi sono osservati sulla dimensione del tempo.

I conteggi hanno una caratteristica importante quasi sempre, la loro tendenza e la loro dispersione (ovvero media e varianza) cambiano insieme, sono dipendenti. Mentre per i dati continui (ad esempio misurazioni) possiamo avere valori grandi molto vicini, o valori piccoli molto lontani tra loro; tipicamente con i conteggi questo non avviene: serie di conteggi tendenzialmente grandi sono più variabili di serie di conteggi tendenzialmente piccoli. Questo non è un fatto astratto, è qualcosa di osservabile e misurabile, ed  influenza il modo in cui i conteggi possano essere descritti matematicamente.

Guardando il modo in cui evolve un’epidemia all’inizio, la prima cosa che viene in mente a chiunque abbia studiato un po’ di matematica anche a scuola è “cresce in modo esponenziale!”. Sembrerebbe quindi naturale trasformare i conteggi nei logaritmi e tirare dritto una riga.

Ora la valutazione intuitiva è corretta ma non considera il punto posto di sopra. Con un processo di conteggi che crescono nel tempo, come quello epidemico, con il passare del tempo, la media e la variabilità di quei dati cambiano in modo dipendente. “Tirare dritto una riga” implica invece che tendenza e variabilità si comportino l’una  indipendentemente dall’altra.

L’approccio corretto con i dati di conteggio è quello  dei cosiddetti modelli lineari generalizzati (GLM), introdotti nella letteratura statistica già negli anni ’70 del secolo scorso. I GLM tengono conto della natura del dato e del suo comportamento, con la possibilità di applicare lo schema della regressione lineare anche ai modelli di Poisson o Binomiale Negativa che tipicamente sono quelli che meglio descrivono questo tipo di dati.

Tutto questo discorso si può benissimo formalizzare con eleganti equazioni per far vedere cosa non va nell’approccio intuitivo,  ma non ci pare questo il posto adeguato.

C'è anche un altro punto concettuale molto rilevante che vale però in generale: assumere un andamento esponenziale significa assumere che i conteggi possano crescere all'infinito. Questo vale  sia per le regressioni lineari su trasformata log che per le regressioni di Poisson o Negative Binomial. Pertanto, inevitabilmente, entrambi questi approcci sono da applicare solo nel breve termine. Nel medio termine, i conteggi cumulati andranno a saturazione, secondo una curva di
crescita che permette un asintoto. In questo caso, si dovrebbe utilizzare un GLM di Poisson o Binomiale Negativo per curve di crescita con asintoti. 


Nessun commento:

Posta un commento