I conteggi hanno una caratteristica importante quasi sempre, la loro tendenza e la loro dispersione (ovvero media e varianza) cambiano insieme, sono dipendenti. Mentre per i dati continui (ad esempio misurazioni) possiamo avere valori grandi molto vicini, o valori piccoli molto lontani tra loro; tipicamente con i conteggi questo non avviene: serie di conteggi tendenzialmente grandi sono più variabili di serie di conteggi tendenzialmente piccoli. Questo non è un fatto astratto, è qualcosa di osservabile e misurabile, ed influenza il modo in cui i conteggi possano essere descritti matematicamente.
Guardando il modo in cui evolve un’epidemia all’inizio, la prima cosa che viene in mente a chiunque abbia studiato un po’ di matematica anche a scuola è “cresce in modo esponenziale!”. Sembrerebbe quindi naturale trasformare i conteggi nei logaritmi e tirare dritto una riga.
Ora la valutazione intuitiva è corretta ma non considera il punto posto di sopra. Con un processo di conteggi che crescono nel tempo, come quello epidemico, con il passare del tempo, la media e la variabilità di quei dati cambiano in modo dipendente. “Tirare dritto una riga” implica invece che tendenza e variabilità si comportino l’una indipendentemente dall’altra.
L’approccio corretto con i dati di conteggio è quello dei cosiddetti modelli lineari generalizzati (GLM), introdotti nella letteratura statistica già negli anni ’70 del secolo scorso. I GLM tengono conto della natura del dato e del suo comportamento, con la possibilità di applicare lo schema della regressione lineare anche ai modelli di Poisson o Binomiale Negativa che tipicamente sono quelli che meglio descrivono questo tipo di dati.
Tutto questo discorso si può benissimo formalizzare con eleganti equazioni per far vedere cosa non va nell’approccio intuitivo, ma non ci pare questo il posto adeguato.
C'è anche un altro punto concettuale molto rilevante che vale però in generale: assumere un andamento esponenziale significa assumere che i conteggi possano crescere all'infinito. Questo vale sia per le regressioni lineari su trasformata log che per le regressioni di Poisson o Negative Binomial. Pertanto, inevitabilmente, entrambi questi approcci sono da applicare solo nel breve termine. Nel medio termine, i conteggi cumulati andranno a saturazione, secondo una curva di
crescita che permette un asintoto. In questo caso, si dovrebbe utilizzare un GLM di Poisson o Binomiale Negativo per curve di crescita con asintoti.
Nessun commento:
Posta un commento