Post in evidenza

Covid-19 la nostra app è sempre attuale

  Con l'assidua collaborazione  Marco Mingione  e  Pierfrancesco Alaimo Di Loro  abbiamo creato uno strumento web interattivo che consen...

lunedì 25 maggio 2020

meme and epidemiology


In these quarantine weeks, many people became curious, among many topics, of epidemiological aspects highly linked to the event that was affecting everyone’s daily life. One element that has become very popular is the R0 index, the basic reproduction number. We dealt with this parameter many times, we know it represents a measure of the "speed" with which an infectious disease initially progresses. R0 is characteristic of the epidemic in its initial phase, then to understand if any containment measures take effect, the actual reproduction number is considered, which is usually indicated with R(t), as it refers to a generic day "t". We can say that the link between the two parameters is: R0 = R (0), that is, the basic reproduction number coincides with the actual reproduction number on day t = 0 of the beginning of the epidemic. We know that over time, R(t) represents the average number of people who are infected by an already infected person during the virus infectivity period. In general, R(t) depends on three quantities: on the probability of contagion (P), on the duration of the average period of infectivity (D), and on the average number of contacts of the individuals concerned (C), according to a simple multiplicative relationship.

For example, if R(t) = 2, we have a situation in which each infected person infects two new individuals and the epidemic progresses rapidly as the group of the infected grows geometrically. On the contrary, if R(t) = 0.5, we have a situation in which only one of two already infected individuals manages to infect another individual, the epidemic disappears naturally because at each cycle of infectivity the number of infected individuals is halved. These relationships are very easy to understand and simple enough to illustrate. In this sense, it is really embarrassing to record that people responsible for the highest levels of public health, as is a regional health assessor, can make mystifying statements like

"Does the index at 0.51 mean? that to infect me you have to find two people at the same time infected because it is at 0.50; and this means that it is not so easy to find two infected people at the same time to infect me. This is the effectiveness of the action and what makes us feel comfortable and confident. "

We always avoided entering the political controversy related to the management of Covid-19, but when Science is distorted to such a point, simply to (falsely) reassure citizenship in the face of an alarming situation, we cannot fail to notice it. However, it must be said that there are many people capable of grasping the irony of the situation, some have said that the commissioner's statements are like saying that” with the birth rate at 0.5% to procreate every woman must have sex with two men at the same time”, or even "Do you know that jock about the guy that since there is a one billion chance that someone gets on a plane with a bomb, the probability that two of them get on that plane with a bomb becomes one in a billion billions and then the guy gets on the plane with a bomb? That guy is Gallera. " In short, in the end we have to thank the Lombardia health assessor, it has been a while since we found such a beautiful meme.


Meme ed edpidemiologia

In queste settimane di quarantena, molte persone si sono incuriosite, tra i tanti argomenti, di aspetti epidemiologici così legati all’evento che stava condizionando la vita quotidiana. Un elemento che è diventato molto popolare è l’indice R0, il numero di riproduzione di base. Ci siamo occupati di questo parametro molte volte, sappiamo che rappresenta una misura della “velocità” con cui una malattia infettiva inizialmente progredisce.
R0 è caratteristico dell’epidemia nella sua fase iniziale, successivamente per capire se eventuali misure di contenimento abbiano effetto, si considera il numero di riproduzione effettivo, che usualmente è indicato con R(t), in quanto riferito ad un generico giorno “t”. Potremo dire che il legame fra i due parametri è: R0=R(0), ovvero il numero di riproduzione di base coincide con il numero di riproduzione effettivo al giorno t=0 di inizio epidemia.
Sappiamo che nel corso del tempo, R(t) rappresenta il numero medio di persone che vengono contagiate da una persona già infetta, durante il periodo di infettività del virus. In generale R(t) dipende da tre quantità: dalla probabilità di contagio (P), dalla durata del periodo medio di infettività (D) e dal numero medio di contatti degli individui interessati (C), secondo una semplice relazione moltiplicativa.
Ad esempio, se R(t)=2, abbiamo una situazione in cui mediamente ogni contagiato infetta due nuovi individui e l’epidemia progredisce velocemente poiché il gruppo degli infetti cresce in modo geometrico. Al contrario, se R(t)=0.5, abbiamo una situazione in cui mediamente solo uno fra due individui già infetti riesce a contagiare un altro individuo, l’epidemia svanisce in modo naturale poiché ad ogni ciclo di infettività il numero degli individui infetti si dimezza.
Queste relazioni sono molto facili da capire e abbastanza semplici da illustrare. In tal senso, è davvero imbarazzante registrare che persone responsabili ai massimi livelli della salute pubblica, come è un assessore regionale alla Sanità, possano fare affermazioni mistificatorie del tipo
“L’indice a 0,51 vuol dire? che per infettare me bisogna trovare due persone nello stesso momento infette perché è a 0,50; e questo vuol dire che non è così semplice trovare due persone infette allo stesso momento per infettare me. Questa è l’efficacia dell’azione e ciò che ci fa stare tranquilli e confidenti.”
Abbiamo sempre evitato di entrare nella polemica politica legata alla gestione del Covid-19, ma quando la Scienza viene distorta a tal punto, semplicemente per (falsamente) rassicurare la cittadinanza a fronte di una situazione invece allarmante non possiamo non notarlo.
Va però detto che sono tante le persone capaci di cogliere l’ironia della situazione, c’è chi ha detto che le affermazioni dell’assessore sono come dire che con la natalità allo 0.5% per procreare ogni donna deve fare sesso con due uomini contemporaneamente, o anche "La sapete quella di quello che siccome c'è una probabilità su un miliardo che qualcuno salga su un aereo con una bomba, la probabilità che siano in due a salire su quell'aereo con una bomba diventa una su un miliardo di miliardi e quindi lui sale sull'aereo con una bomba? Ecco, è Gallera."
Insomma alla fine dobbiamo ringraziare l’assessore, era un po’ che non trovavamo un meme così bello.


venerdì 15 maggio 2020

On the absence of statistical culture


The Covid-19 pandemic, in addition to four million infected and three hundred thousand deaths, has brought with it an explosion of data, models, analyzes, and information. A real outbreak spread mainly online, through social networks that have given birth to dozens of ad hoc websites (including ours). Many data enthusiasts have declared themselves champions of statistical analysis, proposing models and forecasts that, over time, have proven more or less reliable. Although driven by noble intentions, often discordant forecasts and analyzes created a lot of confusion among non-experts, often generating a distorted perception of what was really going on.
The statistical community has started to protest, softly, on the other hand, the majority of statisticians are working at full speed and do not have time to team up or carry on highly visible full-time activities. Thus, the voice of the community remains somewhat muted.
But people are talking about this issue and the response to this protest from the "public" can be summed up in: "But what do statisticians want? Go more on television? They are already everywhere." This sentence sums up the thoughts of some very educated people, highly competent in their field, and of prestige. Sounds a bit like the phrase attributed to Marie Antoinette "are they asking for bread? Give them croissants! " and the part where they say that "they are already everywhere" denotes well the nature of the problem.

In the scientific-technical committees, Data Analysts are recruited more often than statisticians. The fact that the difference is not perceived depends on the total lack of a statistical culture of this country (as many other countries of course). Those who have not studied statistics in a formal or informal way have no idea of ​​the great importance that a simple but central concept has for anyone who studied it: statistics is meant to estimate unobserved quantities, for example predicting future quantities, but more SPECIFICALLY, it is meant to MEASURE the  UNCERTAINTY associated to these predicted quantities.
A simple example again linked to the Covid19. At the beginning of the epidemic, all StatGroup-19 members ventured into predicting the number of infected people from one day to the next, it seemed fundamental to understand how the epidemic curve was made (before knowing the hash behind the data). A method that gave semi-perfect point estimates at the regional level (it was a few dozen wrong even on regions with few contagions) provided huge 95% confidence bands around the curve of contagions, it was plausible to go from 0 to 1 million infected people passing through the exact value. Now I ask who follows us from the first day, have you ever seen those curves? No. We are all statisticians in the StatGroup-19 and a model that produces such uncertain estimates, even if reluctantly, we leave it in the drawer. Others, without even evaluating the uncertainty of their estimates, propose them to decide on everyone's life. But they are not statisticians.


Dell’assenza di cultura statistica


La pandemia di Covid-19, oltre a quattro milioni di infetti e trecentomila morti, ha portato con sé un’esplosione di dati, modelli, analisi e informazioni. Una vera e propria infodemia diffusa principalmente online, attraverso i social network che ha partorito decine di siti web ad hoc (incluso il nostro). Molti appassionati di dati si sono autoeletti a paladini dell’analisi statistica, proponendo modelli e previsioni che con il tempo si sono rivelati più o meno attendibili. Seppur mosse da nobili intenti, previsioni e analisi spesso discordanti hanno creato molta confusione tra i non addetti ai lavori, generando spesso una percezione distorta di ciò che stava realmente accadendo.
La comunità statistica ha cominciato a protestare, un po’ sommessamente, d’altra parte la maggioranza degli statistici sta lavorando a pieno ritmo e non ha tempo per fare squadra o attività altamente visibili a tempo pieno. Così, la voce della comunità resta un po’ in sordina.

Però se ne parla e la risposta a questa protesta ottenuta da parte del “pubblico” è riassumibile in : “Ma cosa vogliono gli statistici? Andare di più in televisione? Stanno già dappertutto” Questa frase riassume il pensiero di alcune persone anche molto colte, preparate nel loro campo e di prestigio. Suona un po’ come la frase attribuita a Maria Antonietta “chiedono pane? Dategli delle brioche!” e la parte in cui si dice che “stanno già dappertutto” denota bene la natura del problema.
Nei comitati scientifico-tecnici, nelle commissioni spesso entrano dei Data Analyst, non degli statistici. Il fatto che la differenza non venga percepita dipende dalla totale mancanza di cultura statistica di questo paese (come di molti altri sia chiaro). Chi non ha studiato statistica in modo formale o informale che sia, non ha idea della grande rilevanza che ha un concetto semplice, ma centrale per chiunque lo abbia fatto: la statistica serve sì a stimare quantità non osservate, ad esempio prevedere quantità future, ma SOPRATTUTTO, serve a MISURARE con quale INCERTEZZA queste quantità sono ottenute.


Esempio semplice e legato al solito Covid19. All’inizio dell’epidemia tutto lo StatGroup-19 si cimentava nella previsione del numero di contagiati da un giorno all’altro, ci sembrava fondamentale capire come fosse fatta la curva epidemica (prima di conoscere i pastrocchi sui dati poi evidenziati). Un metodo che dava stime puntuali semi-perfette a livello regionale (sbagliava di poche decine anche su regioni con pochi contagi) forniva delle bande di confidenza al 95% attorno alla curva dei contagi enormi, si poteva passare da 0 a 1milione di contagiati passando per il valore esatto. Ora chiedo a chi ci segue dal primo giorno, avete mai visto quelle curve? No. Noi siamo tutti statistici e un modello che produce stime così incerte, anche se a malincuore, lo lasciamo nel cassetto. Altri, senza nemmeno valutare bene l’incertezza di tali stime, le propongono per deciderci sopra la vita di tutti. Ma non sono statistici.


mercoledì 13 maggio 2020

The importance of confidence intervals


Anyone taking a basic statistic course learns what a confidence interval is. For the uninitiated, it is a range of plausible values ​​(with a fixed probability) that are obtained when estimating something with a statistical model/method.
These intervals play an extremely important role in understanding whatever phenomenon is being studied statistically. They tell us a story about risk. In fact, they consider the amount of available information  (sample size) and the potential variation of the estimate in the reference population. So they tell us in what interval the real answer can fall. They are therefore like a large warning sign placed above any estimate, warning to treat with caution the single number produced by the point estimate. They say "attention, you can't be more accurate than that, the observed (or predicted) reality moves from a minimum of x to a maximum of y".

If you have to make a decision based on some estimate, you need to look at how big this interval is, you have to know what the level of confidence is (and therefore its complement, the error),  all this becomes fundamental to prevent possible disasters.

Let's think a moment about what are the implications of ignoring a confidence interval (I don't consider it or I don't calculate it properly). I am a public decision-maker, I get a number from a model (statistical or not), for example, the number of ICU admissions following covid19 for the next day. Based on that number I have to decide whether to rush to open new beds or take another precautionary measure. I only have a number, perhaps not very high, I trust who produced it and therefore I assume it is precise. All right I go to sleep peacefully. Then in the middle of the morning, the head of the most important city hospital calls me saying that he no longer knows where to put the cases requiring intensive care ... ups. If instead of that single number I had received a range of values, which tells me with very high probability (99%) that the interval between x and y will contain the true number of hospitalizations, and y is greater than the capacity of my intensive therapies, I'd rush to take measures, because the risk of finding myself with saturated intensive care is very high.



But even in less dramatic situations, if I have to make a decision based on estimates, numerical models, and/or assorted simulations, having the opportunity to evaluate their reliability with some criterion, better if an interval, will allow me to save me and others in thousands of situations.

Gli intervalli di confidenza sono importanti.


Chiunque segua un corso base di statistica impara cosa sia un intervallo di confidenza. Per chi non lo sapesse è un intervallo di valori plausibili (con una fissata probabilità) che si ottengono quando si stima qualcosa con un modello/metodo statistico.

Questi intervalli rivestono un ruolo estremamente importante nella comprensione di qualsiasi fenomeno si stia studiando in modo statistico. Ci parlano di rischio. Infatti, considerano la quantità di informazione disponibile (dimensione del campione) e la variazione potenziale della stima nella popolazione di riferimento. Così ci dicono in quale intervallo può cadere la risposta reale. Sono dunque come un grosso cartello di allerta messo sopra qualsiasi stima, avvertendo di trattare con cautela il numero singolo prodotto dalla stima (puntuale). Dicono "attenzione, non puoi essere più preciso di così, la realtà osservata (o predetta) si muove da un minimo di x ad un massimo di y”.

Se dovete prendere una decisione sulla base di una qualche stima, guardare quanto è grande questo intervallo, sapere qual è il livello di confidenza (e quindi il suo complemento, l'errore), diventa fondamentale.

Pensiamo un momento a quali sono le implicazioni dell'ignorare un intervallo di confidenza (non lo considero o non lo calcolo proprio). Sono un decisore pubblico, ottengo un numero da un modello (statistico o meno), ad esempio il numero di ricoveri in terapia intensiva a seguito di covid19 per il giorno dopo, e sulla base di quel numero devo decidere se correre ad aprire nuovi posti letto o prendere un altro provvedimento cautelativo. Ho solo un numero, magari non molto alto, mi fido di chi lo ha prodotto e quindi assumo sia preciso. Tutto a posto vado a dormire sereno.  Poi a metà mattina mi chiama il primario dell'ospedale cittadino più importante dicendo che non sa più dove mettere i casi da terapia intensiva... ups. Se invece di quell'unico numero mi fosse arrivato un intervallo di valori, che mi dice con probabilità molto alta (99%) che l'intervallo tra x e y conterrà il vero numero di ricoveri, ed y è maggiore della capacità delle mie terapie intensive, io corro a prendere provvedimenti, perché il rischio di trovarmi con le terapie intensive sature è molto alto.



Ma anche in situazioni meno drammatiche, se devo prendere una decisione sulla base di stime, modelli numerici e/o simulazioni assortite, avere modo di valutarne l'affidabilità con un qualche sistema, meglio se un intervallo, mi permetterà di salvarmi in migliaia di situazioni.