Post in evidenza

Covid-19 la nostra app è sempre attuale

  Con l'assidua collaborazione  Marco Mingione  e  Pierfrancesco Alaimo Di Loro  abbiamo creato uno strumento web interattivo che consen...

domenica 10 gennaio 2021

One, none, one hundred thousand or two, is better than one?


What color are we today? It is the question we ask the first person we see every morning. As in the children's game "witch commands color," we stopped asking ourselves the reason for the choice of color, almost resigned. We talked about 21 indicators, designed and built to decide what we can and cannot do. Too many, redundant, and based on too old data to provide a timely response in an emergency. We discovered what Rt was and that a few decimals of Rt are precious to remain "yellow" and not pass "orange." As if there was only one way to estimate Rt. As if fixing the generation time needed to estimate Rt at the estimated values ​​for Lombardy in February made some logical sense. Rt, like the North Star of Italian epidemiology. Perhaps the only thing that everyone knows how to calculate given there is EpiEstim in R that does it for us.

In our opinion, decisions are best made on observed and updated data. Remember that data heterogeneity is already considerable (public data are anything but "clean"). Then why make everything even more uncertain by estimating values ​​whose reliability we do not know?

Suppose our aim is to block an area when the pressure on the health system is potentially unsustainable. In that case, we must use indicators that take it into account and indicators that allow us to understand the infection's state. There are many ways to follow, but we have been taught that we must start from simple things and, if not sufficient, move towards more complex approaches.

So let's start from here: not just one indicator but two. For example, let's take the weekly incidence (on the population residing in a region) and the average employment of the weekly intensive care units compared to the number of beds. With these two indicators on a graph, establishing, as an example, the two thresholds (30% for intensive care and 250 infections per 100 thousand inhabitants) already used by the government or proposed by the CTS, we obtain what is shown in the graph: Marche, Friuli, Trentino and Veneto in the red zone, 5 regions in the orange zone and the rest yellow.

It must be said that the situation is complicated. For example, Calabria carries out less than 1500 swabs per week per thousand inhabitants, bringing up the country's rear. It seems that it does not carry out surveillance activities. Maybe two indicators based on observed data are not enough, but at least we know exactly why we are yellow today and orange tomorrow.

Uno, nessuno, centomila oppure two is megli che uan?

Di che colore siamo oggi? E’ la domanda che ogni mattina facciamo alla prima persona che vediamo. Come nel gioco “strega comanda colore” abbiamo smesso di chiederci il perché della scelta del colore, quasi rassegnati. Abbiamo parlato di 21 indicatori, pensati e costruiti per decidere su ciò che possiamo e non possiamo fare. Troppi, ridondanti e basati su dati sempre troppo datati per fornire una risposta tempestiva in caso di emergenza. Abbiamo scoperto cosa fosse Rt e che pochi decimali di Rt sono preziosi per rimanere “gialli” e non passare “arancioni”. Come se ci fosse solo un modo per stimare Rt, come se fissare il tempo di generazione, necessario alla stima di Rt, ai valori stimati per la Lombardia a febbraio avesse qualche senso logico. Rt, come stella polare dell’epidemiologia italiana; forse l’unica cosa che sanno calcolare tutti, visto che c’è EpiEstim in R che lo fa per noi. 

A nostro avviso, le decisioni è meglio prenderle sui dati osservati e aggiornati. Visto che la loro eterogeneità è già grande (i dati pubblici sono tutt’altro che “puliti”), perché rendere tutto ancor più incerto andando a stimare valori di cui non conosciamo l’affidabilità?

Se il nostro scopo è bloccare una zona quando la pressione sul sistema sanitario è potenzialmente insostenibile, dobbiamo utilizzare indicatori che ne tengano conto e indicatori che ci permettano di capire lo stato del contagio. Le strade da seguire possono essere molteplici, ma ci hanno insegnato che si debba partire da cose semplici e, se non sufficienti, muoversi verso approcci più complessi.

E allora cominciamo da qui: non un solo indicatore ma due. Ad esempio prendiamo l’incidenza settimanale (sulla popolazione residente in una regione) e l’occupazione media delle terapie intensive settimanale rapportata al numero di posti letto. Con questi due indicatori su di un grafico, stabilendo, come esempio, le due soglie (30% per le terapie intensive e 250 contagi per 100mila abitanti) già utilizzate dal governo o proposte dal CTS, si ottiene quanto riportato nel grafico: Marche, Friuli, Trentino e Veneto in zona rossa, 5 regioni in zona arancione e il resto giallo. 

Va  detto che la situazione è complessa, ad esempio la Calabria effettua meno di 1500 tamponi settimana per mille abitanti, fanalino di coda del paese, sembra che proprio non faccia attività di sorveglianza. Magari due indicatori basati su dati osservati non bastano, ma almeno sappiamo esattamente perché oggi siamo gialli e domani arancioni

martedì 5 gennaio 2021

Vccines and Communication


A brief note on how mass communication is often approaching very delicate issues, such as vaccines, in a very rough way.

Two essential definitions:

Incidence: the ratio between the number of new cases observed over a fixed time-window and the number of people in the reference group (or population).

Prevalence: the ratio between the number of active cases in a given instant of time and the number of people in the reference group (or population)

How is the effectiveness of a vaccine measured? It is measured by the attributable risk. The attributable risk is estimated as (incidence in the placebo group - incidence in the vaccinated group) / (incidence in placebo).

Corriere della Sera ( offers us an interesting analysis, many numbers, many comments, little statistics. At first glance,  it is to be trusted, especially since it is promoted by Milena Gabanelli. Still, there is something wrong. What's the point of comparing the vaccine's estimated efficacy (the attributable risk) with the number of reinfections (the incidence)? The answer is simple, it doesn't make any sense. It's like comparing pears with fried potatoes.

Even if you want to derive the attributable risk of reinfection, you have to be very careful.

 Indeed, incidence always refers to a specific interval of time. Remark that the 1.8% reinfections reported by the Corriere are not referred to the same interval of time of vaccine evaluation. The attributable risk calculation only makes sense as long as the incidences are calculated over the same time interval, with similar circulation and transmissibility of the virus (therefore in the same geographical area as a minimum). The incidence is not intrinsic to the virus but results from the interaction between it and the population.

The very question posed by the Corriere makes little sense.

A vaccine is evaluated in terms of risks (of adverse events), costs, and benefits. The Pfizer vaccine, which is approved, and the Moderna, which is being approved, are safe and effective vaccines. The benefits in health, social and economic terms are so much greater than the risks that it is useless to even discuss them. Only those who have prejudices, or delusions of conspiracy, can think the opposite. EMA and AIFA are independent bodies that evaluate benefits and risks and then make informed decisions based on scientific evidence.

The Sweden model has largely failed ( The way to return to normal is the vaccine. We have just undertaken it, it will take time, but we are sure that we will get out of it.

Vaccini e comunicazione


Una breve nota su come la comunicazione di massa stia affrontando in modo spesso approssimativo questioni molto delicate, come quella dei vaccini.

Due definizioni fondamentali.

Incidenza: rapporto fra il numero di nuovi casi osservati in un fissato periodo di tempo e il numero di persone nel gruppo (o popolazione) di riferimento. 

Prevalenza: rapporto fra il numero di casi attivi in un dato istante di tempo e il numero di persone nel gruppo (o popolazione) di riferimento

Come si misura l'efficacia di un vaccino? Si misura con il rischio attribuibile. Il rischio attribuibile si stima come (incidenza nel gruppo placebo - incidenza nel gruppo dei vaccinati)/(incidenza nel placebo). 

Il Corriere della Sera ( ci propone un’analisi interessante, tanti numeri, molti commenti, poca statistica. A prima vista, soprattutto visto che a promuoverla a Milena Gabanelli, c’è da fidarsi. Eppure, c’è qualcosa che non va. Che senso ha confrontare 

l’efficacia stimata del vaccino (il rischio attribuibile) con il numero di reinfezioni (l’incidenza)? La risposta è semplice, non ha alcun senso. E’ come confrontare le pere con la patate fritte.

Anche volendo ricavare il rischio attribuibile di reinfezione, bisogna fare molta attenzione.

 Infatti, l'incidenza si riferisce sempre ad un intervallo di tempo, e quell'1.8% di reinfezioni che riporta il Corriere non è riferito allo stesso intervallo di tempo in cui è stato valutato il vaccino. Il calcolo del rischio attribuibile ha senso solo finché le incidenze sono riferite allo stesso intervallo di tempo, con analoga circolazione e trasmissibilità del virus (quindi nella stessa area geografica come minimo). L'incidenza non è intrinseca al virus, ma è frutto dell’interazione tra questo e la popolazione. 

La domanda stessa che si pone il Corriere ha poco senso.

Un vaccino si valuta in termini di rischi (di eventi avversi), costi, e benefici. Il vaccino Pfizer, approvato, e quello Moderna, in approvazione, sono vaccini sicuri ed efficaci. I benefici in termini sanitari, sociali ed economici sono talmente maggiori dei rischi, che è inutile anche discuterne. Solo chi ha pregiudizi, o manie di complottismo, può pensare il contrario. EMA e AIFA sono organi indipendenti che valutano benefici e rischi, per poi prendere decisioni consapevoli e basate su evidenze scientifiche.

Il modello Svezia ha ampiamente fallito ( La via per tornare alla normalità è il vaccino, l’abbiamo appena intrapresa, ci vorrà tempo, ma abbiamo la certezza che ne usciremo.

sabato 28 novembre 2020

Open Letter

 Since the beginning of the pandemic, the Italian Statistical Society (SIS) has repeatedly offered its expertise to help decision-makers and scientists to manage and study the situation. The former never listened. Yet, hundreds of scientific works have shown how such skills were essential in understanding and predicting events related to the pandemic.

In light of this premise, the SIS invites all civil society to sign the following open letter. To sign go here

Fight against COVID-19: high-quality data is needed for analysis and adequate skills to analyze it

The emergency due to the COVID-19 pandemic has highlighted the fundamental importance of the availability of reliable data and high skills in analyzing them to allow us to understand the pandemic, predict its evolution, prepare tools for both health policy and economic policy to face it, and evaluate the effects of the choices made.

It is increasingly evident that it is vital to offer competent support for a data collection inspired by quality criteria. We need to integrate available information using statistical criteria that protect this quality. And it is even more evident that, alongside the collection of high-quality data, there is a need to reclaim space for the scientific skills necessary to analyze them.

Why accessible data

To a large extent, the data necessary to construct adequate information are already collected by government agencies and bodies. Still, they are not made available to the scientific community. Confidentiality issues, and further unknown considerations, turn raw data into inaccessible information.

Currently, the available data are collected with the declared purpose of surveillance. Still, suppose the quality, the comparability between geographical areas, and the fundamental defining aspects are not guaranteed. In that case, any analysis of these data will be limited to monitoring the status quo, producing more projections than predictions. To study the epidemic's progress in detail, information is needed as detailed as possible to follow the individual pathways of contagion and clinical evolution.

On an aggregate level, the figures updated daily by the Civil Protection are available to all. We recognize and much appreciate the enormous work of data collection and dissemination carried out by this Agency. However, we note how, at this point in the evolution of the pandemic, what has been made available by the Civil Protection is no longer sufficient to make the government's decision-making mechanism and the scientific understanding of the evolution of the pandemic itself transparent.

In particular, based on this data, it is not possible to carry out some crucial activities.

Reproduce the quantitative bases of institutional decisions. This emerged in all evidence as regards the recent division of the country into three zones. How indicators are defined and constructed, and the criteria for determining final decisions must be transparent. The disaggregated data with which these indicators are fed must be made available. Only in this way can the scientific community be able to evaluate the methodologies used.

Ex-post assessment, quantitatively and rigorously, of the effects of decisions. An example of fundamental importance in this area is the choice of whether or not to close schools. Many researchers are trying to give a rigorous evaluation of the "school" effect; however, numerous scientific research on the subject does not yet provide shared conclusions. They are all based on aggregate data analysis.

Understanding still obscure aspects of the phenomenon. The Italian scientific world is rich in skills that could usefully investigate essential elements of the phenomenon based on disaggregated data in collaboration with the institutions and agencies involved in managing the epidemiological crisis.

Why adequate skills

Statistical skills are currently in high demand and very difficult to find around the world. They have become increasingly exclusive and rare given the ever-increasing demand, reinforced by the current COVID-19 emergency. For example, Pfizer, a pharmaceutical company at the forefront of vaccine development and distribution, will only share its data in research groups where a biostatistician conducts the analyzes. In Italy, the data currently collected in the wake of the emergency is affected by many problems and high variability. Therefore, they need, even more than other biomedical data, specific skills to correctly deal with elements of confounding, imbalance, and high variability. All these aspects cannot be managed correctly without having advanced statistical skills.

Timely and effective, methodologically reliable, and shared answers are obtained when the right skills are involved in collecting and validating data and the same analysis. The scientific process requires numerous steps, in each of which specific skills are necessary for a correct construction of the information tools.

Definition of the problem. First of all, it is essential to define what needs to be observed to answer the questions of containment, monitoring, and forecasting of the epidemic and its impact in the social and economic sphere. Diversified skills are needed in this process. Highly multidisciplinary teams, within which scientists from different areas can interact, are necessary to address all aspects of the problem. In this phase, on the one hand, the primary data required for the analyzes must be defined and, on the other, the construction and implementation of harmonization protocols between the different data sources.

Management of databases. Specific computer and statistical skills are required to construct and manage data archives with massive flows of information. The data must not only be stored/saved but, above all, validated quickly to give timely answers and to ensure public access.

Information analysis. In this phase, the ability to define and develop models capable of grasping the underlying characteristics of the phenomenon of interest, highlighting potential causal relationships, defining specific estimation procedures for unknown quantities and indicators, and building predictions that take into account the uncertainty that accompanies each estimate.

Sharing of information. Different analysis models need to be compared, for example, in terms of predictive ability, interpretability, and robustness. To this end, it is desirable to establish periodic meetings, at least twice a week, between the researchers who develop the models and the institutions that could use them, openly and transparently, to share the best solutions.

Dissemination of information. We are supporters of access to data by the entire scientific community. Accepting this request would allow greater transparency on the part of politics. It would enable civil society to obtain reliable and certifiable information. However, accessibility must be accompanied by an incisive and growing promotion of quantitative culture in all areas, starting with communication operators and political decision-makers.

It should be noted that this document asks for access to detailed data, and this access is not new to the national information system. In fact, on matters of an economic nature, the information is available in great detail. This point allows interested parties to analyze and process any type of issues (for example, data produced by ISTAT, Bank of Italy, Chambers of Commerce).

It should be strongly emphasized how the right skills are fundamental for analyzing such a complex phenomenon as the COVID-19 pandemic. The enormous variability observed at global, national, and regional levels must be incorporated into the assessments that lead to political and economic decisions. Knowing how to distinguish between association and causal relationships concerning observations and variables included in the analysis models is fundamental to avoid decisions based on random variations and/or spurious effects.

Il Manifesto


Ci siamo, è il momento di agire!
Si discute di dati accessibili ai ricercatori e di competenze specifiche necessarie all’analisi dei dati e al supporto delle decisioni politiche.
Gli statistici ci sono, ci sono sempre stati. La Società Italiana di Statistica è in prima fila per la promozione delle competenze, centrali per un’analisi corretta dei dati, competenze che solo chi ha veramente studiato statistica ha. Un manifesto, un ribadire la centralità dei dati e delle competenze, in un momento storico in cui è difficile districarsi tra analisti dei dati improvvisati e sciamani della comunicazione scientifica. Non è un lavoro per tutti, la SIS lo ribadisce chiaramente e, oltre a chiedere trasparenza, rivendica il ruolo della Statistica e del profilo dello statistico come scienziato.

Per firmare andate qui e di seguito trovate il testo della lettera aperta.

Lotta al COVID-19: sono necessari dati di alta qualità per le analisi e competenze adeguate per analizzarli

L’emergenza dovuta alla pandemia da COVID-19 ha messo in luce l’importanza fondamentale della disponibilità di dati affidabili e di competenze elevate nell’analizzarli per permettere di comprendere la pandemia, prevederne l’evoluzione, approntare strumenti sia di politica sanitaria che di politica economica per affrontarla e valutare gli effetti delle scelte effettuate.
È sempre più evidente come sia fortemente necessario offrire un supporto competente per una raccolta di dati ispirata a criteri di qualità ed integrare informazioni disponibili sulla base di criteri statistici che tutelino tale qualità. Ed è ancor più evidente come, accanto alla raccolta di dati di alta qualità, occorra reclamare spazio per le competenze scientifiche necessarie per analizzarli.

Perché dati accessibili

In larga misura i dati necessari alla costruzione di informazioni efficaci vengono già raccolti da Enti e Agenzie governative, ma non sono resi disponibili alla comunità scientifica. Problemi di riservatezza, e ulteriori considerazioni non note, trasformano i dati grezzi in informazioni non accessibili.
Attualmente i dati disponibili sono raccolti con il dichiarato scopo di sorveglianza, ma se non ne viene garantita la qualità, la confrontabilità tra aree geografiche e gli aspetti definitori fondamentali, qualsiasi analisi di tali dati si limiterà ad un monitoraggio dello status quo che produrrà proiezioni più che previsioni. Per studiare in dettaglio l’andamento dell’epidemia occorrono informazioni il più possibile dettagliate, che permettano di seguire i percorsi individuali di contagio e di evoluzione clinica.
A livello aggregato, sono disponibili a tutti le grandezze aggiornate giornalmente dalla Protezione Civile. Riconosciamo e apprezziamo molto l’enorme lavoro di raccolta e diffusione dei dati compiuto da questa Agenzia. Notiamo però come, a questo punto dell’evoluzione della pandemia, quanto reso disponibile dalla Protezione Civile non sia più sufficiente per rendere trasparente il meccanismo decisionale del governo e la comprensione scientifica dell’evoluzione della pandemia stessa.

In particolare, sulla base di questi dati non è possibile svolgere alcune attività cruciali.
Riprodurre le basi quantitative delle decisioni istituzionali. Questo è emerso in tutta evidenza per ciò che riguarda la recente suddivisione del Paese in tre zone. Devono essere trasparenti le modalità con cui vengono definiti e costruiti indicatori e i criteri per determinare le decisioni finali. È fondamentale che i dati disaggregati con cui questi indicatori vengono alimentati siano resi disponibili. Solo così la comunità scientifica può essere messa in grado di valutare le metodologie usate.
Valutare ex-post, in modo quantitativo e rigoroso, gli effetti delle decisioni. Un esempio di fondamentale importanza in questo ambito è la scelta della chiusura o meno delle scuole. Molti ricercatori stanno tentando di dare una valutazione rigorosa dell'effetto “scuola”, tuttavia le numerose ricerche scientifiche sul tema non forniscono ancora conclusioni condivise, essendo tutte basate sull'analisi dati aggregati.
Comprendere aspetti ancora oscuri del fenomeno. Il mondo scientifico italiano è ricco di competenze che potrebbero utilmente investigare aspetti importanti del fenomeno sulla base dei dati disaggregati, in collaborazione con le Istituzioni e le Agenzie coinvolte nella gestione della crisi epidemiologica.

Perché competenze adeguate

Le competenze statistiche sono attualmente molto richieste e molto difficili da trovare in tutto il mondo. Sono diventate sempre più esclusive e rare data la richiesta in continuo aumento, rinforzata dall’attuale emergenza COVID-19. Ad esempio, la Pfizer, società farmaceutica in prima linea per lo sviluppo e la distribuzione del vaccino, condividerà i propri dati solo in gruppi di ricerca in cui sia un biostatistico a condurre le analisi. In Italia, i dati raccolti attualmente, sull’onda dell’emergenza, sono affetti da molti problemi e da un’elevata variabilità. Hanno dunque bisogno, ancora più di altri dati biomedici, di competenze specifiche che permettano di trattare correttamente elementi di confondimento, sbilanciamento ed alta variabilità. Tutti questi aspetti non possono essere gestiti correttamente se non avendo competenze avanzate di statistica.
Risposte tempestive ed efficaci, metodologicamente solide e condivise si ottengono nel momento in cui le giuste competenze sono coinvolte nella raccolta e validazione dei dati e nell’analisi degli stessi. Il processo scientifico richiede numerosi passaggi, in ciascuno dei quali competenze specifiche sono necessarie per una corretta costruzione degli strumenti informativi.
Definizione del problema. In primo luogo, è fondamentale definire cosa occorre osservare per rispondere alle domande di contenimento, monitoraggio e previsione dell’epidemia e del suo impatto in ambito sociale ed economico. In questo processo occorrono competenze diversificate. Gruppi altamente multidisciplinari, al cui interno possano interagire scienziati di aree diverse, sono necessari per affrontare tutti gli aspetti del problema. In questa fase si devono da un lato definire i dati di base necessari alle analisi e dall’altro costruire ed implementare protocolli di armonizzazione tra le diverse fonti di dati.
Gestione delle basi dati. Competenze specifiche di tipo informatico e statistico sono necessarie per la costruzione e gestione di archivi dati con grandi flussi di informazione. I dati non vanno solo memorizzati/salvati, ma soprattutto validati in tempi rapidi per dare risposte tempestive e per garantirne l’accesso pubblico. 
Analisi dell’informazione. In questa fase diventa fondamentale la capacità di definire e sviluppare modelli capaci di cogliere le caratteristiche di fondo del fenomeno di interesse, che permettano di evidenziare potenziali relazioni causali, di definire specifiche procedure di stima per quantità non note ed indicatori, e di costruire previsioni che tengano conto dell’incertezza che accompagna ogni stima.
Condivisione dell’informazione. È necessario confrontare diversi modelli di analisi, ad esempio in termini di capacità predittiva, interpretabilità e robustezza. A tal fine è auspicabile istituire momenti di confronto periodico, a periodicità almeno bisettimanale, fra i ricercatori che sviluppano i modelli e le istituzioni che li potrebbero impiegare, in modo aperto e trasparente, al fine di condividere le migliori soluzioni.
Diffusione dell’informazione. Siamo sostenitori dell’accesso ai dati da parte di tutta la comunità scientifica. L’accogliere tale richiesta permetterebbe una maggiore trasparenza da parte della politica e consentirebbe alla società civile di ottenere informazioni affidabili e certificabili. L’accessibilità va però accompagnata da una incisiva e crescente promozione della cultura quantitativa in tutti gli ambiti, a partire dagli operatori della comunicazione e dai decisori politici.

È da notare che in questo documento si chiede l’accesso a dati dettagliati, e questo accesso non è cosa nuova per il sistema informativo nazionale. Infatti, su argomenti di natura economica, le informazioni sono reperibili al massimo dettaglio consentendo, a chi interessato, di condurre analisi ed elaborazioni di qualsiasi genere (ad esempio, i dati prodotti da ISTAT, Banca d’Italia, Camere di Commercio).
Va sottolineato con forza quanto le giuste competenze siano fondamentali per l’analisi di un fenomeno tanto complesso come la pandemia di COVID-19. L’enorme variabilità osservata a livello globale, nazionale e regionale, deve essere incorporata nelle valutazioni che conducono alle decisioni politiche ed economiche. Saper distinguere tra associazione e relazioni causali con riferimento a osservazioni e variabili incluse nei modelli di analisi è di fondamentale importanza al fine di evitare decisioni basate su variazioni casuali e/o effetti spuri.

sabato 21 novembre 2020

Science, Statistics and Democracy

 This beautiful monologue by Alessia Ciarrocchi at #propagandalive gave us the starting point for a reflection. The Science of which Alessia Ciarrocchi tells us, the one that embodies democratic values, was born a few centuries ago when Galilei revolutionized how we looked at nature. Galilei formalizes something that moved in the thought of his time: the scientific method.

Since then, studying reality has followed a rigorous path based on the observation of a phenomenon, the formulation of a possible explanation of the same, which must then be validated by collecting (appropriately) observations and analyzing the results of the observation (experiment). From these results, it is decided whether to accept, reject, or partially modify the explanation given and then start again with the same procedure.

In this description of the scientific method, it is immediately apparent where Statistics enters. It is the pillar of this research path: In part, it enters into the definition of the mathematical model that describes the initial explanation, provides the methods for designing the observation, and the correct techniques to analyze the result in the light of the formalization given by the mathematical model initial.

Statistics is not a specific science understood as a homogeneous body of knowledge of a field of reality. Still, it represents the methodological foundation of the whole of Science, and for this reason, its role becomes central today. Statistics allows the quantitative verification of political decisions, allows for dismantling the hoaxes, in short, allows the control of democratic values, especially now, at the time of the "data society."