Post in evidenza

Covid-19 la nostra app è sempre attuale

  Con l'assidua collaborazione  Marco Mingione  e  Pierfrancesco Alaimo Di Loro  abbiamo creato uno strumento web interattivo che consen...

martedì 31 marzo 2020

Picco. Con la O?

Alcuni giornali riportano tutti i giorni nuove stime puntuali del picco. Puntuali, cioè una data precisa. E con la o, cioè singolare. Vogliamo quindi chiarire alcuni punti.
Consideriamo, per capirci, gli infetti rilevati. Per cominciare, esistono due tipi di picchi: il picco epidemico e il picco dei casi. Il picco epidemico è il momento in cui il numero di nuovi infetti rilevati giornaliero è massimo (i nuovi positivi), il picco di casi è il momento in cui il numero di casi in circolazione (gli attualmente positivi) è massimo, prima di iniziare a scendere.
Per i matematici, nel picco epidemico la derivata è massima, nel picco di casi da positiva diventa negativa. Spieghiamola immaginando un disegnino: la curva sale veloce, poi rallenta (il picco epidemico) e arriva piano piano a un massimo (il picco di casi); poi scende. In secondo luogo, ogni indicatore non cumulativo ha i suoi due picchi. Ovvero c'è un picco epidemico e un picco di casi degli infetti rilevati, un picco epidemico e un picco di casi degli ospedalizzati in terapia intensiva, un picco epidemico e un picco di casi degli asintomatici, eccetera. Tutti in momenti diversi, legati tra loro: se il picco epidemico dei positivi è in una certa data, il picco epidemico dei ricoveri è pochi giorni dopo e quello dei decessi è ancora successivo.
E' per questo che in Lombardia, ad esempio, mentre i nuovi ricoveri ora scendono i decessi giornalieri sono ancora alti. Quindi abbiamo diversi indicatori non cumulativi (ospedalizzati, terapie intensive, isolamento domiciliare, attualmente positivi), ognuno dei quali ha due tipi di picchi in momenti diversi. E chiaramente un solo picco epidemico per ciascuno di quelli cumulativi (casi totali, decessi, guariti). Fate voi la somma e contate quanti picchi ci sono, quindi.
Mal di testa? Non è finita qua. In realtà ha poco senso parlare dei picchi nazionali. Questi sono la somma di andamenti anche molto diversi nelle varie aree del paese, e l'epidemia in questo momento non comunica tra le diverse aree. Anche parlare di picchi regionali ha poco senso, bisognerebbe valutare a livello di comune o almeno di provincia; ma per semplicità moltiplichiamo solo per 20 (il numero di regioni italiane) il numero precedente. Quanto fa? E allora perchè si parla di picco con la O?
Infine, è doppiamente sbagliato dare una data precisa. Per ragioni statistiche: andrebbe dato un intervallo di confidenza, visto che parliamo di una stima; a meno che non abbiate fatto le previsioni con la palla di vetro. Ed è sbagliato per ragioni epidemiologiche: un picco epidemico non è un giorno, ma un periodo.Per cui non c'è una data del picco epidemico degli infetti nel Lazio, c'è un intervallo di tempo in cui si entra nel picco, vi si permane oscillando un po', e poi lo si sorpassa. Volendo fare i pierini, andrebbero date almeno due date, quella di ingresso e quella di uscita.
Per ogni tipo di picco. Per ogni indicatore. Ehi, ma noi siamo pierini: moltiplichiamo ancora per due.
Nota: i positivi rilevati non sono un buon indicatore dell'andamento reale dell'epidemia. I ricoveri, già molto meglio. Pertanto se si raggiunge o supera il picco epidemico dei ricoveri, si può affermare che il picco epidemico degli infetti reali, rilevati e non rilevati, sia iniziato qualche giorno prima; anche se non li si sa misurare. Tralasciando il fatto che ci piacerebbe tanto, avendo i dati opportuni, stimare questo numero.
A suo tempo abbiamo dato su questa pagina e poi su Avvenire la notizia dell'ingresso nel picco epidemico degli infetti in Lombardia, ora superato. Il picco di casi degli infetti, in Lombardia, non è ancora arrivato; mentre sono fortunatamente arrivati o addirittura superati altri tipi di picchi epidemici.
Una nota a chiusura: valutiamo quasi ogni giorno, regione per regione, tutti i tipi di picchi. Per molte regioni è in arrivo, arrivato, o superato il picco epidemico reale di infetti, in alcune addirittura quello dei ricoveri. Dato il basso numero di casi di molte regioni, e quindi l'alta incertezza, abbiamo preferito non darne comunicazione pubblica per non diffondere informazioni che potevano essere imprecise. Il picco di casi infetti reali, però, non sembra essere ancora arrivato in nessuna area, per cui stiamo a casa.

domenica 29 marzo 2020

Data and conspiracies

(picture taken from here)
One of the major problems that have surfaced in facing this epidemic is the fragmented management of the whole Italian health system. This regional fragmentation affects data management and collection in particular. Data that will be then used as the basis for models to understand and predict the phenomena which are affecting all of us, citizens and decision-makers alike. Indeed, the importance of good level information cannot be overstated: without it, good resource management is hard, and good decision-making is even harder.
For several years now health data in Italy is collected at a local level and is only later transmitted to central offices such as Istat [Italian National Institute of Statistics] and ISS [Italian National Institute of Health]. The latter two then proceed to check and clean the data before standardizing and coherently organizing it. This process is extremely important but also a lengthy one.
The shortcomings of this system are becoming increasingly exposed in this time of crisis, where near-real-time information is direly needed. It indeed appears that every region, province, and sometimes even municipality handle data and work according to “their own way”. The result is that the data which gets relayed to central offices and authorities is “extremely dirty”. Positive cases are a mixture of effects from the previous days, death counts are based on hard-to-obtain death certificates, swab test reports, and anything else the ISS task force can get their hands on. To mention just a few examples. Once again, the result is data that is extremely hard to read. Then there is the separate issue of obtaining data at an individual level, which would be extremely useful in monitoring and understanding the actual level of infections in the general population. Unfortunately, these are nowhere to be found.
The end result is the spread of theories amongst the public citing hampering, closed-door conspiracies and other misinformation. The truth is simply a broken system in dire need of reform.

(Translation by Gabriele Fabozzi)

venerdì 27 marzo 2020

I dati e i complotti

Uno dei problemi più seri per fare fronte a questa situazione epidemica è la gestione regionalizzata di tutto l’apparato sanitario, in particolare delle informazioni di carattere sanitario, che sono quelle su cui possiamo fondare l'utilizzo di modelli e metodi per capire e prevedere i fenomeni che stanno a cuore a tutti, cittadini e decisori politici: per una buona gestione è chiaro a tutti come sia necessaria una buona informazione. Da anni ormai le informazioni sanitarie sono raccolte a livello locale e solo in un secondo momento trasmesse agli uffici centrali, come l’Istat o l'Istituto Superiore di Sanità (ISS), che provvedono ad un controllo di coerenza e qualità. Questo processo di validazione dell’informazione è fondamentale, ma è lungo, ha bisogno di tempo. In momenti come questo, in cui occorrono informazioni in tempo reale, emerge come ogni regione, provincia e persino comune finisca con il lavorare “a modo suo”. Quello che ne emerge è che il dato che arriva a livello centrale è “sporchissimo”. I casi positivi sono una mistura di effetti di più giorni precedenti, i decessi sono quelli che i componenti della task force ISS riescono a reperire faticosamente analizzando schede di morte, tamponi e ogni altro mezzo riescono ad avere a disposizione. Insomma le informazioni diventano di difficilissima lettura. Poi ci sono delle informazioni che sarebbero fondamentali per capire il contagio reale nella popolazione, ovvero i dati a livello di singoli individui, ma questi sembra non siano proprio disponibili presso nessuno.
L’effetto finale sul pubblico di questa enorme confusione è che si pensa alla manipolazione, al complotto, al genio del male che gestisce ogni cosa: e invece si tratta solo di un sistema che funziona molto male.

foto presa qui

martedì 24 marzo 2020

Read the data

Data: as usual, the issue is how to read it. As we were saying here, it is crucial to “read the manual”. Besides the issue of data quality, it is important to fully understand how the various figures are defined. The first figure, contained in the daily 6 PM bulletin from Protezione Civile, is the total number of Covid-19 cases defined as currently positive. If incorrectly interpreted, this figure may lead to confusion. Indeed, the number of currently positive cases (abbreviated Cp) is given by an equation relating total cases (Tc), cases where the patient has recovered (R), and deaths (D). This relation can be expressed as
Cp = Tc – R – D
Why is this important? When Protezione Civile refers to the new number of currently positive cases in their bulletins, this is not a data point that is directly measured. Hence the confusion. In some situations, this value might even be negative. If for example there were 1000 new Covid-19 cases, 600 recoveries, and 500 deaths on any given day, the resulting number of currently positive cases would be -100! When reading a data table or tuning into a bulletin, always pay attention to what type of count is being referred to, and most importantly how it is measured.

(Translation by Gabriele Fabozzi)

Leggere i dati

I dati, il solito problema è come leggerli. Come dicevamo qui, bisogna leggere il manuale. A parte le considerazione sulla loro qualità dobbiamo stare attenti a come sono definite le diverse cifre. Durante la conferenza stampa delle 18:00, con riferimento al numero di casi di CoviD-19, la Protezione Civile riporta sempre come primo dato "il numero di casi attualmente positivi". Questo dato, se non approfondito in modo opportuno, può portare a ragionamenti confusi. Infatti i casi attualmente positivi, indichiamoli con "Ca" sono il risultato di un saldo fra 3 diversi conteggi: i casi totali positivi identificati (Ct), i casi totali di guarigione (Cg) e i casi totali di decesso (Cd), secondo la seguente relazione
Ca=Ct-Cg-Cd
In tal senso, quando la Protezione Civile riporta l'incremento dei "casi attualmente positivi" di quella giornata specifica, questo rappresenta un valore non misurato direttamente, un garbuglio dal punto di vista concettuale. Infatti in alcune situazioni potrebbe anche essere negativo. Se ad esempio oggi osservassimo 1000 nuovi casi di CoviD-19, 600 guarigioni e 500 decessi, l'incremento dei casi attualmente positivi sarebbe -100 da aggiungere a Ca (!) Quando ascoltate il bollettino o leggete qualche tabella, fate sempre attenzione a che tipo di "conteggio" ci si riferisce e come è definito il valore misurato.


domenica 22 marzo 2020

Keep calm and read the manual

In the current situation, death toll reports are some of the most distressing pieces of information that one can come across. It would appear that the number of deaths due to Covid-19 in Italy is very large with respect to the rest of the world. Given that we are not experts in mortality nor in Italian death registration procedures, we asked our friend and colleague (now retired but still very active!) Viviana Egidi, full professor of health statistics at “La Sapienza” University of Rome.
Let us, therefore, have a closer – and global – look at how deaths are usually registered.
In general, after the death of a patient, a medical certificate of cause of death (MCCD) has to be filled in. Indeed it is form agreed in its content and organization with the World Health Organization. This certificate has various sections. The first part refers to the late patient’s health situation and is filled in by the doctor who is certifying the patient’s death. The first section of this part of the certificate refers to the process that leads to the patient’s death. The leading cause of death – i.e. the cause that started the patient’s death process – is listed first, followed by a list of any of its possible consequences (other diseases or physical deficiencies) which were part of the death process. Each term in the said list has an associated code determined by the World Health Organization (WHO) agreements.  Covid-19 is a new cause of death; like other viruses, SARS-CoV-2 causes double pneumonia. However, being a new virus, it required a new specific its WHO codification; a new exclusive code had to be assigned to it. The identification of the leading cause of death depends on how the doctor interprets the clinical picture. For example, in the presence of a tumor and infectious disease such as pneumonia, the doctor might register the leading cause of death as “tumor”, especially if in a terminal stage. If the tumor is instead at an early stage, the doctor might list pneumonia as the leading cause of death and cite the presence of the tumor as secondary. The certificate is then transmitted, checked, and encoded in a long and complex process which we will cover in a future article.
The current situation is very different. Ordinary channels of information management have been altered in order to gain information quickly. A group of experts has been assembled at the Istituto Superiore di Sanità (ISS) [translator’s note: Italian National Institute of Health] to receive information for each death where the patient had resulted positive to Covid-19. They are firstly notified by the laboratory responsible for certifying swab tests (Spallanzani hospital in Rome). Furthermore, they receive the usual MCCDs (the above-mentioned case of death certificates), and, among these, they also analyze randomly sampled clinical pictures. Laboratory notifications and the death certificates are especially important in determining whether the leading cause of death was Covid-19, which, if present, is generally presumed as such. Germany has instead decided to classify as “Covid-19 deaths” only those cases where the latter was the leading death cause.
It must also be noted that the life expectancy of Italians is currently very high, and the quality of life is very good. This is due to the fact that it is possible - and likely - to go through old age in the presence of some diseases. 67% of people aged 75+ live with 3 or more serious chronic diseases. Women at age 75 can easily expect to live 10 more years, while men can expect to live at least 5 more years. It is therefore important to stay home to protect everyone and to allow everyone to live happily and long.

(Translation: Gabriele Fabozzi)

Niente Panico e leggiamo il manuale

Una delle informazioni che produce molta angoscia a tutti in questo momento è il bollettino dei decessi. Sembra che in Italia il numero di morti dovuti al Covid-19 sia altissimo rispetto al resto del mondo. Dato che non siamo esperti di mortalità e di come vengono registrati i decessi in Italia, siamo andati a chiedere alla  nostra amica Viviana Egidi ordinario di statistica sanitaria all’università di Roma “La Sapienza” (ora in pensione e ancora attivissima!).

Vediamo allora come, in accordo con tutto il mondo, vengono registrati i decessi in condizioni normali.
Nella normalità viene compilata una scheda di morte divisa in diverse parti. La prima parte riguarda la situazione sanitaria ed è compilata dal medico che certifica la morte. La prima sezione riguarda il processo che ha condotto alla morte si parte con la causa che ha dato avvio al processo di morte, la prima causa, poi si elencano tutte sue eventuali conseguenze  ” (malattie e carenze fisiche) che fanno parte di questo processo, una per riga diciamo. Ogni termine sarà  associato ad una codifica concordata a livello mondiale tramite l’organizzazione mondiale della sanità.  Il covid19 è nuovo, provoca una polmonite bilaterale come altri virus ma essendo un virus nuovo non ha ancora una codifica specifica dell’OMS, infatti è stato necessario creare un  codice apposito. Il riconoscere la causa primaria dipende dal medico e da come interpreta il quadro clinico, ad esempio se è presente un tumore e una malattia infettiva come la polmonite, può registrare la causa primaria come tumore soprattutto se in fase terminale, se invece il tumore non è tanto avanzato dirà che il decesso dipende dalla malattia infettiva in presenza di un tumore.  Poi si procede al processo di trasmissione, controllo e codifica delle informazioni che è lungo e complesso (ne parleremo in un altro momento).

Attualmente le cose sono molto diverse, la situazione è eccezionale e quindi i normali canali di gestione dell’informazione sono cambiati per cercare di avere informazioni velocemente. E’ stato organizzato un gruppo di esperti presso l’Istituto Superiore di Sanità che riceve diverse informazioni per ciascun decesso positivo al test del coronavirus, acquisiscono le notifiche dal laboratorio che certifica i tamponi (Spallanzani),  la scheda di morte usuale e analizzano cartelle cliniche prese a campione. Soprattutto le prime due fonti combinate permettono di decidere  se le persone sono o meno morte a causa del coronavirus, se è presente la morte è presumibilmente attribuita al virus anche se sono presenti altre patologie in molti casi. La Germania ad esempio ha deciso che come morti a causa del covid-19 prende solo quelli che presentano solo questa causa.

Va poi detto che al momento la speranza di vita degli italiani è molto alta, la qualità della vita molto buona ma questo non perché siamo vecchi e sani come pesci, ma perché da vecchi possiamo convivere benissimo con la presenza di alcune patologie. Il 67% della popolazione oltre i 75 anni convive con più di due patologie croniche gravi. Se si tratta di donne la speranza di vita ci dice che a 75 anni possono avere tranquillamente altri 10 anni da vivere, se sono uomini almeno altri 5.  Insomma stiamo a casa per difendere tutti e permettere a tutti di continuare a vivere a lungo serenamente.



venerdì 20 marzo 2020

The logistic curve and the peak in Lombardy


Using a 5-parameter logistic growth curve – as suggested by Gabriele Sene – we estimated that the peak of new positive Covid-19 cases in Lombardy could be today (18/03/2020) or within the week.
Therefore, compatibly with the data collection and handling processes, we should start measuring a drop in the number of daily new cases in Lombardy either today, tomorrow or the day after tomorrow at the most.
We note that it is not currently possible to estimate the peak at a national level and/or regional level (for other regions).  This is because the effects of the containment measures that have been adopted are not quantifiable. These effects will start to kick in next week.
We also note that this estimate refers to the peak of new positive cases. This does not rule out the possibility of seeing a rise of other indicators in Lombardy, such as intensive care hospitalizations.
In the graph below, the upper panel shows the logistic fit for the number of cumulative cases, while the lower panel shows the fit for the number of daily new positive cases. The model estimates the peak at 12 hours after the last observation, which was at 18:00 on 17/03/2020, with a slight uncertainty.
We continue urging caution when producing these estimates, but it is nevertheless striking how closely the data matches the predicted curve.

(Translation by: Gabriele Fabozzi)

Understanding the effects of R0

In epidemiology, the R0 parameter represents the expected number of secondary cases produced by a single infected individual.  It varies through time, space, and among sick individuals.
This post’s objective is simply to show the large difference between R0 < 1 and R0 > 1, even when the actual values are numerically close.
With R0 < 1 (upper panel in the graph), following an incubation period (in the case of Covid-19, 14 days) the number of new cases inexorably drops (the faster the closer R0 is to zero).
With R0 > 1 (lower panel in the graph), the number of new cases increases until it reaches a peak, where the number of overall infected people is huge (for Covid-19 estimates vary between 20% and 70% of the total population) before it starts dropping. The greater R0 is with respect to 1, the higher the peak and the sooner it will arrive.
It is important to note the difference in scale between the two graphs. With R0 < 1, the drop from 20000 cases is very fast. On the other hand, with R0 > 1 the number of cases reaches the millions range very fast.

NB. The scenarios depicted in the graphs are only partially likely for the current pandemic. Many important (and unknown) factors, such as the contact networks between all of us, are not considered. Therefore, although there have been diseases with higher R0 values, it is important to keep in mind that the displayed progression would not match reality even though the actual R0 were equal to one of the values shown in the graphs.

(Translation by: Gabriele Fabozzi)

Why go for a Poisson regression and not for a log-scale linear regression


This post’s purpose is to clarify some aspects of the analysis of data describing an epidemic. The available data is composed of positive integers, i.e. counts. They keep track of how many people get sick, how many people recover, how many people die, etc... In the case of an epidemic, counts are observed on a time scale.
Counts have an important and almost ever-present characteristic: their trend and their dispersion (i.e. their mean and variance) vary jointly, i.e. they are dependent. With continuous data (for example measurements) we may have very large values very close to each other, or very small values very far from each other. With count data this is generally not the case: series with generally large counts are more variable than series with generally small counts. This is not an abstract fact; it is instead, an observable and measurable behavior, which can influence the way in which counts can be mathematically described.
Anyone with some elementary math knowledge, the first thing that comes to mind when looking at the way an epidemic spreads from the start is “it grows exponentially!”. It would, therefore, seem natural to take the logarithm of the counts and then draw a straight line through the data.
The intuition behind this is correct but it does not consider the issues mentioned above. When dealing with a time-evolving count process – such as an epidemic – as time goes on the mean and variance of the data will change depending on each other. “Drawing a straight line” instead implies that the trend and variability of the data behave independently on one another.
The correct approach when dealing with count data is to use generalized linear models (GLM), introduced in the 1970s. GLMs take the type and behavior of data into account and allow the application of linear regression schemes even to Poisson or Negative Binomial models, which generally do a better job at describing this type of data.
Of course, the issues outlined above can be neatly and elegantly formalized. This, however, might not be the place to delve into mathematical rigor.
There is another very relevant point that is worth mentioning: to assume an exponential growth is to assume that counts may grow to infinity. This is true both for linear regressions on log-transformed data and for Poisson or Negative Binomial regressions. This means that these approaches are limited to short-term analyses. In the medium-term, cumulative counts will saturate according to a curve with an asymptote. In this case, one should use Poisson or Negative Binomial GLMs with asymptotic growth curves.

Estimate of new positive cases in the early days of the epidemic

The need to provide fast estimates of new positive Covid-19 cases has led us to develop a model which, although not optimal, has proven to be very effective. We are constantly improving it.
The approach we implemented tries to approximate the two steps which lead to the detection of a new “case”: a screening step and a diagnostic test. In this epidemiological setting, the screening step has the following characteristics. Alleged positive individuals either autoselect themselves by reporting their symptoms to health authorities or are pinpointed through connections with previously confirmed positive cases. Then the diagnosis is obtained via a swab test.
In the first step, the number of daily swab tests is estimated via an Integer-valued AutoRegressive (INAR) model, i.e. an integer-valued time series model. In this first step, we predict the change in the number of daily swab tests. From February to March the process, and therefore also the model, is stationary. As days go by and the amount of data at our disposal increases, we are also taking policy changes regarding swab testing into consideration.  In the second step, we instead predict the number of new daily positive cases conditional on the number of performed swab tests. More precisely, a log-linear regression model with a Negative Binomial type error is used. The rationale behind this specification is the fact that count data is largely overdispersed. We then use these estimates, together with the predicted number of swab tests, to provide a 3-day estimate of the number of new positive confirmed cases of Covid-19. Furthermore, we provide confidence intervals obtained via resampling techniques. Initial resampling techniques were very simple (jackknife). With the help of Riccardo Ievole and Lucio Palazzo, we are trying to obtain more precise uncertainty estimates.



(Translation by: Gabriele Fabozzi)

Perché Poisson sì e la retta in scala logaritmica No

Queste righe nascono dal bisogno di chiarire alcuni aspetti dell’analisi di dati, come quelli che descrivono un’epidemia. I dati in questione sono numeri interi, sono conteggi: conto quante persone si ammalano, quante persone guariscono, quante persone muoiono, ecc. Nel caso di un’epidemia, questi conteggi sono osservati sulla dimensione del tempo.

I conteggi hanno una caratteristica importante quasi sempre, la loro tendenza e la loro dispersione (ovvero media e varianza) cambiano insieme, sono dipendenti. Mentre per i dati continui (ad esempio misurazioni) possiamo avere valori grandi molto vicini, o valori piccoli molto lontani tra loro; tipicamente con i conteggi questo non avviene: serie di conteggi tendenzialmente grandi sono più variabili di serie di conteggi tendenzialmente piccoli. Questo non è un fatto astratto, è qualcosa di osservabile e misurabile, ed  influenza il modo in cui i conteggi possano essere descritti matematicamente.

Guardando il modo in cui evolve un’epidemia all’inizio, la prima cosa che viene in mente a chiunque abbia studiato un po’ di matematica anche a scuola è “cresce in modo esponenziale!”. Sembrerebbe quindi naturale trasformare i conteggi nei logaritmi e tirare dritto una riga.

Ora la valutazione intuitiva è corretta ma non considera il punto posto di sopra. Con un processo di conteggi che crescono nel tempo, come quello epidemico, con il passare del tempo, la media e la variabilità di quei dati cambiano in modo dipendente. “Tirare dritto una riga” implica invece che tendenza e variabilità si comportino l’una  indipendentemente dall’altra.

L’approccio corretto con i dati di conteggio è quello  dei cosiddetti modelli lineari generalizzati (GLM), introdotti nella letteratura statistica già negli anni ’70 del secolo scorso. I GLM tengono conto della natura del dato e del suo comportamento, con la possibilità di applicare lo schema della regressione lineare anche ai modelli di Poisson o Binomiale Negativa che tipicamente sono quelli che meglio descrivono questo tipo di dati.

Tutto questo discorso si può benissimo formalizzare con eleganti equazioni per far vedere cosa non va nell’approccio intuitivo,  ma non ci pare questo il posto adeguato.

C'è anche un altro punto concettuale molto rilevante che vale però in generale: assumere un andamento esponenziale significa assumere che i conteggi possano crescere all'infinito. Questo vale  sia per le regressioni lineari su trasformata log che per le regressioni di Poisson o Negative Binomial. Pertanto, inevitabilmente, entrambi questi approcci sono da applicare solo nel breve termine. Nel medio termine, i conteggi cumulati andranno a saturazione, secondo una curva di
crescita che permette un asintoto. In questo caso, si dovrebbe utilizzare un GLM di Poisson o Binomiale Negativo per curve di crescita con asintoti. 


giovedì 19 marzo 2020

Estimates of intensive care unit (ICU) hospitalizations updated

We set up a procedure for the short-term prediction of the number of daily taken ICU beds in each Italian region. This is motivated by one of the greatest challenges in the ongoing pandemic, namely the problem of medical equipment management. This, in turn, is essential to guarantee intensive care treatment to patients in need.
We show daily values and we will update them regularly. The actually observed data is broadcast by the “Protezione Civile”  [Italian civil defense organization, N.d.T] in the now regular press conference at 18:00 and are available at this link https://github.com/pcm-dpc/COVID-19
We successfully validated the aforementioned technique on data from 11-13/03/20 on all 20 Italian regions. Nevertheless, given the simplicity of this approach and the scarcity of available data, it is likely that some of the confidence intervals may not cover the true value. This may be even more true considering unpredictable inter-region patient transfers or clusters of risky behavior in the last few days.

(Previsione= Prediction, LimiteInferiore =95% Lower Limit, Limite Superiore = 99% upper Limit, Capienza = ICU availability)
A slightly more technical methodological note can be found at the following link
We are available for any questions, clarifications, comments, and concerns. We are also     willing to share the predictions for the following 3/5 days to whom that may find it helpful.

(Translated by Gabriele Fabozzi)

mercoledì 18 marzo 2020

La curva logistica e il picco della Lombardia


Utilizzando una curva di crescita logistica a 5 parametri, come suggerito anche da Gabriele Sene , abbiamo stimato che il picco di nuovi casi positivi per la regione Lombardia potrebbe essere oggi (18/03/2020).
Pertanto, compatibilmente con i processi di raccolta e gestione del dato, oggi, domani o dopodomani al massimo dovremmo iniziare a registrare una diminuzione del numero di nuovi casi giornalieri in questa regione.
Notiamo che il picco per tutte le altre regioni, e a livello nazionale, non è attualmente stimabile invece; perchè non sono quantificabili gli effetti delle misure di contenimento. Questi effetti si inizieranno a vedere dalla prossima settimana.
Notiamo inoltre che questa stima riguarda il picco di nuovi positivi, mentre purtroppo anche in Lombardia potremmo vedere crescere ancora altri indicatori, come i ricoverati in terapia intensiva.

Nel grafico sotto, il fit logistico per la cumulata e il numero giornaliero di casi positivi. Il modello stima il picco 12h dopo l'ultima misurazione, cioè le 18 della giornata di ieri (17/03/2020), con una piccola incertezza.
Continuiamo ad esortare alla cautela, ma è impressionante notare quanto vicino ai dati sia la curva stimata.


lunedì 16 marzo 2020

Stima dei ricoveri in terapia intensiva update


Continuiamo a migliorare una procedura per la previsione a breve termine dei posti occupati giornalmente in terapia intensiva, in ciascuna regione, perchè una delle sfide principali dell'epidemia in corso è la programmazione delle risorse sanitarie.
Ad esempio mostriamo nella foto le previsioni per la giornata di oggi, i cui valori realmente osservati verranno comunicati dalla Protezione Civile dopo le 18. Nell'ultima colonna, i posti totali disponibili (dato 2018).
Abbiamo validato la tecnica su tutte le 20 regioni. Ciò nonostante, per varie ragioni è plausibile che qualche intervallo possa non coprire il valore vero.

La tabella è pubblicata anche al seguente link:
Un documento tecnico poco dettagliato può invece essere trovato al seguente link:
Rimaniamo a disposizione per chiarimenti, dettagli, e per fornire a chi possa averne necessità le previsioni a un orizzonte di cinque giorni. Con la speranza di iniziare presto a sovrastimare sistematicamente,

StatGroup-19 (Fabio Divino, Alessio Farcomeni, Giovanna Jona Lasinio, Gianfranco Lovison, Antonello Maruotti)

domenica 15 marzo 2020

Per capire gli effetti di R0


Il parametro R0 in una epidemia rappresenta il numero atteso di contagi fatti da ciascun infetto. Varia nel tempo, nello spazio, da malato a malato.

Questo post semplicemente per mostrare l'enorme differenza che c'è tra R0<1 e R0>1, anche se magari numericamente vicini.

Con R0<1 (panel superiore del grafico), dopo un periodo di incubazione (nel caso del Covid-19, 14gg) il numero di nuovi infetti inizia a scendere inesorabilmente (tanto più velocemente quanto R0 è vicino a zero).

Con R0>1 (panel inferiore del grafico), il numero di nuovi infetti sale fino a un picco in cui il numero di contagiati complessivo è enorme (si parla, per il Covid-19, di una proporzione tra il 20% e il 70% della popolazione), per poi scendere. Tanto più R0 è lontano da 1, più alto sarà il picco e più veloce il suo arrivo.

(Notate anche la differenza di scala dei due grafici, con R0<1 da 20000 casi si scende molto rapidamente, invece con R0>1 si arriva a milioni di infetti molto rapidamente.)

Nota: questi scenari sono solo parzialmente verosimili per l'epidemia attuale, e non tengono conto di moltissimi fattori importanti (e ignoti), tra cui il network di contatti di ciascuno di noi. Pertanto, sebbene si sia visto di peggio in circolazione, si ricordi che gli andamenti mostrati non sarebbero attendibili nemmeno qualora l'R0 fosse quello mostrato in uno dei grafici.

Stime dei nuovi casi positivi nei primi giorni dell'epidemia

Su questo tema la necessità di dare risposte veloci ed efficaci ci ha portato a costruire un modello che anche se non è ottimale si sta rivelando molto efficace. Continuiamo a cercare di migliorarlo costantemente.
L’approccio utilizzato funziona in due passi e tenta di approssimare le due fasi con cui generalmente si individua un “caso”: screening e diagnosi. In questa situazione epidemiologica, il processo di screening è nella seguente forma: gli individui potenzialmente e tendenzialmente positivi si auto selezionano rivolgendosi alle autorità di sanità pubblica oppure vengono individuati in base a connessioni con precedenti casi conclamati. Il processo di diagnosi, invece, avviene per controllo tramite tampone. Nel primo passo si stima il numero di tamponi giornalieri utilizzando un modello INteger-valued AutoRegression (INAR) ovvero un modello per numeri interi che evolvono nel tempo. In questo primo step, prevediamo il l’evoluzione del numero dei tamponi effettuati giornalmente. In un primo periodo, dalla fine di Febbraio alla prima settimana di Marzo, il processo è stazionario e, di conseguenza, lo è anche il modello. Con il passare dei giorni e l’incremento dei dati a disposizione, stiamo anche tenendo conto dei cambiamenti nelle scelte di policy sulla somministrazione dei test-tamponi. Nel secondo step, invece, prevediamo il numero dei nuovi casi positivi sintomatici giornalieri, condizionatamente al numero di tamponi effettuati. In particolare, si utilizza un modello di regressione log-lineare con termine di errore di tipo Binomale Negativo, per tener conto dell’alta sovradispersione dei dati di conteggio, per stimare i parametri del modello sui dati osservato. Utilizziamo queste stime, congiuntamente alla previsione del numero di tamponi, per fornire una previsione fino a 3 giorni del numero di nuovi casi positivi identificati di Covid-19. Forniamo anche, ovviamente, un intervallo plausibile di valori, per tener conto dell’incertezza dei dati. Gli intervalli di confidenza sono ottenuti con tecniche di ricampionamento. Inizialmente sono state usate procedure molto semplici (jackknife) ora, con l’aiuto di Riccardo Ievole e Lucio Palazzo, stiamo cercando di ottenere delle stime più accurate sull’incertezza.

Come esempio dei risultati ottenuti riportiamo le  previsioni del totale dei casi positivi cumulati basate su dati fino al 9 di marzo
Data
Previsione
Limite Inferiore
Limite Superiore
Osservati
10 Marzo
10659
10455
11667
10149
11 Marzo
12325
11885
14545
12462
12 Marzo
14196
13348
17765
15113


Stima dei ricoveri in terapie intensive

Abbiamo messo a punto una procedura per la previsione a breve termine dei posti occupati giornalmente in terapia intensiva, in ciascuna regione. La ragione è che una delle sfide principali dell'epidemia in corso è la gestione delle risorse sanitarie, per poter garantire cure in terapia intensiva a chi ne ha bisogno.
Iniziamo a mostrare i valori al 14.03.20 e poi aggiorneremo costantemente. I valori realmente osservati vengono comunicati dalla Protezione Civile nella ormai consueta conferenza stampa delle 18.
Abbiamo validato la tecnica nei giorni dal 11-13.o3.20, con successo, su tutte le 20 regioni. Ciò nonostante, data la scarsità di informazioni a nostra disposizione e la semplicità dell'approccio, è probabile che qualche intervallo di confidenza possa non coprire il valore vero; anche a seguito ad esempio dell'imprevedibile trasferimento di pazienti da una regione all'altra, o di cluster di comportamenti a rischio avvenuti nei giorni passati.
La tabella è pubblicata al seguente link:
Un documento leggermente tecnico, con una descrizione della tecnica previsiva, può invece essere trovato al seguente link:
Rimaniamo a disposizione per chiarimenti, dettagli, e per fornire a chi possa averne utilità le previsioni a un orizzonte di tre/cinque giorni.
Con la speranza di iniziare presto a sottostimare sistematicamente,