“Factos” não são factos - um caso prático de desinformação baseado em “ciência”

Em resposta a “Visão Factual Epidemiológica: Portugal é um dos países mais perigosos do mundo na Covid-19” de Pedro Caetano, no Observador. JG Almeida

Motivação: escrevi este texto porque o artigo, apesar de ser bastante bem desmontado nos comentários, continuou a ter mais de 500 partilhas pelo Facebook e ao que parece mais de 60,000 através de várias redes sociais, embelezando uma opinião e uma análise pobre com esses chavões da credibilidade da idade do pós-verdade que são Os Dados e Os Factos. Para além disto - e aquilo que me arrepiou em particular - Pedro Caetano justifica esta visão como sendo uma que desconsidera a política, que se foca n’Os Factos e n’Os Dados, mas na verdade nem metade deste artigo chega a considerar dados; a restante mais-de-metade é uma plataforma grátis para Pedro Caetano expôr a sua ideologia (e, presumivelmente, a do Observador) e a sua análise estatística-feita-comentário político.

A metamorfose não parou em Kafka, mas estendeu-se em aspectos ainda mais monstruosos quando a defesa de uma agenda política é magnânima.

O que sempre fez a ciência aquilo que ela é não se trata apenas de factos; trata-se também de uma correcta interpretação dos mesmos. Para além disso, e tão importante como a interpretação, é a maneira como são adquiridos ou derivados esses mesmos factos.

Pedro Caetano é Director Global da Indústria Farmacêutica da Ipsen, em Oxford e professor na Universidade Nova de Lisboa de Epidemiologia e Farmacologia, entre outras cadeiras. Pedro Caetano fez das piores análises que vi até à data sobre este assunto feita por um profissional. Nela, afirma que Portugal é dos países mais perigosos porque:

Dividindo pela população total do país (proporção de infectados, uma conta que o filho de Pedro Caetano de 5 anos pode fazer, como o autor do artigo afirma) e ajustando pelo dia do primeiro caso, Portugal está quase tão mau, em termos de proporção de infectados, como Espanha ou Itália
Fazendo o mesmo cálculo para mortes (proporção de mortes por milhão de pessoas) o mesmo não se verifica. Mas, Pedro Caetano insiste, Portugal está mal também neste aspecto

Faço esta publicação não para defender qualquer papel que o governo ou as medidas estejam a tomar - apenas para denunciar o alarmismo e cientismo barato que Pedro Caetano apresenta graças à plataforma do Observador, que não tem sido propriamente isento nos artigos de opinião (e por vezes até nos de informação) que produz.

0 - O erro no ajuste

A verdade é que comparar países diferentes em epidemiologia é complicado - apesar de ser possível quantificar efeitos de estratégias de controlo ou terapia (como é o que tem acontecido no Imperial College), há demasiadas diferenças entre países, desde composições demográficas diferentes (alguns países têm uma população mais envelhecida) até fatores culturais (alguns países têm uma maior percentagem da população idosa em lares ou um maior hábito de juntar a família em grandes almoços). Não é 100% errado comparar proporções de infectados - pelo menos não tem de ser necessariamente pior do que comparar números absolutos. Mas o que Pedro Caetano faz ao ajustar pelo dia do primeiro caso/da primeira morte é incorrecto - o que por norma é feito é ajustar pelo dia em que determinada proporção foi atingida. A razão é muito simples - comparar o país A com 1 milhão de habitantes e o país B com 100 milhões de habitantes no momento em que ambos registam um caso leva a que passado algum tempo o país A tenha 1% da população infectada enquanto que o país B tenha apenas 0.01%. Isto levar-nos-ia, dependendo da nossa agenda política, a apelar às boas decisões do país B ou a condenar as péssimas decisões do país A. Para uma melhor e mais longa explicação, Carl T. Bergstrom, professor da Universidade de Washington, dedicou algum tempo a isto nesta ligação (é uma explicação informal e fácil de seguir para quem perceber inglês).

1 - O erro na quantificação no número de casos por milhão de habitantes

Valores registrados para dia 15 de Abril de 2020 pelas 22:00

Quanto ao ponto 1., há vários aspectos a considerar - Portugal tem de facto bastantes infectados por milhão de habitantes. Nada a acrescentar a isto. São Marinho, pela mesma regra, tem a mais alta taxa de infectados por milhão de habitante, com uns esmagadores 372 casos no total. Logo a seguir, é Andorra, com 673 casos no total, depois Espanha com 177,633 e em 4o temos a Bélgica com 33,573.

Talvez não se trate de uma maneira muito boa para avaliar o quão mal um país ou região está.

Esta métrica - casos por milhão de habitante - seria de valor inestimável caso tivéssemos o verdadeiro número de casos, algo apenas atingível se pudéssemos testar toda a população regularmente para esta doença - é aqui que o número de testes feitos por cada país entra em jogo. Há uma correlação bastante boa entre o número de testes por milhão de indivíduos e o número de infectados. Não deveria Pedro Caetano, um homem que se anuncia como um bastião da visão da factualidade, considerar possíveis fatores de confusão (outras razões que também expliquem os resultados que temos)? Esta correlação não é perfeita – nem é pretendido afirmar que esta relação é explicação única e suficiente para o número de casos nos diferentes países; na verdade, apenas 38% da variabilidade no número de casos é explicada pelo número de testes feitos. É, no entanto, preciso pelo menos verificar se há uma relação. De realçar também que os valores que aqui surgem acima da linha – mais casos por milhão de pessoas do que seria esperado pelo número de testes feitos – são aqueles que realmente revelam um número particularmente assustador de casos por milhão de habitante quando temos em conta o número de testes feitos (Espanha, Países Baixos, Bélgica, França, EUA, Itália, Reino Unido, entre outros – países que foram atingidos numa fase inicial e que não tiveram tempo de reagir atempadamente ou países que escolheram não reagir adequadamente).

No caso de uma doença como a COVID-19, é talvez mais importante ter em conta a percentagem de camas em unidades de cuidados intensivos disponíveis, bem como a capacidade hospitalar, para termos uma noção concreta se o sistema de saúde está ou não sobrecarregado, duas opções que implicam medidas futuras drasticamente diferentes.

Importante: Nesta secção, os E.A.U. foram excluídos dos cálculos por representarem aquilo que é conhecido como um outlier - um ponto que não devia existir se considerarmos o modelo que usamos. Apesar de inicialmente parecer questionável à primeira vista, nada temam - isto apenas nos possibilita a utilização de testes paramétricos (testes que assumem uma determinada distribuição dos dados, ao qual os E.A.U. escapam) para estimar a variabilidade explicada. Se usarmos testes não-paramétricos (não assumimos uma estrutura específica nos dados - o cálculo do rho de Spearman, por exemplo) e incluirmos os E.A.U. temos um fenomenal rho de 0.66, que nos diz que se ordenarmos os países por número de testes por milhão e número de casos por milhão, 66% têm a mesma ordem.

2 - A estranheza de contar mortes por milhão de habitantes

Valores registrados para dia 15 de Abril pelas 22:00

Há sempre alguma estranheza nesta métrica se o que pretendemos avaliar é o perigo de uma doença. É muito mais sensível ver o número de mortes por número total de infectados, de forma a avaliar a letalidade do vírus. O número de mortes causadas pelo vírus por milhão de habitantes diz-nos pouco para lá da número de infectados por milhão, visto que podemos esperar uma proporção relativamente boa (como mostrado no gráfico acima, em que 78% da variabilidade nas mortes por milhão é explicada pelo número de casos por milhão). Talvez nos dê alguma informação sobre o número de hospitalizações, visto que uma grande parte das mortes acontece após a hospitalização do doente. O número de mortes (por milhão) pode ser usado para corrigir erros associados à quantificação dos casos por números insuficientes de testes visto que podemos assumir uma taxa de mortalidade relativamente semelhante para todos os países, se tivermos em conta a idade e fatores de risco e outros fatores de confusão. Também pode ajudar-nos a perceber melhor, numa análise mais tardia, onde é que houve falhas - há sítios que se desviam do que seria esperado? Se sim, porquê? Resta ainda dizer que Pedro Caetano ignora o facto de Portugal ter a terceira maior população acima dos 80 anos - um “factor de risco” tremendo - da Europa, a seguir à Itália e à Grécia.

3 - O óbvio

Comparações entre países dizem-nos muito pouco quando feitas de forma tão ingénua. Maior parte dos epidemiologistas tentam, pelo menos, ter em conta o maior número de variáveis úteis num modelo (isto pode incluir, nominalmente, as políticas adoptadas para lidar com a COVID-19) e só quando há conhecimentos certos e práticos sobre a utilidade do modelo é que tiram conclusões. Maior parte dos epidemiologistas usaria estes modelos devidamente validados para, de um ponto de vista científico, aconselhar as melhores medidas possíveis às entidades governamentais relevantes. Não tinha visto (até agora) nenhum epidemiologista a fazer análises que são num dia bom preliminares para atacar abertamente a imprensa e exacerbar o alarmismo presente. Não tinha visto (até agora) nenhum epidemiologista que usasse tão futilmente as credenciais que tem para validar um artigo. Mas, ao que parece, a pandemia é terreno fértil para visões inéditas.

Métodos e modelos epidemiológicos como os que têm sido apresentados por grande parte das instituições são extremamente valiosos num contexto nacional (Portugal) e supranacional (U.E.) para observar como a doença está a e pode impactar os recursos necessários e disponíveis, mas eles nem sempre estão certos - daí ser necessária a sua recorrente atualização numa doença que está enquadrada numa sociedade tão dinâmica. Estes modelos também não estão sempre certos - a matemática é uma ciência exacta, mas a sociedade tem demasiadas partes que são impossíveis de quantificar. Para fazer previsões, é sempre necessário fazer aproximações, que muitas vezes são grosseiras - há duas citações que valem a pena referir aqui: “é difícil fazer previsões, especialmente sobre o futuro” (de um autor dinamarquês desconhecido) e “todos os modelos estão errados, mas alguns são úteis” (de George Box, estatístico britânico). Para além disso, tenho também de referir o seguinte: o número de casos por dia é significante, mas devem ser usados para observar como progridem as tendências de aceleração, manutenção ou abrandamento da doença, especialmente quando nos lembramos que esta doença tem um período esperado de incubação entre 2 e 14 dias - grande parte das pessoas que vão ser infectadas hoje podem apenas manifestar sintomas dentro de alguns dias ou semanas.

Alguém usar metodologias dúbias num contexto científico para atingir uma agenda política não é novo - casos práticos que vão desde a eugenia até à exclusão de populações marginalizadas de discursos políticos existem ainda hoje por todo o mundo. Contudo, é necessário contrariá-las com as poucas ferramentas que temos. Não tenho o alcance do Observador, nem as credenciais que Pedro Caetano tem, mas sou insofrível enquanto pessoa e tenho evitado ao máximo escrever sobre os agressivos exercícios de demagogia mascarados de factualidade que têm cada vez mais vindo à superfície.

Como diz Pedro Caetano, cientista fármaco-epidemiologista formado em Harvard e a trabalhar em Oxford: “[n]ão é com propaganda que salvamos vidas”.

Agradecimentos e notas

Pela leitura, ajuda e correções: António José Preto, João Coelho, João Gil

Os dados aqui apresentados foram retirados de https://www.worldometers.info/coronavirus/