Erros em dados administrativos
Uma reportagem da Folha apontou que 26 mil brasileiros tomaram vacina vencida.
Como eles descobriram isso? Verificando as datas de validade e de aplicação das doses nos registros do Ministério da Saúde. As prefeituras responderam com diversos argumentos. Um deles é o seguinte: há incorreções na data de aplicação em alguns registros. Uma análise relativamente simples indica que esse dado realmente tem problemas.
Essa reportagem me lembrou de dois textos que li recentemente. Num deles, Hand (2018) aponta 15 desafios para a análise de dados administrativos. No outro, Zhang (2012) discute uma teoria para erros em dados administrativos.
Desafios para a análise de dados adminsitrativos
De acordo com Hand (2018), dados administrativos são dados gerados no curso de alguma operação (administrativa) e armazenados em uma base de dados. Muitas vezes, estes dados são utilizados para análise secundária - ou seja, os dados estão sendo utilizados para finalidades além daquela para a qual foram planejados.
Nordbotten (2010) distingue dados administrativos de dados estatísticos em razão da sua finalidade: o segundo tipo é coletado com fins estatísticos, enquanto o primeiro é coletado para realizar alguma tarefa administrativa. Por exemplo, no caso do CAGED, os dados são utilizados para organizar o sistema do Programa de Seguro-Desemprego e conferir informações referentes aos vínculos trabalhistas, embora estes dados também podem ser utilizados para pesquisas sobre mercado de trabalho formal. No caso das vacinas, o registro acompanhar o número de doses e qual vacina foi aplicada1.
Então, Hand (2018) aponta o primeiro desafio:
Desafio 1. O ensino de estatística deve cobrir questões relacionadas à qualidade de dados.
O ensino de estatística trabalha (corretamente) com os aspectos teóricos das ferramentas, mas é limitado ao ensinar a avaliar a qualidade de dados. Embora crítica de dados de pesquisas amostrais seja um campo bastante desenvolvido e faça parte do dia-a-dia neste tipo de pesquisa, estas ferramentas não são aplicadas a dados administrativos com a mesma frequência.
Existem razões para essa divergência. Enquanto dados de pesquisas amostrais têm regras bem estabelecidas de crítica para cada etapa da pesquisa, isso não é evidente para dados administrativos, onde as etapas não são tão bem definidas. Outro ponto é o volume de dados em bases administrativas, que torna impraticável uma análise mais detalhada: quando há um grande fluxo de dados, é mais difícil de perceber e corrigir erros em tempo hábil. Além disso, como a finalidade do dado administrativo tende a focar em aspectos operacionais, é razoável imaginar que haja mais atenção para algumas variáveis do que outras.
O estudo mais aprofundado da qualidade dos dados administrativos mostra que este desafio se desdobra em outros:
Desafio 2. Desenvolver detectores para determinados problemas de qualidade. Desafio 3. Construir métricas de qualidade e instrumentos de gestão (scorecards) de qualidade para bases de dados. Desafio 4. Auditar a qualidade de fontes de dados.
Erros em registros administrativos
Zhang (2012) apresenta uma estrutura teórica para analisar os erros para estatísticas baseadas em registros administrativos. A Figura 1 abaixo mostra a origem dos erros em uma base de dados administrativos.
Existem dois “eixos” de erros: erros de mensuração e erros de representação. Vamos focar no primeiro eixo. A diferença entre o conceito-alvo e a medida-alvo é chamada erro de validade. Já a diferença entre a medida-alvo e a medida obtida é chamada de erro de medida. A diferenças entre a resposta obtida e a medida editada (ou processada) é chamada de erro de processamento. Cada medida na base de dados está sujeita a estes erros.
Ao contrário de pesquisas amostrais, que tendem a ser muito bem documentadas em todo o processo, essa não é a regra para dados administrativos. As definições podem ser alteradas para atendem melhor a finalidade operacional da base, prejudicando o uso estatístico da informação. Isso é ainda pior quando se pensa que essas medidas podem ser tomadas de modo descontínuo no tempo e no espaço.
Crítica e Imputação de Dados
No caso de pesquisas amostrais, existem etapas de crítica e imputação dos dados. Quando você programa um questionário, algumas checagens são feitas no momento em que se coleta o dado: formatos de data inválido (31/fevereiro, por exemplo), combinações de respostas implausíveis ou inaceitáveis (meninas com 30 filhos aos 15 anos), etc. Esse é um tipo de micro-crítica que pode ser feito na programação do questionário ou depois do dado ser coletado. Quanto mais cedo este erro for detectado, mais fácil é a correção.
Outro tipo de crítica é a macro-crítica. À medida em que o dado é coletado, é possível fazer algumas análises sobre a distribuição dos dados. No caso das vacinas, seria possível avaliar se há um pico anormal nas datas de vacinação, por exemplo.
Encontrar o erro é a primeira parte do problema. A solução ideal é contactar o informante e sanar as inconsistências. Do ponto de vista estatístico, se o número de ocorrências anormais não afetar muito a estatística, pode-se até manter informações “suspeitas”. Outra possibilidade seria imputar essas informações, mas isso exige um trabalho muito cuidadoso de modelagem.
Conclusão
Em regra, dados administrativos não são coletados com a finalidade de análise. Eles costumam ser coletados para alguma atividade operacional, como pagar benefícios sociais, acompanhar campanhas de vacinação, etc. O uso estatístico destas informações é (quase sempre) secundário.
Por ser uma finalidade secundária, o analista deve ter cuidado redobrado com a informação. É muito importante reconhecer que, apesar do grande volume de dados, existem diversos problemas no uso delas.
Os dados são importantes, mas não são perfeitos. De fato, são representações imperfeitas da realidade.
Referências
Apesar do que algumas figuras dizem, essa informação parece ser bastante fidedigna.↩︎