Eu ia encerrar com o último texto, mas lembrei de outra coisa. Durante o mestrado, quando alguns colegas trabalhavam com a PNADC, eu sempre comentava que era importante levar o plano amostral em consideração. Diante disso, eles levaram o peso amostral em consideração. No entanto, o plano amostral é mais do que os pesos amostrais!

Usar os pesos amostrais faz com que suas estimativas não sejam viesadas. Mas, se o plano amostral não for ignorável, as variâncias estarão incorretas.

“Mas por que a variância da estimativa importa?”

“Se importa, no que o desenho amostral influencia a sua estimativa?”

Vejamos.

Amostras e erros-aleatórios

Vou tentar explicar isso no contexto de inferência descritiva, mas o problema é o mesmo quando se trata de inferência analítica.

A ideia de inferência descritiva é, basicamente, estimar quantidade sobre uma população de tamanho \(N\) a partir de uma amostra de tamanho \(n < N\). Mas existem muitas amostras possíveis. Vamos supor uma amostra aleatória simples sem reposição (AAS). Para uma dada população de \(N\) indivíduos, existem \({N \choose n} = N! \frac{ n! }{ (N - n)! }\). Ou seja, existem muitas amostras possíveis e dispomos de uma delas.

Não há garantia de que o valor da média de nossa amostra vai ser igual ao da média da população. Mas, se nosso estimador é não-viesado, nosso valor é, em média, igual ao da população. Em outras palavras: a média de todas as amostras possíveis coincide com a média populacional. Como sabemos a distribuição dos valores da média amostral em torno do valor da população, podemos estimar um intervalo de confiança, onde o valor populacional provavelmente está.

Este intervalo depende da variância da estimativa. Ou seja: quando não calculamos a variância da estimativa, estamos supondo que dispomos da “amostra perfeita”, que magicamente coincide com o valor populacional. De fato, esta amostra mágica pode nem existir. Então, quando calculamos a variância da estimativa, temos uma ideia do erro resultante do processo de amostragem sobre aquela estimativa.

Variâncias e o plano amostral

Em geral, quando começamos a estudar estatística, aprendemos a teoria segundo amostras aleatórias simples (AAS). No entanto, na prática, quase nenhuma pesquisa é feita usando AAS. A PNADC, por exemplo, inclui estratificação e estágios de conglomeração. Como explicam Heeringa, West e Berglund (2010, p. 23–24), a variância da estimativa: tende a diminuir com a estratificação; aumenta com a conglomeração; e aumenta com probabilidades desiguais de seleção.

Para avaliar o quão errados estamos ao ignorar o plano amostral, podemos usar o Efeito do Plano Amostral (EPA). Basicamente, o EPA é uma razão entre a variância considerando o plano amostral e a variância supondo AAS. Assim, com um dado EPA, têm estas interpretações:

Se eu ignorar o plano amostral, a variância calculada subestimaria a variância correta em (EPA) vezes; A variância correta com o plano amostral é (EPA) vezes maior do que a variância sob AAS.

Já que estamos falando da PNADC, vamos fazer um teste usando duas medidas: a média da renda domiciliar per capita e o respectivo índice de Gini. No entanto, vamos considerar as probabilidades desiguais de seleção. Então, para demonstrar o efeito de não usar completamente o plano amostral, vamos calcular as estimativas sob duas condições:

  • Amostra com probabilidades desiguais de seleção;
  • Desenho amostral completo, com estratificação, conglomeração e probabilidades desiguais de seleção.

Deste modo, as duas estimativas pontuais são idênticas e as diferenças na variâncias decorrem da estratificação e conglomeração no desenho.

A Tabela 1 abaixo mostra os erros-padrões das estimativas. Para a média, o erro-padrão correto é 3 vezes maior que o sem desenho amostral. Para o índice de Gini, o erro-padrão é 2 vezes maior.

Tabela 1: Estimativa pontuais e desvios-padrões
Média Gini
Estimativa Pontual 1 337.5 0.545
Desvio-Padrão Incorreto 6.1 0.002
Desvio-Padrão Correto 18.1 0.004

Um pouco de contexto

Há alguns anos atrás, uma pessoa me disse: ``a discussão sobre o índice de Gini do Brasil está na diferença da 3ª casa decimal’’.

Vamos pensar um pouco.

O erro-padrão real é \(0.004\). Ou seja, qualquer intervalo de confiança contém a diferença \(0.001\). Então, eu só dicutiria, muito vagamente, alguma diferença a partir de \(0.006\). A minha lição disso é a seguinte: se você for discutir o valor de uma estimativa amostral, calcule o erro-padrão. Ele pode te ajudar a não perder tempo em discussões inócuas.

Referências

HEERINGA, S. G.; WEST, B. T.; BERGLUND, P. A. Applied Survey Data Analysis. Boca Raton, Florida: Chapman & Hall/CRC, 2010.