Já faz algum tempo que passei por essa situação mas acho que vale a pena pensar a respeito.

Em um fórum de R, uma pessoa pergunta onde está a função pra calcular um determinado número com a PNAD. Eu vou dou uma olhada e vejo que, de fato, a função não existe. Explico para a pessoa que a função não existe porque ninguém escreveu ainda. E me responde: alguém pode fazer isso aí rapidinho? Eu digo que é bastante difícil e que eu não consigo fazer agora por incrível que pareça, eu tenho mais o que fazer da minha vida. Nisso, a pessoa responde:

Ah, não é possível que não dê pra calcular isso com amostra complexa!

Eu parei de interagir nesse momento. Acho que não consigo explicar em um parágrafo os problemas de estimação com amostras complexas, como é a PNAD. No entanto, como estou mais ou menos de férias, vou tentar mostrar alguns detalhes.

Vejamos.

Estimação de um total com amostra aleatória simples com reposição (AASc)

Vamos para a quantidade mais simples do plano amostral mais simplificado: o total de uma variável com AASc. Para estimar um total populacional \(Y\), usaremos este estimador:

\[ \hat{Y} = N \bar{y}. \] A ideia é bastante simples: como eu sei o tamanho da população, se eu multiplicar esse total pela estimativa não-viesada da média, eu vou ter um estimador não-viesado do total. Nenhuma complicação até aqui, certo?

A variância deste total, por sua vez, pode ser escrita como

\[ \widehat{Var} \big( \hat{Y} \big) = N^2 \cfrac{s^2}{n}, \]

sendo \(\cfrac{s^2}{n}\) a estimativa da variância da média, a fórmula padrão que você encontra em qualquer livro de estatística.1

Estimação de um total com amostra estratificada (AES)

Vamos complicar um pouco mais as coisas. Divida a população em \(H\) partições. Fazemos, então, uma AASc em cada partição \(h\) da população. Essas partições da amostra são chamados estratos e dizemos que nossa amostra é estratificada. Neste caso, o estimador do total da população é dado por:

\[ \hat{Y} = \sum_{ h \in H} N_h \bar{y}_h. \] Ou seja: o total da população é a soma do total de cada estrato \(h\). O respectivo estimador da variância é dado por

\[ \widehat{Var} \big( \hat{Y} \big) = \sum_H N_h^2 \cfrac{s_h^2}{n_h}, \] i.e., a soma das variâncias AASc de cada estrato.

Já é um pouco mais complicado. No entanto, quando os estratos são definidos com critérios adequados, as estimativas das variâncias se tornam mais precisas.

Vamos ver outra possibilidade.

Estimação de um total com amostra por conglomerados (AC)

Imagine que você precisa fazer uma pesquisa na sua cidade. Imagine que o seu orçamento é limitado e você não pode gastar muito com a logística da pesquisa. Se você fizer uma AAS, pode ser que você tenha que entrevistar domicílios em todos os bairros; imagina o quanto vai custar levar os entrevistadores por todos os bairros… Uma solução para isso é fazer uma amostra da seguinte maneira: sorteamos bairros e entrevistamos os domicílios destes bairros. Isso é o que se chama de amostra por conglomerado com um estágio de conglomeração. Vamos supor que essas amostras são aleatórias simples com reposição.

Suponha que, ainda assim, temos um número muito grande de domicílios para entrevistar e resolvemos sortear domicílios dentro dos bairros selecionados. Temos uma amostra por conglomerados em dois estágios: bairros e domicílios.

Então, sorteamos \(n\) dos \(N\) bairros. Dentro do \(i\)-ésimo bairro, sorteamos \(m_i\) dos \(M_i\) domicílios; denotamos o conjunto de domicílios na amostra do \(i\)-ésimo bairro por \(S_i\). Temos, então, o seguinte estimador do total:

\[ \hat{Y} = \cfrac{N}{n} \sum_{j \in S_i} M_i \bar{y}_{i} , \] com \(\bar{y}_i\) sendo a média de \(y\) dos domicílios do \(i\)-ésimo bairro.

A variância, por sua vez, é dada por:

\[ \widehat{Var} \big( \hat{Y} \big) = N^2 \bigg( 1 - \cfrac{n}{N} \bigg) \cfrac{S^2_t}{n} , \] onde \(S^2_t = \frac{1}{N-1} \sum_{i \in N} ( Y_i - Y / N )\) é a variância populacional dos totais dos bairros, com \(\widehat{Y}\) sendo o total de \(y\) no \(i\)-ésimo bairro e \(Y\) o total na população.

Amostras por conglomerados com probabilidades desiguais de seleção

Ainda usando o nosso exemplo anterior, temos o seguinte problema: um bairro com 10 domicílios teria a mesma probabilidade de ser escolhido que outro bairro com 1.000 domicílios. Isso não parece bom. Queremos que um bairro com maior número de domicílios sejam selecionados com maior probabilidade. Vamos supor que façamos uma amostra com probabilidades proporcionais ao tamanho. Temos, então, probabilidades desiguais de seleção.

A probabilidade do domicílio \(j\) no bairro \(i\) ser selecionado é dada por \(\pi_{ij} = \pi_{j | i}\pi_{i}\). Ou seja: é o produto das probabilidades de seleção. Depois de sortearmos bairros com probabilidade proporcional ao tamanho e domicílios por amostra aleatória simples, precisamos recorrer ao estimador Horvitz-Thompson do total (Horvitz e Thompson, 1952):

\[ \hat{Y}_{HT} = \sum_{j \in S} \sum_{ i \in S_i } \cfrac{ y_{ij} }{ \pi_{ij}}, \] onde \(S\) é a amostra de bairros.

Neste caso, o estimador da variância do estimador de Horvitz-Thompson do total é dado por:

\[ \widehat{Var}_{HT} \big( \hat{Y}_{HT} \big) = \sum_{ i \in S } ( 1 - \pi_i ) \cfrac{\widehat{Y}^2 }{\pi_i^2} + \sum_{ i \in S } \sum_{ k \in S ; k \neq i } \cfrac{ \pi_{ik} - \pi_i \pi_k }{ \pi_{ik} } \cfrac{ \widehat{Y}_i }{ \pi_i } \cfrac{ \widehat{Y}_k }{ \pi_k } + \sum_{ i \in S } \cfrac{ \widehat{Var} \big( \widehat{Y}_i \big) }{ \pi_i }. \]

Eu não sei você, mas eu não acho essa fórmula nada trivial.

Conclusão

No caso da PNAD, como explicam Silva, Pessoa e Lila (2002), o plano amostral possui estratificação e 1 a 3 estágios de conglomeração, dependendo do estrato, além de probabilidades proporcionais ao tamanho. Ou seja: é uma combinação das fórmulas que vimos acima. E isso é o caso do total. Não estamos falando de índice de Gini, quantis, etc., que são medidas mais complexas. Sobre amostragem, as sugestões são: o clássico Cochran (1977), o livro que mais me fez chorar desde “O Menino do Pijama Listrado”; Lohr (2010), que é mais fácil de achar e possui exemplos interessantes; e, principalmente, Pessoa e Silva (2018), porque: (a) é escrito por quem entende muito do assunto, (b) é escrito em português, (c) possui exemplos usando o R, e (d) está disponível na internet!

Finalmente, eu queria comentar duas coisas. A primeira é que algumas coisas podem não ser tão fáceis quanto parecem; se você acha isso fácil, você (provavelmente) não estudou o suficiente ou está fazendo algo errado. E a outra coisa é que, nesse mundo de terraplanismo e pós-verdade, o trabalho do IBGE é essencial e eles não estão de brincadeira: existe um volume enorme de conhecimento teórico e prático sobre o Brasil que vem sofrendo ataques diários por parte de campanhas de desinformação.

Referências

COCHRAN, W. G. Sampling Techniques. 3rd. ed. New York: John Wiley & Sons, 1977. p. 428

HORVITZ, D. G.; THOMPSON, D. J. A Generalization of Sampling Without Replacement From a Finite Universe. Journal of the American Statistical Association, v. 47, n. 260, p. 663–685, 1952.

LOHR, S. Sampling Design and Analysis. 2nd. ed. Boston: Brooks/Cole, 2010. p. 596

PESSOA, D. G. C.; SILVA, P. L. N. Análise de Dados Amostrais Complexos, maio 2018. Disponível em: <https://djalmapessoa.github.io/adac/bookdown-adac.pdf>

SILVA, P. L. N.; PESSOA, D. G. C.; LILA, M. F. Análise estatística de dados da PNAD: incorporando a estrutura do plano amostral. Ciência & Saúde Coletiva, v. 7, p. 659–670, 2002.


  1. A fórmula para a amostra aleatória simples sem reposição (AASs) é um pouco mais complicada e, quando a amostra é suficientemente grande, ela converge para a AASc.↩︎