Tive a oportunidade de estudar amostragem e análise de dados amostrais na ENCE com excelentes professores1 esse ano. E foi incrível! Tentei aproveitar da melhor maneira possível. Entre algumas ideias exploradas, existem os modelos de superpopulação, que desempenham um papel fundamental na análise de dados amostrais. É uma ideia tão interessante que resolvi escrever um post sobre isso, mas com uma restrição: ser didático e, se possível, interessante para um público mais amplo.

As próximas seções explicam os conceitos de população finita, amostra, população infinita e como isso se relaciona com os modelos paramétricos com amostras complexas. Não vai ter muito rigor matemático, mas vou indicar as referências onde o tratamento mais rigoroso pode ser encontrado.

População finita e amostragem

Suponha que você queira estudar uma população de \(N\) pessoas. Ou seja, uma população finita. Porém, por motivos de orçamento e praticidade, só podemos coletar informações sobre uma parte dessa população. De acordo com alguma estratégia, extraímos uma amostra aleatória da população. E, com esta amostra, estudamos os parâmetros populacionais. Em outras palavras: usamos quantidades calculadas a partir da amostra para estudar quantidades da população.

“Sei lá, não acredito muito nessa coisa de amostra…” Quando você faz exame de sangue, você tira TODO o seu sangue pra fazer exame? Quando você prova uma sopa, você toma TODA a sopa pra saber se ela está boa? Quando o cervejeiro prova uma cerveja, ele toma TODAS as cervejas que produziu? Não, né?! Pois é: você acredita em amostras, o seu médico acredita em amostras, o cozinheiro acredita em amostras, etc.2

Amostragem pode parecer trivial para quem já estudou estatística, mas não é tão direto pra quem nunca estudou a respeito. A intuição também vem da cozinha: para você provar adequadamente se uma sopa está boa, você mistura e depois prova um pouquinho. A mistura é importante: ela faz com que nossa amostra seja uma boa aproximação do todo. Note também que o tamanho da colher passa a não importar muito. Uma colher de café pode ser um pouco pequena demais; uma colher de chá é um pouco melhor; uma colher de sopa é suficiente; uma concha pode ser um exagero. Os amostristas tem estratégias para misturar a sopa (i.e., plano amostral) e fórmulas para escolher qual “colher” usar para prová-la (i.e., tamanho da amostra).

Com uma população finita, existem várias amostras possíveis. De fato, nada garante que a nossa amostra vai resultar exatamente no valor populacional. No entanto, com algumas condições, é possível calcular o quão errados nos poderíamos estar sobre as grandezas calculadas a partir da nossa amostra. Essa ideia de “margem de erro”3 é expressa pelos intervalos de confiança.

Inferência descritiva, inferência analítica e modelos de superpopulação

Estas ideias são interessantes para fazer inferências descritivas, mas o que acontece quando queremos estudar algo mais complicado, como o processo que gera aquela população específica? Neste caso, estamos falando de inferência analítica. É importante distinguir as duas abordagens: a primeira tenta descrever uma quantidade da população a partir de uma amostra; a outra tenta descrever os mecanismos por trás daquela população. Como explica Deming (1953, p. 245), a inferência descritiva tenta responder à pergunta “quanto?”; já a inferência analítica tentaria responder à pergunta “por quê?”. Em outras palavras, a inferência descritiva é uma “fotografia” da população, desconsiderando os processos que a geraram, enquanto a inferência analítica tenta entender este mecanismo (Conti e Di Iorio, 2018). Assim, a inferência analítica quer entender como as características da população se relacionam. Então, a pergunta da inferência analítica é “como?”

A ideia central da inferência analítica pode ser interpretada da seguinte maneira. A minha população finita é uma realização de um processo aleatório mais geral, definida por um modelo paramétrico. Este modelo produz infinitas populações finitas. A nossa amostra é extraída de uma delas.

Sopas, universos paralelos e modelos de superpopulação

Estes últimos parágrafos foram um pouco cansativos. Vou tentar deixar as coisas um pouco mais divertidas.

Imagine que exista um Demiurgo bastante atarefado: ele é responsável por infinitos universos, cada um habitado por uma população com características próprias. Para facilitar a sua vida, ele usa uma máquina mágica para definir a distribuição de renda associada às características de cada um destes infinitos universos.

Em um destes universos, um grupo de alquimistas sem orçamento tem uma amostra da população. Com estimativas baseadas nestes dados, eles informam os cidadãos do seu mundo sobre a renda média, o tamanho da população, e outras inúmeras características do seu povo. Porém, eles têm um objetivo mais ousado: eles querem estimar os parâmetros do modelo parametrico descobrir o mecanismo da máquina do Demiurgo!

A modelagem de superpopulação é uma coisa um tanto mágica. Fazendo um paralelo com Rick & Morty, ela te deixa olhar como seria um universo paralelo, onde você escolhe as característica da população. Por exemplo, com o modelo paramétrico adequado, eu poderia:

  • Descobrir o número de crianças que morreriam por sarampo se não houvesse vacinação;
  • Descobrir o número de pessoas analfabetas se não houvesse educação pública;
  • Descobrir como seria a minha renda se eu não tivesse saído do direito.4

Voltando ao nosso exemplo gastronômico, só precisamos de uma colher (amostra) da sopa (população finita) para ter uma ideia do quão salgada ela está (parâmetro populacional). Neste contexto, o modelo paramétrico permite saber, em média, o quão salgada a sopa estaria se para uma dada quantidade de sal. Isso acontece porque calculamos, a partir de uma colher, o impacto da quantidade de sal (parâmetro do modelo) sobre o gosto de todas as sopas possíveis (população infinita).

Na prática, a modelagem de superpopulação tem algumas limitações. Por exemplo,

Deve-se reconhecer que para muitos estudos, especialmente nas ciências sociais, o modelo é apenas uma aproximação conveniente para o mundo real, e os parâmetros de um modelo são frequentemente utilizados para entender as interdependências aproximadas, em vez de ter uma interpretação científica. (Binder, 1983, p. 279, tradução nossa)

Essa é uma distinção importante entre inferência analítica e inferência causal, mas isso é tema para outro texto…

Comentários finais

Nesse texto, a minha intenção era dar uma explicação um pouco mais didática sobre os modelos de superpopulação e como eles relacionam amostra, população finita e população infinita. Ele também mostra uma parte do problema que enfrentamos quando ajustamos modelos em amostras complexas, embora exija um pouco mais de discussão.

Por fim, não forneço nenhuma solução ou método para ajustar estes modelos. Para entender isso, vale ler a bibliografia citada no texto. Também indico:

  • Leituras obrigatórias: Pessoa e Silva (2018, cap. 2 e 5), Lohr (2010, cap. 11), Heeringa, West e Berglund (2010, cap. 7) e Binder e Skinner (2003);
  • Graubard e Korn (2002), Dorfman e Valliant (2005) e Lumley e Scott (2017) trazem uma discussão interessante sobre alguns aspectos práticos do ajuste destes modelos com amostras complexas;
  • Para economistas, Deaton (1995), Ullah e Breunig (1998), Cameron e Trivedi (2005, cap. 24) e Wooldridge (2010, cap. 20) podem ser interessantes.

Referências

BETHLEHEM, J. The rise of survey sampling. Haia, Holanda: Statistics Netherlands, 2009. Disponível em: <https://www.cbs.nl/-/media/imported/documents/2009/07/2009-15-x10-pub.pdf>.
BINDER, D. A. On the Variances of Asymptotically Normal Estimators from Complex Surveys. International Statistical Review / Revue Internationale de Statistique, v. 51, n. 3, p. 279–292, 1983.
BINDER, D. A.; SKINNER, C. J. Design-based and Model-based Methods for Estimating Model Parameters. Em: Analysis of Survey Data. [s.l.] John Wiley & Sons, 2003. p. 29–48.
CAMERON, A. C.; TRIVEDI, P. K. Microeconometrics: Methods and Applications. Cambridge: Cambridge University Press, 2005.
CONTI, P. L.; DI IORIO, A. Analytic inference in finite population framework via resampling, 2018. Disponível em: <https://arxiv.org/abs/1809.08035>
DEATON, A. Data and econometric tools for development analysis. Em: BEHRMAN, J.; SRINIVASAN, T. N. (Eds.). Handbook of Development Economics, Part 3A. Amsterdã: North-Holland, 1995. p. 1785–1882.
DEMING, W. E. On the Distinction between Enumerative and Analytic Surveys. Journal of the American Statistical Association, v. 48, n. 262, p. 244–255, jun. 1953.
DORFMAN, A. H.; VALLIANT, R. Superpopulation Models in Survey Sampling. Em: Encyclopedia of Biostatistics. [s.l.] American Cancer Society, 2005.
GRAUBARD, B. I.; KORN, E. L. Inference for Superpopulation Parameters Using Sample Surveys. Statistical Science, v. 17, n. 1, p. 73–96, 2002.
HEERINGA, S. G.; WEST, B. T.; BERGLUND, P. A. Applied Survey Data Analysis. Boca Raton, Florida: Chapman & Hall/CRC, 2010.
LOHR, S. Sampling Design and Analysis. 2nd. ed. Boston: Brooks/Cole, 2010. p. 596
LUMLEY, T.; SCOTT, A. Fitting Regression Models to Survey Data. Statist. Sci., v. 32, n. 2, p. 265–278, maio 2017.
PESSOA, D. G. C.; SILVA, P. L. N. Análise de Dados Amostrais Complexos, maio 2018. Disponível em: <https://djalmapessoa.github.io/adac/bookdown-adac.pdf>
ULLAH, A.; BREUNIG, R. V. Econometric Analysis in Complex Surveys. Em: Handbook of Applied Economic Statistics. Boca Raton, Florida: CRC Press, 1998. p. 325–363.
WOOLDRIDGE, J. M. Econometric Analysis of Cross Section and Panel Data. 2. ed. Cambridge, Massachusetts: The MIT Press, 2010.

  1. Se houver algo errado nesse texto, peço que me corrijam!↩︎

  2. Para quem quiser ler mais a respeito de como amostragem passou a ser reconhecida como um método científico, a sugestão de leitura é Bethlehem (2009).↩︎

  3. Não confundir as “margens de erros” de pesquisas não-probabilísticas com “intervalos de confiança”. Até onde eu sei, só os intervalos de confiança de amostra probabilística têm fundamento teórico.↩︎

  4. Provavelmente maior do que a de mestrando.↩︎