Amostragem por Cotas
Ontem, eu estava vendo stories no Instagram e me deparei com uma aula com as palavras “Amostragem por cotas e pós-estratificação”. Isso me lembrou de um comentário que fiz na aula de amostragem da semana passada: se você não tem uma amostragem probabilística, sua inferência necessariamente se baseia em um modelo, seja ele sobre o modo como a amostra foi selecionada ou sobre o comportamento da variável na população.
Deville (1991) discutiu esse tema com muito cuidado, sugerindo onde o método pode ser útil e porque ele não deveria ser usado em estatísticas oficiais. De fato, amostragem por cotas é algo raro na tradição de estatísticas oficiais, mas relativamente comum em pesquisas de opinião, marketing, etc.
A discussão a seguir segue a apresentação de Ardilly (2006, p. 201–219), onde existe uma discussão bastante acessível sobre viés e variância neste tipo de amostragem não-probabilística (que ele chama de amostragem empírica).1
Qual o problema da amostragem por cotas?
A relação entre a média populacional da variável
Em outras palavras, a média populacional é uma média ponderada das médias (populacionais) dos grupos
No caso de amostragem por cotas, uma amostragem não-probabilística é realizada com a restrição de que a distribuição amostral das categorias
onde
Porém,
onde
No caso de amostras probabilísticas, a probabilidade de inclusão
Mesmo assim, na falta de escolha melhor, podemos utilizar a média amostral
Ou seja: o viés é uma função da média ponderada das covariâncias entre a variável
A princípio, é possível pensar em duas maneiras de diminuir esta covariância. A primeira seria fazendo
Adicionalmente, como
Abordagem baseada em pseudo-aleatorização
Uma abordagem possível envolve tentar estimar as probabilidades de inclusão na amostra (Wu, 2022, seç. 5). Um método comum é o uso de estimadores de pós-estratificação, supondo que a probabilidade de inclusão é igual dentro de cada grupo da amostragem por cotas.
Desta forma, fazendo
Quando os totais
Este caso é menos relevante, no sentido que as variáveis que definem as cotas seriam as mesmas que definem os pós-estratos. Ainda assim, ela seria capaz de recompor parte da não-resposta, por exemplo. Ou se os totais usados para planejar o tamanho da amostra das cotas estiverem defasados em relação ao momento da estimação.
O caso mais interessante seria corrigir por pós-estratos definidos por outras variáveis mais associadas ao processo de (auto-)seleção para a amostra. Por outro lado, este caso tem uma restrição importante: se o tamanho da amostra nos pós-estratos forem pequenos, a variabilidade dos pesos corrigidos aumenta a variância do estimador.3 Ou seja: temos um caso do trade-off viés-variância.
Para entender este raciocínio, imagine que
Abordagem baseada em modelos
Também é interessante pensar em como a modelagem de superpopulação pode ajudar a resolver o problema. Reescrevendo a média populacional, temos:
Sob um modelo de superpopulação, a variável
Os estimadores de Gauss-Markov de
A ausência de viés,
Este estimador pode ser visto como uma forma model-based do estimador de pós-estratificação: se o modelo explica bem a distribuição de
Conclusão
Há outras abordagens possíveis para esse problema. Acho muito interessante mas não encontrei muitas pesquisas não-probabilísticas para trabalhar. Hoje, fiquei sabendo de uma pesquisa de opinião relativamente recente. Pode ser que volte a escrever sobre isso no futuro. (Ou não.)
Referências
Tropecei nesse livro em 2017, quando marquei um date na Gibert Joseph perto do Quartier Latin. Não me arrependo.↩︎
E na escolha de variáveis de calibração; por exemplo, Chen, Valliant e Elliott (2019).↩︎
Isso me leva a suspeitar que alguns resultados podem ser “muito calibrados”, especialmente quando a pesquisa é feita esporadicamente.↩︎
Algumas suposições sobre o modelo podem ser simplificadas.↩︎