Ontem, eu estava vendo stories no Instagram e me deparei com uma aula com as palavras “Amostragem por cotas e pós-estratificação”. Isso me lembrou de um comentário que fiz na aula de amostragem da semana passada: se você não tem uma amostragem probabilística, sua inferência necessariamente se baseia em um modelo, seja ele sobre o modo como a amostra foi selecionada ou sobre o comportamento da variável na população.

Deville (1991) discutiu esse tema com muito cuidado, sugerindo onde o método pode ser útil e porque ele não deveria ser usado em estatísticas oficiais. De fato, amostragem por cotas é algo raro na tradição de estatísticas oficiais, mas relativamente comum em pesquisas de opinião, marketing, etc.

A discussão a seguir segue a apresentação de Ardilly (2006, p. 201–219), onde existe uma discussão bastante acessível sobre viés e variância neste tipo de amostragem não-probabilística (que ele chama de amostragem empírica).1

Qual o problema da amostragem por cotas?

A relação entre a média populacional da variável Y e as médias populacionais dos grupos qQ pode ser expressa como:

Y=qQNqNYq

Em outras palavras, a média populacional é uma média ponderada das médias (populacionais) dos grupos qQ. Suponha que Nq sejam quantidades conhecidas na população. Consequentemente, um estimador do tipo Y^=qQNqNYq^ é não-viesado se E[Yq^]=Yq. Este resultado justifica o uso de amostragem estratificada, onde uma amostra probabilística é selecionada em cada grupo q, garantindo a ausência de viés. No entanto, esse resultado não é suficiente para justificar o uso de amostragem por cotas.

No caso de amostragem por cotas, uma amostragem não-probabilística é realizada com a restrição de que a distribuição amostral das categorias Q seja idêntica à distribuição populacional. Ou seja, uma amostra de n unidades é selecionada de tal forma que nqn=NqN,qQ. Em geral, o procedimento de estimação se baseia no estimador

Y^=qQNqNy¯q,y¯q=1nqisqyqi

onde yqi é o valor da característica y para o indivíduo i no grupo q e y¯q é a média amostral da característica Y no grupo q. Porém, denotando ϵqi=yqiYq, temos que ϵ¯q=1nqisqϵqi. Então,

Y^=qQNqN(Yq+ϵ¯q)=qQNqNYq+qQNqNϵ¯qY^=Y+qQNqNϵ¯qE[Y^Y]=E[Y+qQNqNϵ¯q]Y=E[qQNqNϵ¯q]E[Y^Y]=qQNqNE[ϵ¯q]

Porém,

E[ϵ¯q]=E[1nqiUq1(isq)ϵqi]=1nqiUqϵqiE[1(isq)]=1nqiUqϵqiπqi,πqi=E[1(isq)].

onde πqi é a probabilidade de inclusão da unidade i do grupo q na amostra.

No caso de amostras probabilísticas, a probabilidade de inclusão πqi é conhecida e controlada pelo amostrista. Em amostras não-probabilísticos, como a amostragem por cotas, πqi é desconhecida: mesmo quando há treinamento para que o entrevistados selecione pessoas da forma “mais aleatória” possível, é difícil conseguir essa pseudo-aleatorização. Ele pode substituir pessoas que estão correndo por pessoas que andam mais devagar, ou uma pessoa zangada por outra mais contente. Quando impomos a média amostral, estamos supondo que a probabilidade de seleção dentro do grupo q é a mesma; i.e., πqi=πqj,i,jsq.

Mesmo assim, na falta de escolha melhor, podemos utilizar a média amostral y¯q. Ao fazer isso, temos

E[Y^Y]=qQNqNE[ϵ¯q]=qQNqN[1nqiUqϵqiπqi]=qQNqN[1nqiUq(yqiYq)πqi]=NnqQNqN[1NqiUq(yqiYq)πqi],nqn=NqNE[Y^Y]=NnqQNqNCov[Yq,Πq].

Ou seja: o viés é uma função da média ponderada das covariâncias entre a variável yqi e as probabilidades de inclusão πqi nos grupos. A hipótese Cov[Yq,Πq]=0 é “amostragem não-informativa”. Em parte, isso justificaria usar testes de doadores de sangue para estimar prevalência de infecções assintomáticas por coronavírus.

A princípio, é possível pensar em duas maneiras de diminuir esta covariância. A primeira seria fazendo πqi constante, mas isso é improvável em amostragens não-probabilísticas. A segunda seria reduzir a variância de Yq: i.e., definir um conjunto de grupos Q tal que a variância da característica de estudo seja a menor possível. Uma combinação das duas ideias também é possível, criando categorias que expliquem a variabilidade de Y e fazendo o possível para que a variabilidade de πqi dentro de cada grupo seja a menor possível.

Adicionalmente, como Π é de ordem n/N, temos Cov[Yq,NnΠq], de modo que o tamanho do viés se torna praticamente independente do tamanho da amostra. Ou seja: ao contrário da amostragem probabilística, aumentar o tamanho da amostra de uma amostra por cotas não reduz o viés!

Abordagem baseada em pseudo-aleatorização

Uma abordagem possível envolve tentar estimar as probabilidades de inclusão na amostra (Wu, 2022, seç. 5). Um método comum é o uso de estimadores de pós-estratificação, supondo que a probabilidade de inclusão é igual dentro de cada grupo da amostragem por cotas. Desta forma, fazendo π^qi=π^q=nqNq:

Y^IPW=1NqQqQyqiπ^qi=qQqQW^qyqi,W^q=NqN

Quando os totais Nq são desconhecidos, mas dispomos de estimativas N^q, a incerteza desta estimativas influencia no processo de estimação2.

Este caso é menos relevante, no sentido que as variáveis que definem as cotas seriam as mesmas que definem os pós-estratos. Ainda assim, ela seria capaz de recompor parte da não-resposta, por exemplo. Ou se os totais usados para planejar o tamanho da amostra das cotas estiverem defasados em relação ao momento da estimação.

O caso mais interessante seria corrigir por pós-estratos definidos por outras variáveis mais associadas ao processo de (auto-)seleção para a amostra. Por outro lado, este caso tem uma restrição importante: se o tamanho da amostra nos pós-estratos forem pequenos, a variabilidade dos pesos corrigidos aumenta a variância do estimador.3 Ou seja: temos um caso do trade-off viés-variância.

Para entender este raciocínio, imagine que π^qi é uma função de uma variável categórica x. Para cada categoria de x, temos uma probabilidade de inclusão estimada π^qi=π^qi(xqi) constante. Assim, se as probabilidades de inclusão forem aproximadamente homogêneas dentro das categorias de x, o viés se torna menor.

Abordagem baseada em modelos

Também é interessante pensar em como a modelagem de superpopulação pode ajudar a resolver o problema. Reescrevendo a média populacional, temos:

Y=1N(isyi+iUsyi)=1N[is(y^i+ei)+iUs(y^i+ei)]]Y=1N(iUy^i+iUei)

Sob um modelo de superpopulação, a variável Y na população é vista como uma amostra aleatória de tamanho N baseada em:4

yqi=mq+ei,eiN(0,σq2)

Os estimadores de Gauss-Markov de mq são as médias amostrais y¯q. Assim, o estimador preditivo toma a forma

Y^Pred=1N(isy¯q+iUsy¯q)=1N[qQ(Nqnq)y^q+qQnqy^q]Y^Pred=qQNqNy^q

A ausência de viés, E[Y^PredY]=0, resulta de E[ei]=0. Além disso, Var[Y^PredY]=qQNq2N2(1nqNq)σq2nq.

Este estimador pode ser visto como uma forma model-based do estimador de pós-estratificação: se o modelo explica bem a distribuição de Y, o erro da média amostral decorre das diferenças na distribuição dos grupos Q. Ao utilizar o estimador de predição, usamos os totais conhecidos Nq para reconstruir o valor esperado da distribuição populacional.

Conclusão

Há outras abordagens possíveis para esse problema. Acho muito interessante mas não encontrei muitas pesquisas não-probabilísticas para trabalhar. Hoje, fiquei sabendo de uma pesquisa de opinião relativamente recente. Pode ser que volte a escrever sobre isso no futuro. (Ou não.)

Referências

ARDILLY, P. Les techniques de sondage. Paris: Technip, 2006.
CHEN, J. K. T.; VALLIANT, R. L.; ELLIOTT, M. R. Calibrating Non-Probability Surveys to Estimated Control Totals Using LASSO, with An Application to Political Polling. Journal of the Royal Statistical Society Series C: Applied Statistics, v. 68, n. 3, p. 657–681, abr. 2019.
DEVILLE, J.-C. A Theory of Quota Surveys. Survey Methodology, v. 17, n. 2, p. 163–181, 1991.
WU, C. Statistical inference with non-probability survey samples. Survey Methodology, v. 48, n. 2, p. 283–311, dez. 2022.

  1. Tropecei nesse livro em 2017, quando marquei um date na Gibert Joseph perto do Quartier Latin. Não me arrependo.↩︎

  2. E na escolha de variáveis de calibração; por exemplo, Chen, Valliant e Elliott (2019).↩︎

  3. Isso me leva a suspeitar que alguns resultados podem ser “muito calibrados”, especialmente quando a pesquisa é feita esporadicamente.↩︎

  4. Algumas suposições sobre o modelo podem ser simplificadas.↩︎