Ontem, eu estava vendo stories no Instagram e me deparei com uma aula com as palavras “Amostragem por cotas e pós-estratificação”. Isso me lembrou de um comentário que fiz na aula de amostragem da semana passada: se você não tem uma amostragem probabilística, sua inferência necessariamente se baseia em um modelo, seja ele sobre o modo como a amostra foi selecionada ou sobre o comportamento da variável na população.

Deville (1991) discutiu esse tema com muito cuidado, sugerindo onde o método pode ser útil e porque ele não deveria ser usado em estatísticas oficiais. De fato, amostragem por cotas é algo raro na tradição de estatísticas oficiais, mas relativamente comum em pesquisas de opinião, marketing, etc.

A discussão a seguir segue a apresentação de Ardilly (2006, p. 201–219), onde existe uma discussão bastante acessível sobre viés e variância neste tipo de amostragem não-probabilística (que ele chama de amostragem empírica).1

Qual o problema da amostragem por cotas?

A relação entre a média populacional da variável \(Y\) e as médias populacionais dos grupos \(q \in Q\) pode ser expressa como:

\[ \overline{Y}= \sum_{ q \in Q } \frac{N_q}{N} \overline{Y}_q \]

Em outras palavras, a média populacional é uma média ponderada das médias (populacionais) dos grupos \(q \in Q\). Suponha que \(N_q\) sejam quantidades conhecidas na população. Consequentemente, um estimador do tipo \(\widehat{\overline{Y}} = \sum_{ q \in Q } \frac{N_q}{N} \widehat{\overline{Y}_q}\) é não-viesado se \(\text{E}\big[ \widehat{\overline{Y}_q} \big] =\overline{Y}_q\). Este resultado justifica o uso de amostragem estratificada, onde uma amostra probabilística é selecionada em cada grupo \(q\), garantindo a ausência de viés. No entanto, esse resultado não é suficiente para justificar o uso de amostragem por cotas.

No caso de amostragem por cotas, uma amostragem não-probabilística é realizada com a restrição de que a distribuição amostral das categorias \(Q\) seja idêntica à distribuição populacional. Ou seja, uma amostra de \(n\) unidades é selecionada de tal forma que \(\frac{n_q}{n} = \frac{N_q}{N} , \forall q \in Q\). Em geral, o procedimento de estimação se baseia no estimador

\[ \widehat{\overline{Y}} = \sum_{ q \in Q } \frac{N_q}{N} \bar{y}_q , \quad \bar{y}_q = \frac{1}{n_q} \sum_{i \in s_q} y_{qi} \]

onde \(y_{qi}\) é o valor da característica \(y\) para o indivíduo \(i\) no grupo \(q\) e \(\bar{y}_q\) é a média amostral da característica \(Y\) no grupo \(q\). Porém, denotando \(\epsilon_{qi} = y_{qi} - \overline{Y}_q\), temos que \(\bar{\epsilon}_q = \frac{1}{n_q} \sum_{i \in s_q} \epsilon_{qi}\). Então,

\[ \begin{aligned} \widehat{\overline{Y}} &= \sum_{q \in Q} \frac{N_q}{N} \big( \overline{Y}_q + \bar{\epsilon}_q \big) = \sum_{q \in Q} \frac{N_q}{N} \overline{Y}_q + \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \\ \therefore \widehat{\overline{Y}} &= \overline{Y}+ \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \\ \therefore \text{E}\bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \text{E}\bigg[ \overline{Y}+ \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \bigg] - \overline{Y}= \text{E}\bigg[ \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \bigg] \\ \therefore \text{E}\bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \sum_{q \in Q} \frac{N_q}{N} \text{E}\big[ \bar{\epsilon}_q \big] \end{aligned} \]

Porém,

\[ \begin{aligned} \text{E}\big[ \bar{\epsilon}_q \big] &= \text{E}\bigg[ \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \mathbb{1}( i \in s_q ) \epsilon_{qi} \bigg] \\ &= \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \epsilon_{qi} \text{E}\big[ \mathbb{1}( i \in s_q ) \big] \\ &= \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \epsilon_{qi} \pi_{qi} , \quad \pi_{qi} = \text{E}\big[ \mathbb{1}( i \in s_q ) \big] . \\ \end{aligned} \]

onde \(\pi_{qi}\) é a probabilidade de inclusão da unidade \(i\) do grupo \(q\) na amostra.

No caso de amostras probabilísticas, a probabilidade de inclusão \(\pi_{qi}\) é conhecida e controlada pelo amostrista. Em amostras não-probabilísticos, como a amostragem por cotas, \(\pi_{qi}\) é desconhecida: mesmo quando há treinamento para que o entrevistados selecione pessoas da forma “mais aleatória” possível, é difícil conseguir essa pseudo-aleatorização. Ele pode substituir pessoas que estão correndo por pessoas que andam mais devagar, ou uma pessoa zangada por outra mais contente. Quando impomos a média amostral, estamos supondo que a probabilidade de seleção dentro do grupo \(q\) é a mesma; i.e., \(\pi_{qi} = \pi_{qj} , i,j \in s_q\).

Mesmo assim, na falta de escolha melhor, podemos utilizar a média amostral \(\bar{y}_q\). Ao fazer isso, temos

\[ \begin{aligned} \text{E}\bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \sum_{q \in Q} \frac{N_q}{N} \text{E}\big[ \bar{\epsilon}_q \big] \\ &= \sum_{q \in Q} \frac{N_q}{N} \bigg[ \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \epsilon_{qi} \pi_{qi} \bigg] \\ &= \sum_{q \in Q} \frac{N_q}{N} \bigg[ \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} ( y_{qi} - \overline{Y}_q) \pi_{qi} \bigg] \\ &= \frac{N}{n} \sum_{q \in Q} \frac{N_q}{N} \bigg[ \frac{1}{N_q} \sum_{i \in \mathcal{U}_q} ( y_{qi} - \overline{Y}_q) \pi_{qi} \bigg] , \quad \frac{n_q}{n} = \frac{N_q}{N} \\ \therefore \text{E}\bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \frac{N}{n} \sum_{q \in Q} \frac{N_q}{N} \text{Cov}\big[ Y_q , \Pi_q \big] . \end{aligned} \]

Ou seja: o viés é uma função da média ponderada das covariâncias entre a variável \(y_{qi}\) e as probabilidades de inclusão \(\pi_{qi}\) nos grupos. A hipótese \(\text{Cov}\big[ Y_q , \Pi_q \big] = 0\) é “amostragem não-informativa”. Em parte, isso justificaria usar testes de doadores de sangue para estimar prevalência de infecções assintomáticas por coronavírus.

A princípio, é possível pensar em duas maneiras de diminuir esta covariância. A primeira seria fazendo \(\pi_{qi}\) constante, mas isso é improvável em amostragens não-probabilísticas. A segunda seria reduzir a variância de \(\overline{Y}_q\): i.e., definir um conjunto de grupos \(Q\) tal que a variância da característica de estudo seja a menor possível. Uma combinação das duas ideias também é possível, criando categorias que expliquem a variabilidade de \(Y\) e fazendo o possível para que a variabilidade de \(\pi_{qi}\) dentro de cada grupo seja a menor possível.

Adicionalmente, como \(\Pi\) é de ordem \(n/N\), temos \(\text{Cov}\big[ Y_q , \frac{N}{n} \Pi_q \big]\), de modo que o tamanho do viés se torna praticamente independente do tamanho da amostra. Ou seja: ao contrário da amostragem probabilística, aumentar o tamanho da amostra de uma amostra por cotas não reduz o viés!

Abordagem baseada em pseudo-aleatorização

Uma abordagem possível envolve tentar estimar as probabilidades de inclusão na amostra (Wu, 2022, seç. 5). Um método comum é o uso de estimadores de pós-estratificação, supondo que a probabilidade de inclusão é igual dentro de cada grupo da amostragem por cotas. Desta forma, fazendo \(\hat{\pi}_{qi} = \hat{\pi}_{q} = \frac{n_q}{N_q}\):

\[ \begin{aligned} \widehat{\overline{Y}}_{\text{IPW}} &= \frac{1}{N} \sum_{q \in Q } \sum_{q \in Q } \frac{y_{qi}}{\hat{\pi}_{qi}} \\ &= \sum_{q \in Q } \sum_{q \in Q } \widehat{W}_q y_{qi} , \quad \widehat{W}_q = \frac{N_q}{N} \end{aligned} \]

Quando os totais \(N_q\) são desconhecidos, mas dispomos de estimativas \(\widehat{N}_q\), a incerteza desta estimativas influencia no processo de estimação2.

Este caso é menos relevante, no sentido que as variáveis que definem as cotas seriam as mesmas que definem os pós-estratos. Ainda assim, ela seria capaz de recompor parte da não-resposta, por exemplo. Ou se os totais usados para planejar o tamanho da amostra das cotas estiverem defasados em relação ao momento da estimação.

O caso mais interessante seria corrigir por pós-estratos definidos por outras variáveis mais associadas ao processo de (auto-)seleção para a amostra. Por outro lado, este caso tem uma restrição importante: se o tamanho da amostra nos pós-estratos forem pequenos, a variabilidade dos pesos corrigidos aumenta a variância do estimador.3 Ou seja: temos um caso do trade-off viés-variância.

Para entender este raciocínio, imagine que \(\hat{\pi}_{qi}\) é uma função de uma variável categórica \(x\). Para cada categoria de \(x\), temos uma probabilidade de inclusão estimada \(\hat{\pi}_{qi} = \hat{\pi}_{qi} ( x_{qi} )\) constante. Assim, se as probabilidades de inclusão forem aproximadamente homogêneas dentro das categorias de \(x\), o viés se torna menor.

Abordagem baseada em modelos

Também é interessante pensar em como a modelagem de superpopulação pode ajudar a resolver o problema. Reescrevendo a média populacional, temos:

\[ \begin{aligned} \overline{Y}&= \frac{1}{N} \bigg( \sum_{i \in s} y_i + \sum_{i \in \mathcal{U}\setminus s } y_i \bigg) \\ &= \frac{1}{N} \bigg[ \sum_{i \in s} ( \hat{y}_i + e_i ) + \sum_{i \in \mathcal{U}\setminus s } ( \hat{y}_i + e_i ) ] \bigg] \\ \therefore \overline{Y}&= \frac{1}{N} \bigg( \sum_{i \in \mathcal{U}} \hat{y}_i + \sum_{i \in \mathcal{U}} e_i \bigg) \\ \end{aligned} \]

Sob um modelo de superpopulação, a variável \(Y\) na população é vista como uma amostra aleatória de tamanho \(N\) baseada em:4

\[ y_{qi} = m_q + e_{i} , \quad e_i \sim \mathcal{N} ( 0 , \sigma_q^2 ) \]

Os estimadores de Gauss-Markov de \(m_q\) são as médias amostrais \(\bar{y}_q\). Assim, o estimador preditivo toma a forma

\[ \begin{aligned} \widehat{\overline{Y}}_{\text{Pred}} &= \frac{1}{N} \bigg( \sum_{i \in s } \bar{y}_q + \sum_{i \in \mathcal{U}\setminus s } \bar{y}_q \bigg) \\ &= \frac{1}{N} \bigg[ \sum_{q \in Q} ( N_q - n_q ) \hat{y}_q + \sum_{q \in Q} n_q \hat{y}_q \bigg] \\ \therefore \widehat{\overline{Y}}_{\text{Pred}} &= \sum_{q \in Q} \frac{ N_q }{N} \hat{y}_q \\ \end{aligned} \]

A ausência de viés, \(\text{E}[ \widehat{\overline{Y}}_{\text{Pred}} - \overline{Y}] = 0\), resulta de \(\text{E}[ e_i ] = 0\). Além disso, \(\text{Var}\big[ \widehat{\overline{Y}}_{\text{Pred}} - \overline{Y}\big] = \sum_{q \in Q} \frac{ N_q^2 }{N^2} \bigg( 1 - \frac{n_q}{N_q} \bigg) \frac{\sigma^2_q}{n_q}\).

Este estimador pode ser visto como uma forma model-based do estimador de pós-estratificação: se o modelo explica bem a distribuição de \(Y\), o erro da média amostral decorre das diferenças na distribuição dos grupos \(Q\). Ao utilizar o estimador de predição, usamos os totais conhecidos \(N_q\) para reconstruir o valor esperado da distribuição populacional.

Conclusão

Há outras abordagens possíveis para esse problema. Acho muito interessante mas não encontrei muitas pesquisas não-probabilísticas para trabalhar. Hoje, fiquei sabendo de uma pesquisa de opinião relativamente recente. Pode ser que volte a escrever sobre isso no futuro. (Ou não.)

Referências

ARDILLY, P. Les techniques de sondage. Paris: Technip, 2006.
CHEN, J. K. T.; VALLIANT, R. L.; ELLIOTT, M. R. Calibrating Non-Probability Surveys to Estimated Control Totals Using LASSO, with An Application to Political Polling. Journal of the Royal Statistical Society Series C: Applied Statistics, v. 68, n. 3, p. 657–681, abr. 2019.
DEVILLE, J.-C. A Theory of Quota Surveys. Survey Methodology, v. 17, n. 2, p. 163–181, 1991.
WU, C. Statistical inference with non-probability survey samples. Survey Methodology, v. 48, n. 2, p. 283–311, dez. 2022.

  1. Tropecei nesse livro em 2017, quando marquei um date na Gibert Joseph perto do Quartier Latin. Não me arrependo.↩︎

  2. E na escolha de variáveis de calibração; por exemplo, Chen, Valliant e Elliott (2019).↩︎

  3. Isso me leva a suspeitar que alguns resultados podem ser “muito calibrados”, especialmente quando a pesquisa é feita esporadicamente.↩︎

  4. Algumas suposições sobre o modelo podem ser simplificadas.↩︎