Amostragem por Cotas
Ontem, eu estava vendo stories no Instagram e me deparei com uma aula com as palavras “Amostragem por cotas e pós-estratificação”. Isso me lembrou de um comentário que fiz na aula de amostragem da semana passada: se você não tem uma amostragem probabilística, sua inferência necessariamente se baseia em um modelo, seja ele sobre o modo como a amostra foi selecionada ou sobre o comportamento da variável na população.
Deville (1991) discutiu esse tema com muito cuidado, sugerindo onde o método pode ser útil e porque ele não deveria ser usado em estatísticas oficiais. De fato, amostragem por cotas é algo raro na tradição de estatísticas oficiais, mas relativamente comum em pesquisas de opinião, marketing, etc.
A discussão a seguir segue a apresentação de Ardilly (2006, p. 201–219), onde existe uma discussão bastante acessível sobre viés e variância neste tipo de amostragem não-probabilística (que ele chama de amostragem empírica).1
Qual o problema da amostragem por cotas?
A relação entre a média populacional da variável \(Y\) e as médias populacionais dos grupos \(q \in Q\) pode ser expressa como:
\[ \overline{Y}= \sum_{ q \in Q } \frac{N_q}{N} \overline{Y}_q \]
Em outras palavras, a média populacional é uma média ponderada das médias (populacionais) dos grupos \(q \in Q\). Suponha que \(N_q\) sejam quantidades conhecidas na população. Consequentemente, um estimador do tipo \(\widehat{\overline{Y}} = \sum_{ q \in Q } \frac{N_q}{N} \widehat{\overline{Y}_q}\) é não-viesado se \(E \big[ \widehat{\overline{Y}_q} \big] =\overline{Y}_q\). Este resultado justifica o uso de amostragem estratificada, onde uma amostra probabilística é selecionada em cada grupo \(q\), garantindo a ausência de viés. No entanto, esse resultado não é suficiente para justificar o uso de amostragem por cotas.
No caso de amostragem por cotas, uma amostragem não-probabilística é realizada com a restrição de que a distribuição amostral das categorias \(Q\) seja idêntica à distribuição populacional. Ou seja, uma amostra de \(n\) unidades é selecionada de tal forma que \(\frac{n_q}{n} = \frac{N_q}{N} , \forall q \in Q\). Em geral, o procedimento de estimação se baseia no estimador
\[ \widehat{\overline{Y}} = \sum_{ q \in Q } \frac{N_q}{N} \bar{y}_q , \quad \bar{y}_q = \frac{1}{n_q} \sum_{i \in s_q} y_{qi} \]
onde \(y_{qi}\) é o valor da característica \(y\) para o indivíduo \(i\) no grupo \(q\) e \(\bar{y}_q\) é a média amostral da característica \(Y\) no grupo \(q\). Porém, denotando \(\epsilon_{qi} = y_{qi} - \overline{Y}_q\), temos que \(\bar{\epsilon}_q = \frac{1}{n_q} \sum_{i \in s_q} \epsilon_{qi}\). Então,
\[ \begin{aligned} \widehat{\overline{Y}} &= \sum_{q \in Q} \frac{N_q}{N} \big( \overline{Y}_q + \bar{\epsilon}_q \big) = \sum_{q \in Q} \frac{N_q}{N} \overline{Y}_q + \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \\ \therefore \widehat{\overline{Y}} &= \overline{Y}+ \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \\ \therefore E \bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= E \bigg[ \overline{Y}+ \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \bigg] - \overline{Y}= E \bigg[ \sum_{q \in Q} \frac{N_q}{N} \bar{\epsilon}_q \bigg] \\ \therefore E \bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \sum_{q \in Q} \frac{N_q}{N} E \big[ \bar{\epsilon}_q \big] \end{aligned} \]
Porém,
\[ \begin{aligned} E \big[ \bar{\epsilon}_q \big] &= E \bigg[ \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \mathbb{1}( i \in s_q ) \epsilon_{qi} \bigg] \\ &= \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \epsilon_{qi} E \big[ \mathbb{1}( i \in s_q ) \big] \\ &= \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \epsilon_{qi} \pi_{qi} , \quad \pi_{qi} = E \big[ \mathbb{1}( i \in s_q ) \big] . \\ \end{aligned} \]
onde \(\pi_{qi}\) é a probabilidade de inclusão da unidade \(i\) do grupo \(q\) na amostra.
No caso de amostras probabilísticas, a probabilidade de inclusão \(\pi_{qi}\) é conhecida e controlada pelo amostrista. Em amostras não-probabilísticos, como a amostragem por cotas, \(\pi_{qi}\) é desconhecida: mesmo quando há treinamento para que o entrevistados selecione pessoas da forma “mais aleatória” possível, é difícil conseguir essa pseudo-aleatorização. Ele pode substituir pessoas que estão correndo por pessoas que andam mais devagar, ou uma pessoa zangada por outra mais contente. Quando impomos a média amostral, estamos supondo que a probabilidade de seleção dentro do grupo \(q\) é a mesma; i.e., \(\pi_{qi} = \pi_{qj} , i,j \in s_q\).
Mesmo assim, na falta de escolha melhor, podemos utilizar a média amostral \(\bar{y}_q\). Ao fazer isso, temos
\[ \begin{aligned} E \bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \sum_{q \in Q} \frac{N_q}{N} E \big[ \bar{\epsilon}_q \big] \\ &= \sum_{q \in Q} \frac{N_q}{N} \bigg[ \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} \epsilon_{qi} \pi_{qi} \bigg] \\ &= \sum_{q \in Q} \frac{N_q}{N} \bigg[ \frac{1}{n_q} \sum_{i \in \mathcal{U}_q} ( y_{qi} - \overline{Y}_q) \pi_{qi} \bigg] \\ &= \frac{N}{n} \sum_{q \in Q} \frac{N_q}{N} \bigg[ \frac{1}{N_q} \sum_{i \in \mathcal{U}_q} ( y_{qi} - \overline{Y}_q) \pi_{qi} \bigg] , \quad \frac{n_q}{n} = \frac{N_q}{N} \\ \therefore E \bigg[ \widehat{\overline{Y}} - \overline{Y}\bigg] &= \frac{N}{n} \sum_{q \in Q} \frac{N_q}{N} \text{Cov}\big[ Y_q , \Pi_q \big] . \end{aligned} \]
Ou seja: o viés é uma função da média ponderada das covariâncias entre a variável \(y_{qi}\) e as probabilidades de inclusão \(\pi_{qi}\) nos grupos. A hipótese \(\text{Cov}\big[ Y_q , \Pi_q \big] = 0\) é “amostragem não-informativa”. Em parte, isso justificaria usar testes de doadores de sangue para estimar prevalência de infecções assintomáticas por coronavírus.
A princípio, é possível pensar em duas maneiras de diminuir esta covariância. A primeira seria fazendo \(\pi_{qi}\) constante, mas isso é improvável em amostragens não-probabilísticas. A segunda seria reduzir a variância de \(\overline{Y}_q\): i.e., definir um conjunto de grupos \(Q\) tal que a variância da característica de estudo seja a menor possível. Uma combinação das duas ideias também é possível, criando categorias que expliquem a variabilidade de \(Y\) e fazendo o possível para que a variabilidade de \(\pi_{qi}\) dentro de cada grupo seja a menor possível.
Adicionalmente, como \(\Pi\) é de ordem \(n/N\), temos \(\text{Cov}\big[ Y_q , \frac{N}{n} \Pi_q \big]\), de modo que o tamanho do viés se torna independente do tamanho da amostra. Ou seja: ao contrário da amostragem probabilística, aumentar o tamanho da amostra de uma amostra por cotas não reduz o viés!
Abordagem baseada em modelos
Embora não seja a única abordagem possível, é interessante pensar em como a modelagem de superpopulação pode ajudar a resolver o problema. Reescrevendo a média populacional, temos:
\[ \begin{aligned} \overline{Y}&= \frac{1}{N} \bigg( \sum_{i \in s} y_i + \sum_{i \in \mathcal{U}\setminus s } y_i \bigg) \\ &= \frac{1}{N} \bigg[ \sum_{i \in s} ( \hat{y}_i + e_i ) + \sum_{i \in \mathcal{U}\setminus s } ( \hat{y}_i + e_i ) ] \bigg] \\ \therefore \overline{Y}&= \frac{1}{N} \bigg( \sum_{i \in \mathcal{U}} \hat{y}_i + \sum_{i \in \mathcal{U}} e_i \bigg) \\ \end{aligned} \] Sob o modelo de superpopulação, a população é vista como uma amostra aleatória da distribuição
\[ y_{qi} = m_q + e_{i} , \quad e_i \sim \mathcal{N} ( 0 , \sigma_q^2 ) \]
Os estimadores de Gauss-Markov de \(m_q\) são as médias amostrais \(\bar{y}_q\). Assim, o estimador preditivo toma a forma
\[ \begin{aligned} \widehat{\overline{Y}}_{Pred} &= \frac{1}{N} \bigg( \sum_{i \in s } \bar{y}_q + \sum_{i \in \mathcal{U}\setminus s } \bar{y}_q \bigg) \\ &= \frac{1}{N} \bigg[ \sum_{q \in Q} ( N_q - n_q ) \hat{y}_q + \sum_{q \in Q} n_q \hat{y}_q \bigg] \\ \therefore \widehat{\overline{Y}}_{Pred} &= \sum_{q \in Q} \frac{ N_q }{N} \hat{y}_q \\ \end{aligned} \]
A ausência de viés, \(E[ \widehat{\overline{Y}}_{Pred} - \overline{Y}] = 0\), resulta de \(E[ e_i ] = 0\). Além disso, \(\text{Var}\big[ \widehat{\overline{Y}}_{Pred} - \overline{Y}\big] = \sum_{q \in Q} \frac{ N_q^2 }{N^2} \bigg( 1 - \frac{n_q}{N_q} \bigg) \frac{\sigma^2_q}{n_q}\).
Este estimador pode ser visto como uma forma model-based do estimador de pós-estratificação: se o modelo explica bem a distribuição de \(Y\), o erro da média amostral decorre das diferenças na distribuição dos grupos \(Q\). Ao utilizar o estimador de predição, usamos os totais conhecidos \(N_q\) para reconstruir o valor esperado da distribuição populacional.
Conclusão
Há outras abordagens possíveis para esse problema. Acho muito interessante mas não encontrei muitas pesquisas não-probabilísticas para trabalhar. Hoje, fiquei sabendo de uma pesquisa de opinião relativamente recente. Pode ser que volte a escrever sobre isso no futuro. (Ou não.)
Referências
Tropecei nesse livro quando marquei um date na Gibert Joseph em 2017. Não me arrependo.↩︎