Há alguns dias atrás, rolou o ENEM desse ano. E daí veio a ideia para este post: analisar a desigualdade na educação entre os jovens do Ensino Médio a partir das pontuações dos candidatos. Usando R, como sempre.

Vou tentar manter as complicações matemáticas fora da questão e focar na aplicação da técnica para entender o contexto da desigualdade educacional. Assim, pretendo trazer gente de outras áreas, como pedagogos e sociólogos, que podem se beneficiar de mais uma ferramenta para analisar o problema, além de contribuir com novas perspectivas para “aqueles que só pensam com números”1.

E, sim, hoje vai ser tudo em português.

Pegue seu café, sente-se confortavelmente e vamos lá!

ENEM

O Exame Nacional do Ensino Médio (ENEM) é uma prova realizada anualmente pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), um órgão associado ao Ministério da Educação. A finalidade do ENEM é avaliar a qualidade do ensino médio e, desde 2009, tornou-se a principal forma de ingresso nas universidades públicas do Brasil. De fato, esse é o segundo maior vestibular do mundo, ficando atrás apenas do exame de admissão chinês.

Embora a prova exista desde 1998, foi com o estabelecimento do SiSU que o número de examinados cresceu. Assim, o exame, antes composto majoritariamente por estudantes de escolas públicas, passou a ser amplamente utilizada pelos de escolas particulares. Essa mudança proporciona um experimento interessante sobre o desempenho dos estudantes do Brasil.

Desigualdade e educação

Essa parte contém um pouco de matemática.
Mas, não se assuste: vou tentar explicar tudo sem muita complicação.

O estudo da desigualdade é uma mistura de economia, filosofia, matemática e estatística. Embora os estudos neste campo se voltem majoritariamente às distribuições de renda e riqueza, existem vários trabalhos discutindo outras formas de desigualdade.

No entanto, o tipo de variável costuma ser o principal desafio: renda é uma variável contínua, enquanto o estado de saúde, por exemplo, costuma ser uma variável ordinal. Esse tipo de problema é comum na análise de aspectos qualitativos do bem-estar. Em outras palavras, quando perguntadas a respeito de sua saúde, as pessoas não respondem “estou com 75 de saúde” a não ser que você esteja jogando LOL ou algo do tipo, mas algo como “ruim” , “bem”, “excelente”. Quando temos esse tipo de resposta, não dá pra simplesmente calcular um índice de Gini. Caso você se interesse por esses problemas, Cowell e Flachaire (2017) é uma leitura obrigatória, mostrando como as medidas tradicionais falham e propondo uma classe de medidas que atende os axiomas propostos.

Dito isso, cabe a pergunta: existe uma medida cardinal da desigualdade em educação? Se considerarmos o desempenho dos alunos em provas, pode-se dizer que sim. A lógica é mais ou menos essa: quanto mais preparado o aluno, melhor o desempenho na prova. Se o desempenho é medido em pontuação e não em categorias, podemos usar a pontuação para medir a desigualdade.

Evidentemente, essa abordagem tem seus problemas, desde provas mal formuladas a seleção de alunos examinados. Esse último é particularmente sério. Como a média das notas de uma escola é tomada como uma indicação da qualidade do seu ensino, um diretor mais mal intencionado pode dificultar a candidatura dos alunos que teriam uma pontuação ruim. Desta forma, a amostra se torna viesada. Isso é mais possível em escolas particulares, já que é mais provável que os alunos tenham condições financeiras de ir para uma faculdade particular.

A própria percepção do diferencial de desempenho entre escolas públicas e particulares pode ser causar um viés na amostra. O aluno que pensa não ter chance no vestibular não tem muito incentivo para fazer a prova. Existe uma miríade de aspectos socioeconômicos que fazem com que esse comportamento ocorra.

Com essas ressalvas em mente, prossigamos.

Algumas estatísticas sobre o ENEM 2015

Para entender um pouco de como se distribuem resultados, vamos analisar quem são os 1000 melhores e os 1000 piores de acordo com o desempenho nas provas. No exercício a seguir, analisaremos apenas os dados dos alunos que:

  • Estavam concluindo o ensino médio em 2015, e
  • Estiveram presentes em todas as provas, e
  • Não tiveram qualquer problema na redação, e
  • Não estavam fazendo a prova apenas para medir seus conhecimentos.

Em outras palavras: estamos trabalhando com a interseção destes quatro conjuntos de examinados, não a união.

O gráfico \(\ref{dist_extreme}\) abaixo mostra como as notas dos extremos se distribuem. Enquanto os melhores desempenhos tendem a se concentrar mais entre domicílios mais ricos, os piores desempenhos se concentram ainda mais entre os domicílios mais pobres. Ou seja, é bem mais provável que uma “nota baixa” venha de um domicílio de baixa renda. O “monte” em vermelho entre os domicílios de catagoria “B” e “C” mostra isso. E a queda se comparado a categoria “A” se deve principalmente a raridade destes indivíduos, seja porque realmente existem poucos domicílios com nenhuma renda, seja porque as pessoas destes domicílios tendem a não fazer a prova.

Ok, mas e as médias? A média da pontuação dos extremos é bem diferente, como de se esperar. De fato, a pontuação dos melhores é aproximadamente 2.7 vezes melhor que a dos piores. O gráfico \(\ref{avg_extreme}\) abaixo mostra esta discrepâncias.

Como medir: um exercício de decomposição por subgrupos.

Se você já leu alguma coisa sobre desigualdade, você deve ter visto estimativas do índice de Gini. Essa é, de longe, a medida de desigualdade mais conhecida. Mas também existem outras medidas bem interessantes. Uma medida recente é a J-divergência, proposta por Rohde (2016). Ela tem uma vantagem sobre o índice de Gini: decomposição por subgrupos. I.e., a estimativa pode mostrar o quanto se deve a desigualdade entre grupos e intra-grupos.

As duas medidas estão disponíveis no pacote convey (Pessoa, Damico e Jacob, 2017a), incluindo a decomposição da J-divergência. Facilmente encontradas em Pessoa, Damico e Jacob (2017b), as fórmulas dos indicadores são essas:

\[ \begin{aligned} G &= 1 - 2 \int_{0}^{1} L(p)dp \\ J &= \int_{0}^{\infty} \bigg( \frac{ y_i - \mu }{ \mu } \bigg) \log \bigg( \frac{y_i}{\mu} \bigg) f \big( y_i \big) dy \end{aligned} \] onde \(L(\cdot)\) é a curva de Lorenz.

Nota: talvez eu devesse parar com o marketing pessoal.

Na prática

Vamos usar os dados do ENEM 2015, disponíveis na página de microdados do INEP. Depois de colocar os dados numa base MonetDB, vou criar um “pseudo-desenho amostral”. Por que “pseudo”? Porque a base não é uma amostra propriamente dita. Então, por que fazer isso? As funções do convey só funcionam sobre objetos de desenho amostral. Além disso, o convey funciona bem com bases de dados externas, usando apenas as informações necessárias para o cálculo.

Área Gini J-divergência
Brasil 0.0822 0.0211
Norte 0.0765 0.0186
Nordeste 0.0834 0.0220
Sudeste 0.0808 0.0203
Sul 0.0740 0.0171
Centro-Oeste 0.0809 0.0207

As primeiras coisas que percebemos ao olhar a tabela \(\ref{tabela1}\) são: (1) existe menos desigualdade nesta distribuição do que em distribuições de renda, e (2) o índice de Gini é maior que a J-divergência. A primeira observação decorre de um aspecto um tanto óbvio: as pontuações tem um limite superior, ao contrário das distribuições de renda. Em outras palavras, uma pessoa não pode ter mais do que 1 000 pontos, embora sua renda pode extrapolar esse limite. O segundo aspecto também é interessante: o índice de Gini é mais sensível às desigualdades próximas da média, enquanto a J-divergência tende a ser mais sensível às desigualdades nas caudas. Consequentemente, podemos supor que a maior parte da desigualdade está no meio da distribuição.

É normal que a diferença entre categorias apresente um valor menor que a desigualdade dentro das categorias, mesmo para renda. Dito isso, a decomposição da J-divergência, na tabela \(\ref{tabela2}\) abaixo, mostra alguns padrões interessantes. Apesar de todo retrocesso recente, A desigualdade no desempenho entre os gêneros2 praticamente não se deve a este aspecto. A decomposição captou impactos das diferenças entre cor/raça, embora esses sejam menores que os impactos decorrentes do tipo de escola3 ou da renda. No caso da renda, 30% da desigualdade pode ser atribuída à desigualdade entre as classes.

Table 1: Decomposição da J-divergência - Brasil, 2015
J-divergência Entre Intra
Gênero 0.0211 0.0211 0.0001
Cor/Raça 0.0211 0.0199 0.0013
Tipo de Escola 0.0211 0.0154 0.0058
Renda 0.0211 0.0152 0.0060

Concluindo

Com esse exercício, quis mostrar que, embora os indicadores de desigualdade sejam normalmente associados às distribuições de renda, eles podem ser aplicados a outras distribuições. No caso, eles podem ajudar a entender aspectos da desigualdade na educação, desde que aplicados corretamente.

No entanto, o problema da desigualdade com variáveis ordinais continua aberto. Ainda não existem muitos trabalhos a respeito de inferência estatística com este tipo de medida. Deixo aqui uma possível cena dos próximos capítulos: será que podemos calcular desigualdade em saúde usando a Pesquisa Nacional de Saúde levando em consideração o desenho amostral complexo?

Peut être.

Referências

COWELL, F. A.; FLACHAIRE, E. Inequality with Ordinal Data. Economica, v. 84, abr. 2017.
PESSOA, D.; DAMICO, A.; JACOB, G. Poverty and Inequality with Complex Survey Data, b2017. Disponível em: <https://guilhermejacob.github.io/context>
___. convey: Income Concentration Analysis with Complex Survey Samples. [s.l: s.n.].
ROHDE, N. J-divergence measurements of economic inequality. Journal of the Royal Statistical Society: Series A (Statistics in Society), v. 179, n. 3, p. 847–870, 2016.

  1. Já me chamaram de coisa pior.↩︎

  2. Peço que me corrijam se eu estiver usando o termo incorretamente!↩︎

  3. Aqui, tipo de escola se refere à dependência administrativa.↩︎