Aviso: Esse post é experimental e eu posso estar completamente errado. Leia com cautela. Ou não leia.
Ainda vou incluir as referências.

Aproveitando que eu estou com algum tempo e evitando pensar no seminário de dissertação amanhã, resolvi escrever um pouco sobre a única coisa que as pessoas acham que eu faço estimar índices de Gini.

Li um pouco sobre estimação de índices de Gini com a distribuição Beta Generalizada do Tipo 2 e achei bem interessante.

Por que usar um modelo para estimar o índice do Gini? Essa pergunta é uma pergunta importante. É comum usar dados coletados através de pesquisas amostrais para estimar parâmetros da população. Porém, pesquisadores que estudam desigualdade apontam que as pessoas tendem a subreportar a renda, especialmente as pessoas mais ricas. Esse é o tipo de erro que não se resolve aumentando o tamanho da amostra e é um problema na vida dos amostristas.

Existem diversas metodologias sendo discutidas para lidar com esse problema. Uma das delas parte da seguinte lógica: se você consegue descrever o modelo aleatório que gera as rendas observadas, você conseguiria estimar o índice de Gini daquela população. Se você tem mais confiança nas respostas da renda de uma parte da distribuição, com algumas hipóteses simplificadoras, você pode usar estes dados para estimar os parâmetros da distribuição minimizando o impacto do erro de mensuração.

Há uma condição importante: o modelo tem que se ajustar bem aos dados. A estimação baseada apenas no desenho não faz essa exigência.

Diante disso, resolvi tentar a ajustar uma GB2 à distribuição de renda do trabalho do Amazonas na PNADC/2018. E o resultado foi esse:

As distribuições Log-Normal e GB2 parecem ser boas candidatas, com a segunda sendo um pouco melhor. Acho que isso é até esperado, já que a primeira é um caso da segunda.

O gráfico abaixo mostra que há um desvio em relação aos quantis empíricos e a distribuição GB2 nas rendas altas: os quantis empíricos crescem mais lentamente que os quantis teóricos. Se o nosso modelo descreve a distribuição verdadeira, essa diferença pode vir do erro de medida nas rendas.

Mas e o índice de Gini? Usando o desenho, a estimativa é de 0.495, com IC(95%) (0.457;0.533). Já a estimativa usando o modelo é 0.489. Ou seja: não é uma diferença estatisticamente significativa. Interpretar essa diferença pode ser o mesmo que interpretar o lançamento de uma moeda, folhas na xícara de chá, horóscopo, etc.

Bom, ainda não calculei o intervalo de confiança dos valores usando o modelo. A princípio, se o desenho amostral não for informativo, eu poderia usar o modelo sem os pesos e ter estimativas mais precisas. Porém, eu tenho uma forte suspeita de que o desenho seja informativo, já que a renda faz parte da estratificação estatística do plano amostral.

Pretendo voltar a isso no futuro. Ou não.