knitr::opts_chunk$set(cache=FALSE) # defaults to cacheing

Encerrando1 as análises usando bases de dados públicas, vamos focar no ensino superior.
Inicialmente, vamos explicar o que é o Censo da Educação Superior. Depois, vamos mostrar como montar as bases de dados. E, concluindo, vamos fazer um pequeno exercício de visualização de dados.

Ah, e eu vou ser muito breve neste post, por motivos de: tenho que escrever um projeto de pesquisa (:

Censo da Educação Superior

O Censo da Educação Superior é conduzido anualmente pelo Inep. Ele consiste, basicamente, em uma compilação de registros administrativos de todas as instituições de ensino superior (IES), informando sobre seus alunos, docentes, cursos ofertados, etc. Desde 2009, eles seguem mais ou menos a mesma estrutura, embora existam dados desde 1995.

Montando a base

Para facilitar o processo de baixar e montar a base de dados, escrevi esse script com três funções para facilitar esse procedimento. O bloco de código abaixo mostra como fazer essa tarefa:

Esse procedimento pode ser um pouco demorado, dependendo da sua conexão com a internet e seu computador.

# instala os pacotes:
libs <- c("DBI", "MonetDBLite" , "devtools" )
libs.novas <- libs[ !( libs %in% installed.packages()[ , "Package" ] ) ]
if( length( libs.novas ) ) install.packages( libs.novas )

# vamos usar algumas funções deste pacote também
devtools::install_github( "ajdamico/lodown" )

# carrega os pacotes necessários
library(DBI)
library(MonetDBLite)
library(lodown)

# carrega funções do script
downloader::source_url("https://raw.githubusercontent.com/guilhermejacob/guilhermejacob.github.io/master/scripts/censo_superior.R")

# define o diretório onde serão depositados os dados
output_dir <- file.path( tempdir() , "Censo Superior" )

# coleta o "catálogo de dados" no site do MDS:
catalog <- get_catalog_cadunico( output_dir )

# O próximo passo é opcional:
# Aqui, escolho apenas os dados do último ano
catalog <- catalog[ catalog$year == 2016 , ]

# Vamos usar esse "catálogo" como o argumento da função build_cadunico
# Essa última função vai montar a base de dados
build_cadunico( catalog )

# Conecta à base
db <- dbConnect( db , MonetDBLite() , file.path( output_dir , "MonetDB" ) )
# AVISO: na primeira conexão após montar a base, esse passo pode demorar um pouco mais que o de costume.

# lista tabelas na base
dbListTables( db )

# disconecta da base e fecha o cliente
dbDisconnect( db , shutdown = TRUE )

E é isso! Só aguardar o processo encerrar e você terá uma base de dados em MonetDB.

Uma análise com treemaps

Bom, essa análise é bem superficial, mas vamos lá. A ideia aqui é tentar visualizar como se distribuem os sexos entre os cursos superiores, usando as classificações da OCDE. A cor vermelha implica mais mulheres e a cor azul, mais homens. Além disso, você pode ir clicando no gráfico, afinal ele é interativo (;

Além das coisas óbvias engenharias, tem alguns resultados interessantes:

  • “Religião e teologia” tem uma preponderância masculina;
  • “Engenharia florestal” apresenta proporções similares entre masculino e feminino;
  • Nas grande área “ciências sociais e comportamentais”, economia é a única com preponderância masculina.

O que isso quer dizer?

  • Quer dizer que o assunto desse post acabou; e
  • Qualquer comentário além desse é mera especulação; e/ou
  • Estou evitando polêmicas (:

¯\_(ツ)_/¯

Concluindo

Bom, (acho que) estou encerrando a série sobre como baixar e montar base de dados públicos. Por enquanto, pelo menos.

No entanto, acho que os próximos capítulos serão igualmente interessantes! Estou reunindo forças para avançar em novos tópicos sobre desigualdade e polarização, além de incluir novas funções no convey. Algumas palestras sobre teorias econômicas da justiça, talvez.
Enfim, bastante coisa.

Até 2018!

E fiquem com esse vídeo direto de 1978: Weather Report tocando Birdland. PS.: Jaco Pastorius é um espetáculo à parte.


  1. Por esse ano, pelo menos.↩︎