As minhas quintas-feiras costumam ser divertidas. É o dia que eu almoço junto com os colegas de um dos trabalhos1 Hoje, um colega me perguntou:

Por que tem \(n-1\) no denominador da variância amostral?

Eu dei uma resposta curta, mas não muito boa: é o “desconto” da informação utilizada para estimar a média. Depois, lembrei de umas anotações sobre graus de liberdade; porém essa é muito resposta boa para outra coisa, mas muito longa e indireta. Por fim, lembrei do óbvio: se você usa um estimador com \(n\) no denominador, ele é viciado. Mas você pode corrigir este vício usando o \(n-1\). Vou formalizar um pouco mais.

Estimando a variância

Vamos começar definindo algumas quantidades para uma amostra qualquer de \(n\) valores de \(X\):

\[ \begin{aligned} \bar{X} &= \sum_{i=1}^n \frac{X_i}{n} \\ \overline{X^2} &= \sum_{i=1}^n \frac{X_i^2}{n} \\ \overline{X^2} - \bar{X}^2 &= \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X} )^2 \end{aligned} \]

Em poucas palavras, temos as médias amostrais das variáveis \(X\) e \(X^2\) e a diferença entre estas duas quantidades. Com isso, vamos ao resultado mais importante.

Resultado. Suponha que dispomos de \(n\) variáveis independentes e identicamente distribuidas \(X_1 , X_2 , \dots , X_n\) com variância finita \(\text{Var} [ X ] > 0\). Então, \[ \text{E} [ \overline{X^2} - \bar{X}^2 ] = \frac{n-1}{n} \text{Var} [ X ] \] Demonstração. \[ \begin{aligned} \text{E} [ \overline{X^2} - \bar{X}^2 ] &= \text{E} [ \overline{X^2} ] - \text{E} [ \bar{X}^2 ] \\ &= \text{E} [ X^2 ] - \text{E} [ \bar{X}^2 ] , \quad \text{E} [ \overline{X^2} ] = \text{E} [ X^2 ] \\ &= \text{E} [ X^2 ] - \bigg( \text{Var} [ \bar{X} ] + \text{E} [\bar{X}]^2 \bigg) , \quad \text{Var} [ \bar{X} ] = \text{E} [\overline{X^2}] - \text{E} [\bar{X}]^2 \\ &= \text{E} [ X^2 ] - \bigg( \text{Var} [ \bar{X} ] + \text{E} [X]^2 \bigg) , \quad \text{E} [\bar{X}] = \text{E} [X] \\ &= \bigg( \text{E} [ X^2 ] - \text{E} [X]^2 \bigg) - \text{Var} [ \bar{X} ] \\ &= \text{Var} [ X ] - \text{Var} [ \bar{X} ] \\ &= \text{Var} [ X ] - \frac{ \text{Var} [ X ] }{n} , \quad \text{Var} [ \bar{X} ] = \frac{ \text{Var} [ X ] }{n} \\ \therefore \text{E} [ \overline{X^2} - \bar{X}^2 ] &= \frac{n-1}{n} \text{Var} [ X ] \end{aligned} \]

Naturalmente, \(\text{E} \bigg[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X} )^2 \bigg] = \text{E} [ \overline{X^2} - \bar{X}^2 ]\). Logo,

\[ \begin{aligned} \text{Var} [ X ] &= \frac{n}{n-1} \text{E} \bigg[ \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X} )^2 \bigg] \\ \implies \text{Var} [ X ] &= \text{E} \bigg[ \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X} )^2 \bigg] \\ \end{aligned} \]

A primeira linha mostra que o estimador “ingênuo” de \(\text{Var} [ X ]\), definido por \(\frac{1}{n} \sum_{i=1}^n (X_i - \bar{X} )^2\), é viciado. A segunda linha mostra que o estimador não-viciado é dado por \(\frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X} )^2\).

Por fim, podemos aplicar o mesmo ajuste para obter um estimador de \(\text{Var} [ \bar{X} ]\):

\[ \begin{aligned} \widehat{\text{Var}} [ \bar{X} ] &= \frac{\widehat{\text{Var}} [ X ]}{n} \end{aligned} \]

Como \(\widehat{\text{Var}} [ X ]\) é não-viciado e \(n\) é uma constante, então \(\widehat{\text{Var}} [ \bar{X} ]\) também é não-viciado para \(\text{Var} [ \bar{X} ]\).


  1. Estou numa situação “pai do Chris” ultimamente; não entrarei em detalhes.↩︎