Simetria e Assimetria da Distribuição

O formato da distribuição influencia se a média será maior ou menor do que a mediana.

Um valor extremamente grande na cauda direita, puxa a média para a direita.

Em geral, se o formato é:

  • perfeitamente simétrico: média = mediana.
  • assimétrico à direita: média \(>\) mediana.
  • assimétrico à esquerda: média \(<\) mediana.

Simetria e Assimetria da Distribuição

Dispersão dos Dados

Considere dois conjuntos de dados:

\(A = \{10,20,30\}\), \(\overline{x}_A = 20\), \(s_A= 10\).

\(B = \{10000,10010,10020\}\), \(\overline{x}_B = 10010\), \(s_B= 10\).

Ambos têm o mesmo desvio padrão.

Se compararmos as escalas de cada conjunto de dados, poderíamos dizer que o segundo conjunto tem menor dispersão.

Por exemplo, a maior observação do conjunto \(B\), 10020, é 0.2% maior do que a menor observação, 10000.

A maior observação do conjunto \(A\), 30, é 3 vezes maior do que a menor observação, 10.

Exemplo

Considere notas de 2 provas:

  • Prova 1: 0 a 100. Média da turma: 70. Desvio padrão 1.
  • Prova 2: 0 a 10. Média da turma: 7. Desvio padrão 1.

Neste caso, como as escalas são diferentes, não podemos tirar conclusões usando apenas o desvio padrão.

Coeficiente de Variação

\[\mbox{Coeficiente de Variação (CV)}= \frac{s}{\bar{x}}\]

Exemplo: \(A = \{10, 20, 30\}\), \(\overline{x}_A = 20\), \(s_A= 10\).

\(B = \{10000, 10010, 10020\}\), \(\overline{x}_B = 10010\), \(s_B= 10\).

\(CV_A = \frac{s_A}{\overline{x}_A} = 0.5\) e \(CV_B = \frac{s_B}{\overline{x}_B} \approx 0.0009\).

Exemplo: Prova 1: 0 a 100. Média da turma: 70. Desvio padrão 1.

Prova 2: 0 a 10. Média da turma: 7. Desvio padrão 1.

\(CV_1 = \frac{s_1}{\overline{x}_1} = 0.014\) e \(CV_2 = \frac{s_2}{\overline{x}_2} \approx 0.14\).

Usando medidas de posição para descrever dispersão

Média e mediana: medidas de posição central.

Amplitude e desvio padrão: medidas de dispersão.

Há outros tipos de medida de posição para descrever a distribuição dos dados: quartis e percentis.

Quartis dividem os dados em 4 partes iguais: primeiro quartil (\(Q_1\)), segundo quartil (\(Q_2\)) e o terceiro quartil (\(Q_3\)).

O p-ésimo percentil é o valor tal que uma porcentagem p dos dados ficam abaixo dele.

Quartis

Para obter os quartis:

  • Ordene os dados em ordem crescente.
  • Encontre a mediana: \(Q_2\)=mediana.
  • Considere o subconjunto de dados abaixo da mediana. \(Q_1\) é a mediana deste subconjunto de dados.
  • Considere o subconjunto de dados acima da mediana. \(Q_3\) é a mediana deste subconjunto de dados.

Exemplo: Quantidade de sódio (mg) em 20 cereais matinais

0, 70, 125, 125, 140, 150, 170, 170, 180, 200

200, 210, 210, 220, 220, 230, 250, 260, 290, 290

Para calcular \(Q1\): calcula-se a mediana considerando apenas as 10 primeiras observações ordenadas: 0, 70, 125, 125, \(\underbrace{140, 150}_{Q_1=145}\), 170, 170, 180, 200

Para calcular \(Q3\): calcula-se a mediana considerando apenas as 10 últimas observações ordenadas: 200, 210, 210, 220, \(\underbrace{220, 230}_{Q_3=225}\), 250, 260, 290, 290

Quartis e Assimetria

Os quartis também fornecem informação sobre o formato da distribuição.

A mediana \(Q_2\) é 14. A distância entre \(Q_1\) e \(Q_2\) é 3, enquanto que a distância entre \(Q_2\) e \(Q_3\) é 4, indicando que a distribuição é assimétrica à direita.

Usando quartis para medir dispersão

A vantagem do uso de quartis sobre o desvio padrão ou a amplitude, é que os quartis são mais resistentes a dados extremos.

Intervalo interquartílico (IQ) = \(Q_3-Q_1\).

Representa 50% dos dados localizados na parte central da distribuição.

Esquema dos 5 números

Esquema dos 5 números

Notação: \(x_{(1)}\) = mínimo, \(x_{(n)}\) = máximo, onde \(x_{(k)}\) é a \(k\)-ésima observação depois de ordenar os dados.

\[ Q_2= \begin{cases} x_{\left(\frac{n+1}{2}\right)} \,,& \mbox{se $n$ é ímpar} \\ \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2}\,, & \mbox{se $n$ é par} \end{cases} \]

Quartis e simetria da distribuição

Para uma distribuição simétrica ou aproximadamente simétrica:

  • \(Q_2-x_{(1)}\approx x_{(n)}-Q_2\)
  • \(Q_2-Q_1\approx Q_3-Q_2\)
  • \(Q_1-x_{(1)} \approx x_{(n)}-Q_3\)
  • distâncias entre a mediana e \(Q_1\), \(Q_3\) menores do que as distâncias entre os extremos e \(Q_1\), \(Q_3\).

Dados discrepantes (outliers)

Importante: examinar os dados para verificar se há observações discrepantes.

  • Média e desvio padrão são muito afetados por observações discrepantes.
  • Após detectar a observação discrepante, verificar se não é um erro de digitação ou um caso especial da sua amostra.
  • Com poucos dados, podemos detectar um dados discrepante facilmente, apenas observando a sequência ordenada.
  • Podemos usar o IQ como um critério mais geral de detecção de dados discrepantes.

Dados discrepantes (outliers)

Uma observação é um potencial outlier se está abaixo de \(Q_1-1.5\times IQ\) ou se está acima de \(Q_3+1.5 \times IQ\).

Dizemos potencial outlier, pois se a distribuição tem cauda longa (à direita ou à esquerda), algumas observações irão cair no critério, apesar de não serem outliers.

Boxplot

O esquema dos 5 números forma a base do gráfico denominado boxplot.

Primeiro passo: construir uma caixa que vai do primeiro ao terceiro quartil.

Boxplot

Segundo passo: construir uma linha no meio da caixa, na altura da mediana (\(Q_2\)).

Boxplot

Terceiro passo: definir os limites para que uma observação seja considerada outlier.

Boxplot

Quarto passo: desenhar uma linha que saia da parte inferior da caixa e desça até o menor valor dos dados, mas que não ultrapasse os limites do critério de outliers. Desenhar uma linha que saia da parte superior da caixa e suba até o maior valor dos dados, mas que não ultrapasse os limites do critério de outliers. Outliers, quando existem, aparecem indicados separadamente no gráfico.

Exemplo: População, em 1000 habitantes, dos estados brasileiros

27 estados, \(n\) é ímpar, mediana é \(x_{\left(\frac{n+1}{2}\right)}= x_{\left(\frac{27+1}{2}\right)}=x_{(14)}=3098\) (ES).

A metade inferior dos dados: 13 observações. A mediana deste subconjunto é \(Q_1=x_{(7)}= 2052\) (DF).

A metade superior dos dados: 13 observações. A mediana deste subconjunto é \(Q_3=x_{(21)}=7919\) (PE).

Exemplo: População dos estados brasileiros

\(IQ=Q_3-Q_1=7919-2052=5867\)

\(Q_1-1.5\times IQ=-6748.5\)

\(Q_3+1.5\times IQ=16720\)

Temos outliers?

Exemplo: Quantidade de sódio (mg) em 20 cereais matinais

0, 70, 125, 125, \(\underbrace{140, 150}_{Q_1=145}\), 170, 170, 180, 200

200, 210, 210, 220, \(\underbrace{220, 230}_{Q_3=225}\), 250, 260, 290, 290

\(IQ=Q_3-Q_1=225-145=80\)

\(Q_1-1.5\times IQ=145-1.5\times 80=25\)

\(Q_3+1.5\times IQ=145+1.5\times 80=345\)

Exemplo: Sódio em cereais matinais