Capítulo 13

Índice

from datascience import *
%matplotlib inline
path_data = '../../assets/data/'
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
import numpy as np

Estimação

No capítulo anterior, começamos a desenvolver maneiras de pensar inferencialmente. Em particular, aprendemos como usar dados para decidir entre duas hipóteses sobre o mundo. Mas muitas vezes queremos apenas saber o quão grande é algo.

Por exemplo, em um capítulo anterior investigamos quantos aviões de guerra o inimigo poderia ter. Em um ano de eleição, podemos querer saber qual percentual de eleitores favorece um candidato específico. Para avaliar a economia atual, podemos estar interessados na renda anual mediana dos domicílios nos Estados Unidos.

Neste capítulo, desenvolveremos uma maneira de estimar um parâmetro desconhecido. Lembre-se de que um parâmetro é um valor numérico associado a uma população.

Para descobrir o valor de um parâmetro, precisamos de dados. Se tivermos os dados relevantes para toda a população, podemos simplesmente calcular o parâmetro.

Mas se a população for muito grande – por exemplo, se consistir em todos os domicílios nos Estados Unidos – pode ser muito caro e demorado reunir dados de toda a população. Nessas situações, os cientistas de dados dependem da amostragem aleatória da população.

Isso leva a uma questão de inferência: Como fazer conclusões justificáveis sobre o parâmetro desconhecido, com base nos dados da amostra aleatória? Responderemos a essa pergunta usando o pensamento inferencial.

Uma estatística baseada em uma amostra aleatória pode ser uma estimativa razoável de um parâmetro desconhecido na população. Por exemplo, você pode querer usar a renda anual mediana dos domicílios amostrados como uma estimativa da renda anual mediana de todos os domicílios nos EUA.

Mas o valor de qualquer estatística depende da amostra, e a amostra é baseada em seleções aleatórias. Portanto, sempre que os cientistas de dados criam uma estimativa baseada em uma amostra aleatória, eles enfrentam uma pergunta:

“Quão diferente poderia ter sido essa estimativa, se a amostra tivesse sido diferente?”

Neste capítulo, você aprenderá uma maneira de responder a essa pergunta. A resposta lhe dará as ferramentas para estimar um parâmetro numérico e quantificar a quantidade de erro em sua estimativa.

Começaremos com uma preliminar sobre percentis. O percentil mais famoso é a mediana, frequentemente usada em resumos de dados de renda. Outros percentis serão importantes no método de estimativa que estamos prestes a desenvolver. Portanto, começaremos definindo percentis com cuidado.

← Capítulo 12.3 – Esvaziar

Capítulo 13.1 – Percentis →