Capítulo 13
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
from datascience import *
%matplotlib inline
path_data = '../../assets/data/'
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
import numpy as np
Estimação
No capítulo anterior, começamos a desenvolver maneiras de pensar inferencialmente. Em particular, aprendemos como usar dados para decidir entre duas hipóteses sobre o mundo. Mas muitas vezes queremos apenas saber o quão grande é algo.
Por exemplo, em um capítulo anterior investigamos quantos aviões de guerra o inimigo poderia ter. Em um ano de eleição, podemos querer saber qual percentual de eleitores favorece um candidato específico. Para avaliar a economia atual, podemos estar interessados na renda anual mediana dos domicílios nos Estados Unidos.
Neste capítulo, desenvolveremos uma maneira de estimar um parâmetro desconhecido. Lembre-se de que um parâmetro é um valor numérico associado a uma população.
Para descobrir o valor de um parâmetro, precisamos de dados. Se tivermos os dados relevantes para toda a população, podemos simplesmente calcular o parâmetro.
Mas se a população for muito grande – por exemplo, se consistir em todos os domicílios nos Estados Unidos – pode ser muito caro e demorado reunir dados de toda a população. Nessas situações, os cientistas de dados dependem da amostragem aleatória da população.
Isso leva a uma questão de inferência: Como fazer conclusões justificáveis sobre o parâmetro desconhecido, com base nos dados da amostra aleatória? Responderemos a essa pergunta usando o pensamento inferencial.
Uma estatística baseada em uma amostra aleatória pode ser uma estimativa razoável de um parâmetro desconhecido na população. Por exemplo, você pode querer usar a renda anual mediana dos domicílios amostrados como uma estimativa da renda anual mediana de todos os domicílios nos EUA.
Mas o valor de qualquer estatística depende da amostra, e a amostra é baseada em seleções aleatórias. Portanto, sempre que os cientistas de dados criam uma estimativa baseada em uma amostra aleatória, eles enfrentam uma pergunta:
“Quão diferente poderia ter sido essa estimativa, se a amostra tivesse sido diferente?”
Neste capítulo, você aprenderá uma maneira de responder a essa pergunta. A resposta lhe dará as ferramentas para estimar um parâmetro numérico e quantificar a quantidade de erro em sua estimativa.
Começaremos com uma preliminar sobre percentis. O percentil mais famoso é a mediana, frequentemente usada em resumos de dados de renda. Outros percentis serão importantes no método de estimativa que estamos prestes a desenvolver. Portanto, começaremos definindo percentis com cuidado.
| ← Capítulo 12.3 – Esvaziar | Capítulo 13.1 – Percentis → |
