Capítulo 12

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

import matplotlib
from datascience import *
path_data = '../../assets/data/'
%matplotlib inline
import matplotlib.pyplot as plots
from mpl_toolkits.mplot3d import Axes3D
import numpy as np
import math
import scipy.stats as stats
plots.style.use('fivethirtyeight')

 

Comparando Duas Amostras

Vimos vários exemplos de avaliação se uma única amostra se parece com sorteios aleatórios de um modelo de chance especificado.

  • Os painéis de júri do Condado de Alameda se parecem com uma amostra aleatória da população de jurados elegíveis?
  • As plantas de ervilha que Mendel cultivou têm cores consistentes com as chances que ele especificou em seu modelo?

Em todos esses casos, havia apenas uma amostra aleatória, e estávamos tentando decidir como ela foi gerada. Mas frequentemente, cientistas de dados têm que comparar duas amostras aleatórias entre si. Por exemplo, eles podem ter que comparar os resultados de pacientes que foram atribuídos aleatoriamente a um grupo de tratamento e um grupo de controle. Ou eles podem ter aleatorizado usuários da internet para receber duas versões diferentes de um site, após o qual eles gostariam de comparar as ações dos dois grupos aleatórios.

Neste capítulo, desenvolvemos uma maneira de usar Python para comparar duas amostras aleatórias e responder a perguntas sobre as semelhanças e diferenças entre elas. Você verá que os métodos que desenvolvemos têm diversas aplicações. Nossos exemplos são da área de medicina, saúde pública e até futebol!

 

← Capítulo 11.4 – Probabilidades de Erro Capítulo 12.1 – Teste A/B →