Capítulo 9.5

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

from datascience import *
path_data = '../../../assets/data/'
import numpy as np
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
%matplotlib inline

 

Encontrando Probabilidades

Ao longo dos séculos, houve um considerável debate filosófico sobre o que são probabilidades. Algumas pessoas pensam que probabilidades são frequências relativas; outras pensam que são frequências relativas de longo prazo; outras ainda pensam que probabilidades são uma medida subjetiva de seu próprio grau pessoal de incerteza.

Neste curso, a maioria das probabilidades será de frequências relativas, embora muitas tenham interpretações subjetivas. Independentemente disso, as maneiras pelas quais as probabilidades são calculadas e combinadas são consistentes entre as diferentes interpretações.

Por convenção, as probabilidades são números entre 0 e 1, ou, de forma equivalente, 0% e 100%. Eventos impossíveis têm probabilidade 0. Eventos que são certos têm probabilidade 1.

A matemática é a principal ferramenta para encontrar probabilidades precisas, embora os computadores sejam úteis para esse propósito também. A simulação pode fornecer excelentes aproximações, com alta probabilidade. Nesta seção, desenvolveremos informalmente algumas regras simples que governam o cálculo de probabilidades. Nas seções subsequentes, retornaremos às simulações para aproximar as probabilidades de eventos complexos.

Usaremos a notação padrão P(evento) para denotar a probabilidade de que o “evento” aconteça, e usaremos as palavras “chance” e “probabilidade” de forma intercambiável.

Quando um Evento Não Acontece

Se a chance de um evento acontecer é 40%, então a chance de que ele não aconteça é 60%. Este cálculo natural pode ser descrito de forma geral como segue:

P(um evento não acontece) = 1 – P(o evento acontece)

Quando Todos os Resultados são Igualmente Prováveis

Se você estiver lançando um dado comum, uma suposição natural é que todas as seis faces são igualmente prováveis. Sob essa suposição, as probabilidades de como um lançamento sai podem ser facilmente calculadas como uma proporção. Por exemplo, a chance de o dado mostrar um número par é

número de faces pares / número de todas as faces = #{2, 4, 6} / #{1, 2, 3, 4, 5, 6} = 3/6

Semelhantemente,

P(dado mostra um múltiplo de 3) = #{3, 6} / #{1, 2, 3, 4, 5, 6} = 2/6

Em geral, se todos os resultados são igualmente prováveis,

P(um evento acontece) = #{resultados que fazem o evento acontecer} / #{todos os resultados}

Nem todos os fenômenos aleatórios são tão simples quanto o lançamento de um dado. As duas regras principais de probabilidade, desenvolvidas a seguir, permitem que os matemáticos encontrem probabilidades mesmo em situações complexas.

Quando Ambos os Eventos Devem Acontecer

Suponha que você tenha uma caixa que contém três bilhetes: um vermelho, um azul e um Laranja. Suponha que você tire dois bilhetes aleatoriamente sem reposição; ou seja, você embaralha os três bilhetes, tira um, embaralha os dois restantes e tira outro desses dois. Qual é a chance de obter o bilhete laranja primeiro, seguido pelo vermelho?

Existem seis pares possíveis de cores: VA, AV, VL, LV, AL, LA (abreviamos os nomes de cada cor para apenas sua primeira letra). Todos esses pares são igualmente prováveis pelo esquema de amostragem, e apenas um deles (LV) faz o evento acontecer. Portanto,

P(Laranja primeiro, depois vermelho) = #{LV} / #{VA, AV, VL, LV, AL, LA} = 1/6

Mas há outra maneira de chegar à resposta, pensando no evento em duas etapas. Primeiro, o bilhete laranja precisa ser tirado. Isso tem chance de 1/3, o que significa que o bilhete laranja é tirado primeiro em cerca de 1/3 de todas as repetições do experimento. Mas isso não completa o evento. Entre os 1/3 das repetições em que o laranja é tirado primeiro, o bilhete vermelho precisa ser tirado em seguida. Isso acontece em cerca de 1/2 dessas repetições, e
então:

P(laranja primeiro, depois vermelho) = 1/2 de 1/3 = 1/6

Este cálculo é geralmente escrito “em ordem cronológica,” como segue.

P(laranja primeiro, depois vermelho) = 1/3 × 1/2 = 1/6

O fator de 1/2 é chamado de “a chance condicional de que o bilhete vermelho apareça em segundo lugar, dado que o bilhete laranja apareceu primeiro.”

Em geral, temos a regra de multiplicação:

P(dois eventos acontecem ambos) = P(um evento acontece) × P(o outro evento acontece, dado que o primeiro aconteceu)

Assim, quando há duas condições – um evento deve acontecer, bem como outro – a chance é uma fração de uma fração, que é menor do que qualquer uma das duas frações componentes. Quanto mais condições precisam ser satisfeitas, menos provável é que todas sejam satisfeitas.

Quando um Evento Pode Acontecer de Duas Maneiras Diferentes

Suponha agora que queremos a chance de um dos dois bilhetes ser laranja e o outro vermelho. Este evento não especifica a ordem em que as cores devem aparecer. Então elas podem aparecer em qualquer ordem.

Uma maneira boa de lidar com problemas como esse é particionar o evento para que ele possa acontecer exatamente de uma entre várias maneiras diferentes. A partição natural de “um laranja e um vermelho” é: LR, RL.

Cada uma de LR e RL tem chance 1/6 pelo cálculo acima. Então você pode calcular a chance de “um laranja e um vermelho” somando-os.

P(um laranja e um vermelho) = P(LR) + P(RL) = 1/6 + 1/6 = 2/6

Em geral, temos a regra da adição:

P(um evento acontece) = P(primeira maneira como pode acontecer) + P(segunda maneira como pode acontecer)

desde que o evento aconteça exatamente de uma das duas maneiras.

Assim, quando um evento pode acontecer de duas maneiras diferentes, a chance de que isso aconteça é uma soma de chances, e portanto maior do que a chance de qualquer uma das maneiras individuais.

A regra da multiplicação tem uma extensão natural para mais de dois eventos, como veremos abaixo. Da mesma forma, a regra da adição tem uma extensão natural para eventos que podem acontecer de várias maneiras diferentes.

Encerramos a seção com exemplos que usam combinações de todas essas regras.

Pelo Menos Um Sucesso

Os cientistas de dados frequentemente trabalham com amostras aleatórias de populações. Uma questão que às vezes surge é sobre a probabilidade de que um indivíduo específico na população seja selecionado para estar na amostra. Para calcular a chance, esse indivíduo é chamado de “sucesso,” e o problema é encontrar a probabilidade de que a amostra contenha um sucesso.

Para entender como essas chances podem ser calculadas, começamos com uma configuração mais simples: lançar uma moeda duas vezes.

Se você lançar uma moeda duas vezes, existem quatro resultados igualmente prováveis: HH, HT, TH e TT. Nós abreviamos “Cara” para H e “Coroa” para T. A chance de obter pelo menos uma cara em dois lançamentos, portanto, é de 3/4.

Outra maneira de chegar a essa resposta é calcular o que acontece se você não obter pelo menos uma cara. Isso é quando ambos os lançamentos resultam em coroas. Então

P(pelo menos uma cara em dois lançamentos) = 1 – P(ambos coroas) = 1 – 1/4 = 3/4

Observe também que

P(ambos coroas) = 1/4 = 1/2 · 1/2 = (1/2)²

pela regra da multiplicação.

Essas duas observações nos permitem encontrar a chance de pelo menos uma cara em qualquer número dado de lançamentos. Por exemplo,

P(pelo menos uma cara em 17 lançamentos) = 1 – P(todos os 17 são coroas) = 1 – (1/2)¹⁷

E agora estamos em posição de encontrar a chance de que o lado com seis pontos apareça pelo menos uma vez em jogadas de um dado.

Por exemplo,

P(um único lançamento não é 6) = 1 – P(6) = 5/6

Portanto,

P(pelo menos um 6 em dois lançamentos) = 1 – P(ambos os lançamentos não são 6) = 1 – (5/6)²

e

P(pelo menos um 6 em 17 lançamentos) = 1 – (5/6)¹⁷

A tabela abaixo mostra essas probabilidades à medida que o número de lançamentos aumenta de 1 para 50.

rolls = np.arange(1, 51, 1)
results = Table().with_columns(
    'Rolls', rolls,
    'Chance of at least one 6', 1 - (5/6)**rolls
)
results
Rolls Chance of at least one 6
1 0.166667
2 0.305556
3 0.421296
4 0.517747
5 0.598122
6 0.665102
7 0.720918
8 0.767432
9 0.806193
10 0.838494

 

A chance de um 6 aparecer pelo menos uma vez aumenta rapidamente à medida que o número de lançamentos aumenta.

results.scatter('Rolls')

Em 50 lançamentos, é quase certo que você obterá pelo menos um 6.

results.where('Rolls', are.equal_to(50))
Rolls Chance of at least one 6
50 0.99989

 

Cálculos como esses podem ser usados para encontrar a chance de um determinado indivíduo ser selecionado em uma amostra aleatória. O cálculo exato dependerá do esquema de amostragem. Mas o que observamos acima geralmente pode ser generalizado: aumentar o tamanho da amostra aleatória aumenta a chance de um indivíduo ser selecionado.

← Capítulo 9.4 – Problema Monty Hall Capítulo 10 – Amostragem e Distribuições Empíricas →