Capítulo 2.3

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

Estabelecendo Causalidade

Na linguagem desenvolvida anteriormente na seção, você pode pensar nas pessoas nas casas da S&V como o grupo de tratamento, e aquelas nas casas da Lambeth como o grupo de controle. Um elemento crucial na análise de Snow foi que as pessoas nos dois grupos eram comparáveis entre si, exceto pelo tratamento.

Para estabelecer se era o abastecimento de água que estava causando cólera, Snow teve que comparar dois grupos que fossem semelhantes entre si em todos os aspectos, exceto em um — seu abastecimento de água. Somente então ele seria capaz de atribuir as diferenças em seus resultados ao abastecimento de água. Se os dois grupos fossem diferentes de alguma outra forma também, seria difícil apontar o dedo para o abastecimento de água como a fonte da doença. Por
exemplo, se o grupo de tratamento consistisse em trabalhadores de fábrica e o grupo de controle não, então as diferenças entre os resultados nos dois grupos poderiam ter sido devido ao abastecimento de água, ou ao trabalho de fábrica, ou ambos. O quadro final teria sido muito mais nebuloso.

O brilhantismo de Snow estava em identificar dois grupos que tornariam sua comparação clara. Ele havia se proposto a estabelecer uma relação causal entre água contaminada e infecção por cólera, e em grande parte ele teve sucesso, mesmo que os miasmatistas o ignorassem e até o ridicularizassem. Claro, Snow não entendia o mecanismo detalhado pelo qual os humanos contraíam cólera. Essa descoberta foi feita em 1883, quando o cientista alemão Robert Koch isolou o Vibrio cholerae, a bactéria que entra no intestino delgado humano e causa cólera.

Na verdade, o Vibrio cholerae havia sido identificado em 1854 por Filippo Pacini na Itália, exatamente quando Snow estava analisando seus dados em Londres. Devido à dominação dos miasmatistas na Itália, a descoberta de Pacini permaneceu desconhecida. Mas até o final do século XIX, a brigada dos miasmas estava em retirada. A história subsequente tem vindicado Pacini e John Snow. Os métodos de Snow levaram ao desenvolvimento do campo da epidemiologia, que é o estudo da propagação de doenças.

Fatores de Confusão

Vamos agora voltar aos tempos mais modernos, munidos de uma lição importante que aprendemos ao longo do caminho:

Em um estudo observacional, se os grupos de tratamento e controle diferirem em aspectos além do tratamento, é difícil fazer conclusões sobre causalidade.

Uma diferença subjacente entre os dois grupos (além do tratamento) é chamada de fator de confusão, porque pode confundi-lo (ou seja, atrapalhar você) quando você tenta chegar a uma conclusão.

Exemplo: Café e câncer de pulmão. Estudos na década de 1960 mostraram que os bebedores de café tinham taxas mais altas de câncer de pulmão do que aqueles que não bebiam café. Por causa disso, algumas pessoas identificaram o café como causa de câncer de pulmão. Mas o café não causa câncer de pulmão. A análise continha um fator de confusão — o tabagismo. Naquela época, os bebedores de café também eram propensos a serem fumantes, e fumar causa
câncer de pulmão. O consumo de café estava associado ao câncer de pulmão, mas não causava a doença.

Fatores de confusão são comuns em estudos observacionais. Estudos bem feitos tomam muito cuidado para reduzir a confusão e para considerar seus efeitos.

← Capítulo 2.2 – John Snow e a Bomba da Broad Street Capítulo 2.4 – Randomização →