Capítulo 2.1
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
Observação e Visualização: John Snow e a Bomba da Broad Street
Um dos exemplos mais poderosos de observação perspicaz, eventualmente levando ao estabelecimento de causalidade, remonta a mais de 150 anos. Para situar sua mente no período correto, tente imaginar Londres na década de 1850. Era a cidade mais rica do mundo, mas muitos de seus habitantes eram desesperadamente pobres. Charles Dickens, então no auge de sua fama, escrevia sobre suas dificuldades. Doenças eram abundantes nas partes mais pobres da cidade, e a cólera estava entre as mais temidas. Ainda não se sabia que germes causavam doenças; a teoria predominante era que os “miasmas” eram os principais culpados. Os miasmas se manifestavam como maus odores e eram considerados partículas venenosas invisíveis que surgiam da matéria em decomposição. Partes de Londres cheiravam muito mal, especialmente no calor. Para se proteger contra a infecções, aqueles que podiam se permitir seguravam coisas de cheiro doce em seus narizes.
Por vários anos, um médico chamado John Snow vinha acompanhando as ondas devastadoras de cólera que atingiam a Inglaterra de tempos em tempos. A doença chegava de repente e era quase imediatamente mortal: as pessoas morriam em um ou dois dias após contraí-la, centenas podiam morrer em uma semana, e o número total de mortes em uma única onda podia chegar a dezenas de milhares. Snow era cético em relação à teoria dos miasmas. Ele havia observado que enquanto casas inteiras eram dizimadas pela cólera, as pessoas nas casas vizinhas às vezes permaneciam completamente ilesas. Como estavam respirando o mesmo ar — e miasmas — que seus vizinhos, não havia uma associação convincente entre maus odores e a incidência de cólera.
Snow também havia observado que o início da doença quase sempre envolvia vômitos e diarréia. Ele acreditava, portanto, que a infecção era transmitida por algo que as pessoas comiam ou bebiam, não pelo ar que respiravam. Seu principal suspeito era a água contaminada por esgoto.
No final de agosto de 1854, a cólera atingiu o superlotado distrito de Soho, em Londres. À medida que as mortes aumentavam, Snow as registrava diligentemente, usando um método que viria a se tornar padrão no estudo de como as doenças se espalham: ele desenhou um mapa. Em um mapa de rua do distrito, ele registrou a localização de cada morte.
Aqui está o mapa original de Snow. Cada barra preta representa uma morte. Quando havia várias mortes no mesmo endereço, as barras correspondentes a essas mortes eram empilhadas uma sobre a outra. Os discos pretos marcam as localizações das bombas de água. O mapa exibe uma revelação impressionante — as mortes estão aproximadamente agrupadas em torno da bomba da Broad Street.

Snow estudou seu mapa cuidadosamente e investigou as aparentes anomalias. Todas elas implicavam a bomba da Broad Street. Por exemplo:
- Havia mais mortes em casas que estavam próximas da bomba da Rupert Street do que da bomba da Broad Street. Embora a bomba da Rupert Street estivesse mais próxima em linha reta, era menos conveniente devido a becos sem saída e ao layout das ruas. Os moradores dessas casas usavam a bomba da Broad Street.
- Não houve mortes em dois quarteirões a leste da bomba. Esse era o local da Lion Brewery, onde os trabalhadores bebiam o que fabricavam. Se eles precisassem de água, a cervejaria tinha seu próprio poço.
- Havia mortes dispersas em casas a várias quadras de distância da bomba da Broad Street. Eram crianças que bebiam da bomba da Broad Street a caminho da escola. A água da bomba era conhecida por ser fresca e refrescante.
A última peça de evidência a favor da teoria de Snow foi fornecida por duas mortes isoladas na área arborizada e gentil de Hampstead, bastante longe de Soho. Snow ficou intrigado com isso até descobrir que as falecidas eram a Sra. Susannah Eley, que havia morado na Broad Street, e sua sobrinha. A Sra. Eley recebia água da bomba da Broad Street entregue em Hampstead todos os dias. Ela gostava do seu sabor.
Mais tarde, descobriu-se que um poço de esgoto que ficava a poucos metros de distância do poço da bomba da Broad Street estava vazando para o poço. Assim, a água da bomba foi contaminada pelo esgoto das casas das vítimas da cólera.
Snow usou seu mapa para convencer as autoridades locais a remover a manivela da bomba da Broad Street. Embora a epidemia de cólera já estivesse diminuindo quando ele o fez, é possível que a desativação da bomba tenha evitado muitas mortes de futuras ondas da doença.
A remoção da manivela da bomba da Broad Street tornou-se lenda. No Centro de Controle de Doenças (CDC) em Atlanta, quando os cientistas buscam respostas simples para perguntas sobre epidemias, às vezes eles perguntam uns aos outros, “Onde está a manivela desta bomba?”
O mapa de Snow é um dos usos mais antigos e poderosos de visualização de dados. Mapas de doenças de vários tipos agora são uma ferramenta padrão para rastrear epidemias.
Em Direção à Causalidade
Embora o mapa tenha dado a Snow uma forte indicação de que a limpeza do abastecimento de água era a chave para controlar a cólera, ele ainda estava longe de um argumento científico convincente de que a água contaminada estava causando a disseminação da doença. Para fazer um caso mais convincente, ele teve que usar o método de comparação.
Os cientistas usam a comparação para identificar uma associação entre um tratamento e um resultado. Eles comparam os resultados de um grupo de indivíduos que receberam o tratamento (o grupo de tratamento) com os resultados de um grupo que não recebeu (o grupo de controle). Por exemplo, os pesquisadores hoje podem comparar a taxa média de homicídios nos estados que têm a pena de morte com a taxa média de homicídios nos estados que não têm.
Se os resultados forem diferentes, isso é evidência de uma associação. No entanto, para determinar a causalidade, é necessário ainda mais cuidado.
| ← Capítulo 2 – Outro Tipo de Personagem | Capítulo 2.2 – O “Grande Experimento” de Snow → |
