Capítulo 2.4
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
Randomização
Uma excelente maneira de evitar fatores de confusão é atribuir indivíduos aos grupos de tratamento e controle aleatoriamente, e então administrar o tratamento àqueles que foram designados para o grupo de tratamento. A randomização mantém os dois grupos semelhantes, exceto pelo tratamento.
Se você é capaz de randomizar indivíduos nos grupos de tratamento e controle, está realizando um experimento controlado randomizado, também conhecido como ensaio clínico randomizado (ECR). Às vezes, as respostas das pessoas em um experimento são influenciadas por saberem em qual grupo estão. Então você pode querer conduzir um experimento cego, no qual os indivíduos não sabem se estão no grupo de tratamento ou no grupo de controle.
Para fazer isso funcionar, você terá que dar ao grupo de controle um placebo, que é algo que se parece exatamente com o tratamento, mas na verdade não tem efeito.
Os experimentos controlados randomizados há muito tempo são considerados padrão ouro no campo médico, por exemplo, para estabelecer se um novo medicamento funciona. Eles também estão se tornando mais comumente usados em outros campos, como economia.
Exemplo: Subsídios de assistência social no México. Nas aldeias mexicanas na década de 1990, as crianças de famílias pobres muitas vezes não estavam matriculadas na escola. Uma das razões era que as crianças mais velhas podiam trabalhar e assim ajudar a sustentar a família. Santiago Levy, um ministro do Ministério da Fazenda do México, decidiu investigar se programas de assistência social poderiam ser usados para aumentar a matrícula
escolar e melhorar as condições de saúde. Ele conduziu um ECR em um conjunto de aldeias, selecionando algumas delas aleatoriamente para receber um novo programa de assistência social chamado PROGRESA. O programa dava dinheiro às famílias pobres se seus filhos frequentassem a escola regularmente e a família usasse cuidados de saúde preventivos. Mais dinheiro era dado se as crianças estivessem no ensino secundário do que no ensino primário, para compensar a perda de salários das
crianças, e mais dinheiro era dado para meninas que frequentavam a escola do que para meninos. As aldeias restantes não receberam esse tratamento e formaram o grupo de controle. Devido à randomização, não havia fatores de confusão e foi possível estabelecer que o PROGRESA aumentou a matrícula escolar. Para os meninos, a matrícula aumentou de 73% no grupo de controle para 77% no grupo PROGRESA. Para as meninas, o aumento foi ainda maior, de 67% no grupo de controle para quase 75% no
grupo PROGRESA. Devido ao sucesso deste experimento, o governo mexicano apoiou o programa sob o novo nome OPORTUNIDADES, como um investimento em uma população saudável e bem educada.
Benefícios da Randomização
Na terminologia que desenvolvemos, John Snow conduziu um estudo observacional, não um experimento randomizado. Mas ele chamou seu estudo de “grande experimento” porque, como ele escreveu, “Nada menos que trezentas mil pessoas … foram divididas em dois grupos sem a escolha delas e, na maioria dos casos, sem o conhecimento delas …”
Estudos como o de Snow são às vezes chamados de “experimentos naturais”. No entanto, a verdadeira randomização não significa simplesmente que os grupos de tratamento e controle são selecionados “sem a escolha deles”. A randomização deve ser realizada com muito cuidado, seguindo as leis da probabilidade.
O método de randomização pode ser tão simples quanto jogar uma moeda. Também pode ser bastante mais complexo. Mas todo método de randomização consiste em uma sequência de etapas cuidadosamente definidas que permitem que as chances sejam especificadas matematicamente. Isso tem duas consequências importantes.
- Isso nos permite considerar — matematicamente — a possibilidade de que a randomização produza grupos de tratamento e controle que sejam bastante diferentes entre si.
- Isso nos permite fazer afirmações matemáticas precisas sobre as diferenças entre os grupos de tratamento e controle. Isso, por sua vez, nos ajuda a fazer conclusões justificáveis sobre se o tratamento tem algum efeito.
E se você não puder randomizar?
Em algumas situações, pode não ser possível realizar um experimento controlado randomizado, mesmo quando o objetivo é investigar a causalidade. Por exemplo, suponha que você queira estudar os efeitos do consumo de álcool durante a gravidez e atribua aleatoriamente algumas mulheres grávidas ao seu grupo de “álcool”. Você não deve esperar cooperação delas se apresentar uma bebida. Nessas situações, você quase invariavelmente estará conduzindo um estudo
observacional, não um experimento. Esteja atento para fatores de confusão.
Neste curso, você aprenderá como conduzir e analisar seus próprios experimentos randomizados. Isso envolverá mais detalhes do que os apresentados neste capítulo. Por enquanto, concentre-se apenas na ideia principal: para tentar estabelecer causalidade, execute um experimento controlado randomizado se possível. Se estiver conduzindo um estudo observacional, você pode ser capaz de estabelecer uma associação, mas será mais difícil estabelecer a causalidade.
Esteja extremamente atento aos fatores de confusão antes de fazer conclusões sobre causalidade com base em um estudo observacional.
| ← Capítulo 2.3 – Estabelecendo Causalidade | Capítulo 2.5 – Notas Finais → |
