Capítulo 1
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
O que é Ciência de Dados?
Ciência de Dados trata de tirar conclusões úteis de conjuntos de dados grandes e diversos por meio de exploração, predição e inferência.
A exploração envolve a identificação de padrões nas informações. A predição envolve o uso de informações que conhecemos para fazer suposições informadas sobre valores que desejaríamos de saber. A inferência envolve quantificar o nosso grau de certeza: os padrões que encontramos nos nossos dados também aparecerão em novas observações? Quão precisas são nossas predições?
Nossas principais ferramentas para exploração são visualizações e estatísticas descritivas, para predição são aprendizado de máquina e otimização e para inferência são testes e modelos estatísticos.
A estatística é um componente central da ciência de dados porque a estatística estuda como tirar conclusões robustas com base em informações incompletas.
A computação é um componente central porque a programação nos permite aplicar técnicas de análise aos grandes e diversos conjuntos de dados que surgem em aplicações do mundo real: não apenas números, mas textos, imagens, vídeos e leituras de sensores.
Ciência de dados é tudo isso, mas é mais do que a soma de suas partes por causa das aplicações. Ao compreender um domínio específico, os cientistas de dados aprendem a fazer perguntas apropriadas sobre seus dados e a interpretar corretamente as respostas fornecidas por nossas ferramentas inferenciais e computacionais.
| ← Início | Capítulo 1.1 – Introdução → |
