Capítulo 1

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

O que é Ciência de Dados?

Ciência de Dados trata de tirar conclusões úteis de conjuntos de dados grandes e diversos por meio de exploração, predição e inferência.

A exploração envolve a identificação de padrões nas informações. A predição envolve o uso de informações que conhecemos para fazer suposições informadas sobre valores que desejaríamos de saber. A inferência envolve quantificar o nosso grau de certeza: os padrões que encontramos nos nossos dados também aparecerão em novas observações? Quão precisas são nossas predições?

Nossas principais ferramentas para exploração são visualizações e estatísticas descritivas, para predição são aprendizado de máquina e otimização e para inferência são testes e modelos estatísticos.

A estatística é um componente central da ciência de dados porque a estatística estuda como tirar conclusões robustas com base em informações incompletas.

A computação é um componente central porque a programação nos permite aplicar técnicas de análise aos grandes e diversos conjuntos de dados que surgem em aplicações do mundo real: não apenas números, mas textos, imagens, vídeos e leituras de sensores.

Ciência de dados é tudo isso, mas é mais do que a soma de suas partes por causa das aplicações. Ao compreender um domínio específico, os cientistas de dados aprendem a fazer perguntas apropriadas sobre seus dados e a interpretar corretamente as respostas fornecidas por nossas ferramentas inferenciais e computacionais.

← Início Capítulo 1.1 – Introdução →