Capítulo 1.1.2

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

Técnicas Estatísticas

A disciplina de estatística há muito tempo aborda o mesmo desafio fundamental da ciência de dados: como tirar conclusões sólidas sobre o mundo utilizando informações incompletas. Uma das contribuições mais importantes da estatística é um vocabulário consistente e preciso para descrever a relação entre observações e conclusões. Este texto continua na mesma tradição, concentrando-se em um conjunto de problemas inferenciais centrais da estatística: testar hipóteses, estimar a confiança e prever quantidades desconhecidas.

A ciência de dados amplia o campo da estatística aproveitando ao máximo a computação, visualização de dados, aprendizado de máquina, otimização e acesso à informação. A combinação de computadores rápidos e da Internet dá a qualquer pessoa a capacidade de acessar e analisar vastos conjuntos de dados: milhões de artigos noticiosos, enciclopédias completas, bases de dados para qualquer domínio e repositórios enormes de música, fotos e vídeos.

As aplicações a conjuntos de dados reais motivam as técnicas estatísticas que descrevemos ao longo do texto. Os dados reais muitas vezes não seguem padrões regulares ou não correspondem às equações padrão. A variação interessante nos dados reais pode ser perdida se a atenção for concentrada demasiadamente em resumos simplistas, como valores médios. Os computadores permitem uma família de métodos baseados em reamostragem que se aplicam a uma ampla gama de diferentes problemas de inferência, levam em conta todas as informações disponíveis e exigem poucas suposições ou condições. Embora essas técnicas tenham sido frequentemente reservadas para cursos avançados de estatística, sua flexibilidade e simplicidade são uma opção natural para aplicações de ciência de dados.

← Capítulo 1.1.1 – Ferramentas Computacionais Capítulo 1.2 – Por que Ciência de Dados? →