Capítulo 1.1.2
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
Técnicas Estatísticas
A disciplina de estatística há muito tempo aborda o mesmo desafio fundamental da ciência de dados: como tirar conclusões sólidas sobre o mundo utilizando informações incompletas. Uma das contribuições mais importantes da estatística é um vocabulário consistente e preciso para descrever a relação entre observações e conclusões. Este texto continua na mesma tradição, concentrando-se em um conjunto de problemas inferenciais centrais da estatística: testar hipóteses, estimar a confiança e prever quantidades desconhecidas.
A ciência de dados amplia o campo da estatística aproveitando ao máximo a computação, visualização de dados, aprendizado de máquina, otimização e acesso à informação. A combinação de computadores rápidos e da Internet dá a qualquer pessoa a capacidade de acessar e analisar vastos conjuntos de dados: milhões de artigos noticiosos, enciclopédias completas, bases de dados para qualquer domínio e repositórios enormes de música, fotos e vídeos.
As aplicações a conjuntos de dados reais motivam as técnicas estatísticas que descrevemos ao longo do texto. Os dados reais muitas vezes não seguem padrões regulares ou não correspondem às equações padrão. A variação interessante nos dados reais pode ser perdida se a atenção for concentrada demasiadamente em resumos simplistas, como valores médios. Os computadores permitem uma família de métodos baseados em reamostragem que se aplicam a uma ampla gama de diferentes problemas de inferência, levam em conta todas as informações disponíveis e exigem poucas suposições ou condições. Embora essas técnicas tenham sido frequentemente reservadas para cursos avançados de estatística, sua flexibilidade e simplicidade são uma opção natural para aplicações de ciência de dados.
| ← Capítulo 1.1.1 – Ferramentas Computacionais | Capítulo 1.2 – Por que Ciência de Dados? → |
