Capítulo 1.1

Índice

Introdução

Os dados são descrições do mundo que nos rodeia, recolhidos através da observação e armazenados em computadores. Os computadores permitem-nos inferir propriedades do mundo a partir destas descrições. Ciência de dados é a disciplina que tira conclusões de dados usando computação. Existem três aspectos principais da análise de dados eficaz: exploração, predição e inferência. Este texto desenvolve uma abordagem consistente para todos os três, introduzindo ideias estatísticas e ideias fundamentais na ciência da computação simultaneamente. Nós nos concentramos em um conjunto mínimo de técnicas básicas que podem ser aplicadas a uma vasta gama de aplicações do mundo real. Uma base em ciência de dados requer não apenas a compreensão de técnicas estatísticas e computacionais, mas também o reconhecimento de como elas se aplicam a cenários reais.

Para qualquer aspecto do mundo que desejemos estudar – seja o clima da Terra, os mercados mundiais, as pesquisas políticas ou a mente humana – os dados que coletamos normalmente oferecem uma descrição incompleta do assunto em questão. Um desafio central da ciência de dados é tirar conclusões confiáveis usando essas informações parciais.

Nesta empreitada, combinaremos duas ferramentas essenciais: computação e randomização. Por exemplo, podemos querer compreender as tendências das alterações climáticas utilizando observações de temperatura. Os computadores nos permitirão usar todas as informações disponíveis para tirar conclusões. Em vez de nos concentrarmos apenas na temperatura média de uma região, consideraremos toda a gama de temperaturas em conjunto para construir uma análise mais matizada. A aleatoriedade nos permitirá considerar as muitas maneiras diferentes pelas quais informações incompletas podem ser completadas. Em vez de assumir que as temperaturas variam de uma forma particular, aprenderemos a usar a aleatoriedade como forma de imaginar muitos cenários possíveis, todos consistentes com os dados que observamos.

Aplicar esta abordagem requer aprender a programar um computador e, portanto, este texto intercala uma introdução completa à programação que não pressupõe nenhum conhecimento prévio. Os leitores com experiência em programação descobrirão que cobrimos vários tópicos de computação que não aparecem em um currículo introdutório típico de ciência da computação. A ciência de dados também exige um raciocínio cuidadoso sobre quantidades numéricas, mas este texto não pressupõe qualquer formação em matemática ou estatística além da álgebra básica. Você encontrará muito poucas equações neste texto. Em vez disso, as técnicas são descritas aos leitores na mesma linguagem em que são descritas aos computadores que as executam – uma linguagem de programação.

← Capítulo 1 – O que é Ciência de Dados?

Capítulo 1.1.1 – Ferramentas Computacionais →