Capítulo 5.1

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

from datascience import *
path_data = '../../../assets/data/'

 

Arrays

Enquanto existem muitos tipos de coleções em Python, trabalharemos principalmente com arrays nesta aula. Já vimos que a função make_array pode ser usada para criar arrays de números.

Arrays também podem conter strings ou outros tipos de valores, mas um único array só pode conter um único tipo de dados. (Normalmente não faz sentido agrupar dados diferentes de qualquer maneira.) Por exemplo:

english_parts_of_speech = make_array("noun", "pronoun", "verb", "adverb", "adjective", "conjunction", "preposition", "interjection")
english_parts_of_speech
Out[2]: array([‘noun’, ‘pronoun’, ‘verb’, ‘adverb’, ‘adjective’, ‘conjunction’,
‘preposition’, ‘interjection’], dtype='<U12′)

 

Voltando aos dados de temperatura, criamos arrays de temperaturas médias diárias altas para as décadas em torno de 1850, 1900, 1950 e 2000.

baseline_high = 14.48
highs = make_array(baseline_high - 0.880,
                   baseline_high - 0.093,
                   baseline_high + 0.105,
                   baseline_high + 0.684)
highs
Out[3]: array([13.6 , 14.387, 14.585, 15.164])

 

Arrays podem ser usados em expressões aritméticas para calcular sobre seus conteúdos. Quando um array é combinado com um único número, esse número é combinado com cada elemento do array. Portanto, podemos converter todas essas temperaturas para Fahrenheit escrevendo a fórmula de conversão familiar.

(9/5) * highs + 32
Out[4]: array([56.48 , 57.8966, 58.253 , 59.2952])

Arrays também têm métodos, que são funções que operam nos valores do array. A mean de uma coleção de números é seu valor médio: a soma dividida pelo comprimento. Cada par de parênteses nos exemplos abaixo faz parte de uma expressão de chamada; está chamando uma função sem argumentos para realizar um cálculo no array chamado highs.

highs.size
Out[5]: 4

 

highs.sum()
Out[6]: 57.736000000000004

 

highs.mean()
Out[7]: 14.434000000000001

 

Funções em Arrays

O pacote numpy, abreviado como np em programas, fornece aos programadores Python funções convenientes e poderosas para criar e manipular arrays.

import numpy as np

 

Por exemplo, a função diff calcula a diferença entre cada par adjacente de elementos em um array. O primeiro elemento da diff é o segundo elemento menos o primeiro.

np.diff(highs)
Out[9]: array([0.787, 0.198, 0.579])

 

A referência completa do Numpy lista exaustivamente essas funções, mas apenas um pequeno subconjunto é comumente usado para aplicações de processamento de dados. Estes são agrupados em diferentes pacotes dentro de np. Aprender esse vocabulário é uma parte importante da aprendizagem da linguagem Python, então consulte esta lista com frequência enquanto trabalha em exemplos e problemas.

No entanto, você não precisa memorizar esses. Use isso como referência.

Cada uma dessas funções recebe um array como argumento e retorna um único valor.

Função Descrição
np.prod Multiplica todos os elementos juntos
np.sum Adiciona todos os elementos juntos
np.all Testa se todos os elementos são valores verdadeiros (números diferentes de zero são verdade)
np.any Testa se alguns elementos são valores verdadeiros (números diferentes de zero são verdade)
np.count_nonzero Conta o número de elementos diferentes de zero

 

Cada uma dessas funções recebe um array como argumento e retorna um array de valores.

Função Descrição
np.diff Diferença entre elementos adjacentes
np.round Arredonda cada número para o inteiro mais próximo
np.cumprod Um produto acumulado: para cada elemento, multiplique todos os elementos até agora
np.cumsum Uma soma cumulativa: para cada elemento, adicione todos os elementos até agora
np.exp Exponencie cada elemento
np.log Tire o logaritmo natural de cada elemento
np.sqrt Tire a raiz quadrada de cada elemento
np.sort Classificar os elementos

 

Cada uma dessas funções recebe um array de strings e retorna um array.

Função Descrição
np.char.lower Letras minúsculas de cada elemento
np.char.upper Letras maiúsculas de cada elemento
np.char.strip Remover espaços no início ou no final de cada elemento
np.char.isalpha Se cada elemento contém apenas letras (sem números ou símbolos)
np.char.isnumeric Se cada elemento contém apenas números (sem letras)

 

Cada uma dessas funções recebe tanto um array de strings quanto uma string de pesquisa; cada uma retorna um array.

Função Descrição
np.char.count Contar o número de vezes que uma string de pesquisa aparece entre os elementos de um array
np.char.find A posição dentro de cada elemento em que uma string de pesquisa é encontrada primeiro
np.char.rfind A posição dentro de cada elemento em que uma string de pesquisa é encontrada por último
np.char.startswith Se cada elemento começa com a string de pesquisa

 

← Capítulo 5 – Sequências Capítulo 5.2 – Ranges →