Capítulo 5.1
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
from datascience import *
path_data = '../../../assets/data/'
Arrays
Enquanto existem muitos tipos de coleções em Python, trabalharemos principalmente com arrays nesta aula. Já vimos que a função make_array pode ser usada para criar arrays de números.
Arrays também podem conter strings ou outros tipos de valores, mas um único array só pode conter um único tipo de dados. (Normalmente não faz sentido agrupar dados diferentes de qualquer maneira.) Por exemplo:
english_parts_of_speech = make_array("noun", "pronoun", "verb", "adverb", "adjective", "conjunction", "preposition", "interjection")
english_parts_of_speech
| Out[2]: | array([‘noun’, ‘pronoun’, ‘verb’, ‘adverb’, ‘adjective’, ‘conjunction’, ‘preposition’, ‘interjection’], dtype='<U12′) |
Voltando aos dados de temperatura, criamos arrays de temperaturas médias diárias altas para as décadas em torno de 1850, 1900, 1950 e 2000.
baseline_high = 14.48
highs = make_array(baseline_high - 0.880,
baseline_high - 0.093,
baseline_high + 0.105,
baseline_high + 0.684)
highs
| Out[3]: | array([13.6 , 14.387, 14.585, 15.164]) |
Arrays podem ser usados em expressões aritméticas para calcular sobre seus conteúdos. Quando um array é combinado com um único número, esse número é combinado com cada elemento do array. Portanto, podemos converter todas essas temperaturas para Fahrenheit escrevendo a fórmula de conversão familiar.
(9/5) * highs + 32
| Out[4]: | array([56.48 , 57.8966, 58.253 , 59.2952]) |

Arrays também têm métodos, que são funções que operam nos valores do array. A mean de uma coleção de números é seu valor médio: a soma dividida pelo comprimento. Cada par de parênteses nos exemplos abaixo faz parte de uma expressão de chamada; está chamando uma função sem argumentos para realizar um cálculo no array chamado highs.
highs.size
| Out[5]: | 4 |
highs.sum()
| Out[6]: | 57.736000000000004 |
highs.mean()
| Out[7]: | 14.434000000000001 |
Funções em Arrays
O pacote numpy, abreviado como np em programas, fornece aos programadores Python funções convenientes e poderosas para criar e manipular arrays.
import numpy as np
Por exemplo, a função diff calcula a diferença entre cada par adjacente de elementos em um array. O primeiro elemento da diff é o segundo elemento menos o primeiro.
np.diff(highs)
| Out[9]: | array([0.787, 0.198, 0.579]) |
A referência completa do Numpy lista exaustivamente essas funções, mas apenas um pequeno subconjunto é comumente usado para aplicações de processamento de dados. Estes são agrupados em diferentes pacotes dentro de np. Aprender esse vocabulário é uma parte importante da aprendizagem da linguagem Python, então consulte esta lista com frequência enquanto trabalha em exemplos e problemas.
No entanto, você não precisa memorizar esses. Use isso como referência.
Cada uma dessas funções recebe um array como argumento e retorna um único valor.
| Função | Descrição |
|---|---|
np.prod |
Multiplica todos os elementos juntos |
np.sum |
Adiciona todos os elementos juntos |
np.all |
Testa se todos os elementos são valores verdadeiros (números diferentes de zero são verdade) |
np.any |
Testa se alguns elementos são valores verdadeiros (números diferentes de zero são verdade) |
np.count_nonzero |
Conta o número de elementos diferentes de zero |
Cada uma dessas funções recebe um array como argumento e retorna um array de valores.
| Função | Descrição |
|---|---|
np.diff |
Diferença entre elementos adjacentes |
np.round |
Arredonda cada número para o inteiro mais próximo |
np.cumprod |
Um produto acumulado: para cada elemento, multiplique todos os elementos até agora |
np.cumsum |
Uma soma cumulativa: para cada elemento, adicione todos os elementos até agora |
np.exp |
Exponencie cada elemento |
np.log |
Tire o logaritmo natural de cada elemento |
np.sqrt |
Tire a raiz quadrada de cada elemento |
np.sort |
Classificar os elementos |
Cada uma dessas funções recebe um array de strings e retorna um array.
| Função | Descrição |
|---|---|
np.char.lower |
Letras minúsculas de cada elemento |
np.char.upper |
Letras maiúsculas de cada elemento |
np.char.strip |
Remover espaços no início ou no final de cada elemento |
np.char.isalpha |
Se cada elemento contém apenas letras (sem números ou símbolos) |
np.char.isnumeric |
Se cada elemento contém apenas números (sem letras) |
Cada uma dessas funções recebe tanto um array de strings quanto uma string de pesquisa; cada uma retorna um array.
| Função | Descrição |
|---|---|
np.char.count |
Contar o número de vezes que uma string de pesquisa aparece entre os elementos de um array |
np.char.find |
A posição dentro de cada elemento em que uma string de pesquisa é encontrada primeiro |
np.char.rfind |
A posição dentro de cada elemento em que uma string de pesquisa é encontrada por último |
np.char.startswith |
Se cada elemento começa com a string de pesquisa |
| ← Capítulo 5 – Sequências | Capítulo 5.2 – Ranges → |
