Capítulo 1.3
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
Bibliotecas necessárias:
from datascience import *
from datascience.predicates import are
path_data = '../../../../data/'
import numpy as np
import matplotlib
matplotlib.use('Agg')
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
import warnings
warnings.simplefilter(action="ignore", category=FutureWarning)
from urllib.request import urlopen
import re
def read_url(url):
return re.sub('\\s+', ' ', urlopen(url).read().decode())
Traçando os Clássicos
Neste exemplo, exploraremos estatísticas de dois romances clássicos: As Aventuras de Huckleberry Finn, de Mark Twain, e Pequenas Mulheres, de Louisa May Alcott. O texto de qualquer livro pode ser lido por um computador em grande velocidade. Os livros publicados antes de 1923 são atualmente de domínio público, o que significa que todos têm o direito de copiar ou utilizar o texto de qualquer forma. Project Gutenberg é um site que publica livros online de domínio público. Usando Python, podemos carregar o texto desses livros diretamente da web.
Este exemplo pretende ilustrar alguns dos temas gerais deste texto. Não se preocupe se os detalhes do programa ainda não fizerem sentido. Em vez disso, concentre-se na interpretação das imagens geradas abaixo. As seções posteriores do texto descreverão a maioria dos recursos da linguagem de programação Python usada abaixo.
Primeiro, lemos o texto de ambos os livros em listas de capítulos, chamados huck_finn_chapters e little_women_chapters. Em Python, um nome não pode conter espaços e, portanto, frequentemente usaremos um sublinhado _ para substituir um espaço. O = nas linhas abaixo dão um nome à esquerda ao resultado de algum cálculo descrito à direita. Um localizador uniforme de recursos ou URL é um endereço na Internet para algum conteúdo; neste caso, o texto de um livro. O # símbolo inicia um comentário, que é ignorado pelo computador, mas útil para quem lê o código.
# Leia dois livros, rápido!
huck_finn_url = 'https://www.inferentialthinking.com/data/huck_finn.txt'
huck_finn_text = read_url(huck_finn_url)
huck_finn_chapters = huck_finn_text.split('CHAPTER ')[44:]
little_women_url = 'https://www.inferentialthinking.com/data/little_women.txt'
little_women_text = read_url(little_women_url)
little_women_chapters = little_women_text.split('CHAPTER ')[1:]
Embora um computador não consiga compreender o texto de um livro, ele pode nos fornecer algumas informações sobre a estrutura do texto. O nome huck_finn_chapters está atualmente vinculado a uma lista de todos os capítulos do livro. Podemos colocá-los em uma tabela para ver como cada capítulo começa.
# Exiba os capítulos de Huckleberry Finn em uma tabela.
Table().with_column('Chapters', huck_finn_chapters)
| Chapter | Opening Line |
|---|---|
| I. | YOU don’t know about me without you have read a book … |
| II. | WE went tiptoeing along a path amongst the trees bac … |
| III. | WELL, I got a good going-over in the morning from o … |
| IV. | WELL, three or four months run along, and it was wel … |
| V. | I had shut the door to. Then I turned around and ther … |
| VI. | WELL, pretty soon the old man was up and around agai … |
| VII. | “GIT up! What you ’bout?” I opened my eyes and look … |
| VIII. | THE sun was up so high when I waked that I judged … |
| IX. | I wanted to go and look at a place right about the m … |
| X. | AFTER breakfast I wanted to talk about the dead man a … |
| … (33 rows omitted) | |
Cada capítulo começa com um número de capítulo em algarismos romanos, seguido pela primeira frase do capítulo. O Projeto Gutenberg imprimiu a primeira palavra de cada capítulo em maiúsculas.
| ← Capítulo 1.2 – Por que ciência de dados? | Capítulo 1.3.1 – Personagens Literários → |
