Capítulo 1.3.2
Índice
- 1. O que é Ciência de Dados?
- 2. Causalidade e Experimentos
- 3. Progamando em Python
- 4. Tipos de Dados
- 5. Sequências
- 6. Tabelas
- 7. Visualização
- 8. Funções e Tabelas
- 9. Aleatoriedade
- 10. Amostragem e Distribuições Empíricas
- 11. Testando Hipóteses
- 12. Comparando Duas Amostras
- 13. Estimação
- 14. Por que a Média é Importante
- 15. Previsão
from datascience import *
import numpy as np
path_data = '../../../../data/'
import matplotlib
matplotlib.use('Agg')
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
import warnings
warnings.simplefilter(action="ignore", category=FutureWarning)
from urllib.request import urlopen
import re
def read_url(url):
return re.sub('\\s+', ' ', urlopen(url).read().decode())
# Read two books, fast (again)!
huck_finn_url = 'https://www.inferentialthinking.com/data/huck_finn.txt'
huck_finn_text = read_url(huck_finn_url)
huck_finn_chapters = huck_finn_text.split('CHAPTER ')[44:]
little_women_url = 'https://www.inferentialthinking.com/data/little_women.txt'
little_women_text = read_url(little_women_url)
little_women_chapters = little_women_text.split('CHAPTER ')[1:]
Outro Tipo de Personagem
Em algumas situações, as relações entre quantidades permitem-nos fazer previsões. Este texto explorará como fazer previsões precisas com base em informações incompletas e desenvolver métodos para combinar múltiplas fontes de informações incertas para tomar decisões.
Como exemplo de visualização de informações derivadas de fontes múltiplas, vamos primeiro usar o computador para obter algumas informações que seriam tediosas de serem adquiridas manualmente. No contexto dos romances, a palavra “personagem” tem um segundo significado: um símbolo impresso, como uma letra, um número ou um símbolo de pontuação. Aqui, pedimos ao computador para contar o número de caracteres e o número de períodos em cada capítulo de Huckleberry
Finn e Little Women.
# Em cada capítulo, conte o número de todos os caracteres;
# chame isso de "duração" do capítulo.
# Conte também o número de períodos.
chars_periods_huck_finn = Table().with_columns([
'Huck Finn Chapter Length', [len(s) for s in huck_finn_chapters],
'Number of Periods', np.char.count(huck_finn_chapters, '.')
])
chars_periods_little_women = Table().with_columns([
'Little Women Chapter Length', [len(s) for s in little_women_chapters],
'Number of Periods', np.char.count(little_women_chapters, '.')
])
Aqui estão os dados para Huckleberry Finn. Cada linha da tabela corresponde a um capítulo do romance e exibe o número de caracteres, bem como o número de períodos no capítulo. Não surpreendentemente, capítulos com menos personagens também tendem a ter menos períodos, em geral: quanto mais curto o capítulo, menos frases tendem a haver, e vice-versa. A relação não é inteiramente previsível, no entanto, já que as frases têm comprimentos variados e
podem envolver outros sinais de pontuação, como pontos de interrogação.
chars_periods_huck_finn
| Chapter Length | Number of Periods |
|---|---|
| 7026 | 66 |
| 11982 | 117 |
| 8529 | 72 |
| 6799 | 84 |
| 8166 | 91 |
| 14550 | 125 |
| 13218 | 127 |
| 22208 | 249 |
| 8081 | 71 |
| 7036 | 70 |
| … (33 rows omitted) | |
Aqui estão os dados correspondentes para Little Women.
chars_periods_little_women
| Chapter Length | Number of Periods |
|---|---|
| 21759 | 189 |
| 22148 | 188 |
| 20558 | 231 |
| 25526 | 195 |
| 23395 | 255 |
| 14622 | 140 |
| 14431 | 131 |
| 22476 | 214 |
| 33767 | 337 |
| 18508 | 185 |
| … (37 rows omitted) | |
Podemos ver que os capítulos de Little Women são em geral mais longos do que os de Huckleberry Finn. Vamos ver se essas duas variáveis simples – o comprimento e o número de períodos em cada capítulo – podem nos dizer algo mais sobre os dois livros. Uma maneira de fazer isso é plotar ambos os conjuntos de dados nos mesmos eixos.
No gráfico abaixo, há um ponto para cada capítulo em cada livro. Os pontos azuis correspondem a Huckleberry Finn e os pontos dourados a Little Women. O eixo horizontal representa o número de períodos e o eixo vertical representa o número de personagens.
plots.figure(figsize=(6, 6))
plots.scatter(chars_periods_huck_finn.column(1),
chars_periods_huck_finn.column(0),
color='darkblue')
plots.scatter(chars_periods_little_women.column(1),
chars_periods_little_women.column(0),
color='gold')
plots.xlabel('Number of periods in chapter')
plots.ylabel('Number of characters in chapter');

O enredo nos mostra que muitos, mas não todos, dos capítulos de Little Women são mais longos do que os de Huckleberry Finn, como havíamos observado apenas olhando para os números. Mas também nos mostra algo mais. Note como os pontos azuis estão aproximadamente agrupados em torno de uma linha reta, assim como os pontos amarelos. Além disso, parece que ambos os conjuntos de pontos podem estar agrupados em torno da mesma linha reta.
Agora observe todos os capítulos que contêm cerca de 100 períodos. O gráfico mostra que esses capítulos contêm cerca de 10.000 a 15.000 caracteres, aproximadamente. Isso é cerca de 100 a 150 caracteres por período.
De fato, parece, ao olhar o gráfico, que em média ambos os livros tendem a ter entre 100 e 150 caracteres entre os períodos, como uma estimativa muito aproximada. Talvez esses dois grandes romances do século XIX estivessem sinalizando algo tão familiar para nós agora: o limite de 140 caracteres do Twitter.
| ← Capítulo 1.3.1 – Personagens Literárioss | Capítulo 2 – Causalidade e Experimentos → |
