Capítulo 1.3.2

Índice

  1. 1. O que é Ciência de Dados?
  2. 2. Causalidade e Experimentos
  3. 3. Progamando em Python
  4. 4. Tipos de Dados
  5. 5. Sequências
  6. 6. Tabelas
  7. 7. Visualização
  8. 8. Funções e Tabelas
  9. 9. Aleatoriedade
  10. 10. Amostragem e Distribuições Empíricas
  11. 11. Testando Hipóteses
  12. 12. Comparando Duas Amostras
  13. 13. Estimação
  14. 14. Por que a Média é Importante
  15. 15. Previsão

from datascience import *
import numpy as np
path_data = '../../../../data/'
import matplotlib
matplotlib.use('Agg')
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
import warnings
warnings.simplefilter(action="ignore", category=FutureWarning)

from urllib.request import urlopen
import re
def read_url(url):
    return re.sub('\\s+', ' ', urlopen(url).read().decode())
# Read two books, fast (again)!

huck_finn_url = 'https://www.inferentialthinking.com/data/huck_finn.txt'
huck_finn_text = read_url(huck_finn_url)
huck_finn_chapters = huck_finn_text.split('CHAPTER ')[44:]

little_women_url = 'https://www.inferentialthinking.com/data/little_women.txt'
little_women_text = read_url(little_women_url)
little_women_chapters = little_women_text.split('CHAPTER ')[1:]

Outro Tipo de Personagem

Em algumas situações, as relações entre quantidades permitem-nos fazer previsões. Este texto explorará como fazer previsões precisas com base em informações incompletas e desenvolver métodos para combinar múltiplas fontes de informações incertas para tomar decisões.

Como exemplo de visualização de informações derivadas de fontes múltiplas, vamos primeiro usar o computador para obter algumas informações que seriam tediosas de serem adquiridas manualmente. No contexto dos romances, a palavra “personagem” tem um segundo significado: um símbolo impresso, como uma letra, um número ou um símbolo de pontuação. Aqui, pedimos ao computador para contar o número de caracteres e o número de períodos em cada capítulo de Huckleberry
Finn
e Little Women.

# Em cada capítulo, conte o número de todos os caracteres;
# chame isso de "duração" do capítulo.
# Conte também o número de períodos.

chars_periods_huck_finn = Table().with_columns([
        'Huck Finn Chapter Length', [len(s) for s in huck_finn_chapters],
        'Number of Periods', np.char.count(huck_finn_chapters, '.')
    ])
chars_periods_little_women = Table().with_columns([
        'Little Women Chapter Length', [len(s) for s in little_women_chapters],
        'Number of Periods', np.char.count(little_women_chapters, '.')
    ])

Aqui estão os dados para Huckleberry Finn. Cada linha da tabela corresponde a um capítulo do romance e exibe o número de caracteres, bem como o número de períodos no capítulo. Não surpreendentemente, capítulos com menos personagens também tendem a ter menos períodos, em geral: quanto mais curto o capítulo, menos frases tendem a haver, e vice-versa. A relação não é inteiramente previsível, no entanto, já que as frases têm comprimentos variados e
podem envolver outros sinais de pontuação, como pontos de interrogação.

chars_periods_huck_finn
Chapter Length Number of Periods
7026 66
11982 117
8529 72
6799 84
8166 91
14550 125
13218 127
22208 249
8081 71
7036 70
… (33 rows omitted)

Aqui estão os dados correspondentes para Little Women.

chars_periods_little_women
Chapter Length Number of Periods
21759 189
22148 188
20558 231
25526 195
23395 255
14622 140
14431 131
22476 214
33767 337
18508 185
… (37 rows omitted)

Podemos ver que os capítulos de Little Women são em geral mais longos do que os de Huckleberry Finn. Vamos ver se essas duas variáveis ​​simples – o comprimento e o número de períodos em cada capítulo – podem nos dizer algo mais sobre os dois livros. Uma maneira de fazer isso é plotar ambos os conjuntos de dados nos mesmos eixos.

No gráfico abaixo, há um ponto para cada capítulo em cada livro. Os pontos azuis correspondem a Huckleberry Finn e os pontos dourados a Little Women. O eixo horizontal representa o número de períodos e o eixo vertical representa o número de personagens.

plots.figure(figsize=(6, 6))
plots.scatter(chars_periods_huck_finn.column(1),
              chars_periods_huck_finn.column(0),
              color='darkblue')
plots.scatter(chars_periods_little_women.column(1),
              chars_periods_little_women.column(0),
              color='gold')
plots.xlabel('Number of periods in chapter')
plots.ylabel('Number of characters in chapter');

O enredo nos mostra que muitos, mas não todos, dos capítulos de Little Women são mais longos do que os de Huckleberry Finn, como havíamos observado apenas olhando para os números. Mas também nos mostra algo mais. Note como os pontos azuis estão aproximadamente agrupados em torno de uma linha reta, assim como os pontos amarelos. Além disso, parece que ambos os conjuntos de pontos podem estar agrupados em torno da mesma linha reta.

Agora observe todos os capítulos que contêm cerca de 100 períodos. O gráfico mostra que esses capítulos contêm cerca de 10.000 a 15.000 caracteres, aproximadamente. Isso é cerca de 100 a 150 caracteres por período.

De fato, parece, ao olhar o gráfico, que em média ambos os livros tendem a ter entre 100 e 150 caracteres entre os períodos, como uma estimativa muito aproximada. Talvez esses dois grandes romances do século XIX estivessem sinalizando algo tão familiar para nós agora: o limite de 140 caracteres do Twitter.

← Capítulo 1.3.1 – Personagens Literárioss Capítulo 2 – Causalidade e Experimentos →