Apresentação

Modelagem de dados é a combinação de procedimentos de:

A modelagem de dados só faz sentido se houver uma pergunta a ser feita aos dados. A pergunta pode ter motivação empírica ou teórica; a partir da pergunta, são construídas hipóteses e são organizados os dados para a testagem destas hipóteses.

Por isso, precisamos ter clareza do problema de pesquisa (saber que pergunta será feita aos dados), e saber selecionar a ferramenta estatística adequada, para extrair significado dos dados.

Estatística lida com probabilidades, razões de chance de ocorrer; e o que fazemos é quantificar a nossa incerteza: eu tenho 95% de confiança de que, após este curso, entre 83% e 87% de vocês, alunos, serão capazes de realizar um teste de qui-quadrado.

Como eu cheguei a esses números? Ou melhor, o que significam esses números? Estas são algumas das respostas que este curso pode oferecer.

Os 10 mandamentos

Para podermos fazer as perguntas ao conjunto de dados, a organização é essencial. Utilize um programa de planilhas eletrônicas para construir o seu conjunto de dados, há várias opções (Microsoft Office Excel, Open Office Calc , Planilhas Google, etc.). Siga os 10 mandamentos e as suas perguntas serão mais facilmente respondidas:

1. Todos os seus dados devem ser armazenados em uma única planilha

2. A planilha deve seguir a ordem de formatação

3. Uma linha = uma ocorrência

4. Uma coluna = uma variável

5. Não codifique todas as variáveis qualitativas

6. O banco de dados deve conter apenas dados

7. A codificação deve ser homogênea

8. Respeite as variáveis numéricas

9. Garanta o anonimato das fontes

10. O banco de dados precisa ser legível para humanos

Relembrando:

Estes cuidados vão facilitar a sua vida na análise e permitir o compartilhamento e reuso de dados, um dos princípios de Ciência Aberta.

Formato do arquivo: Os dados armazenados em formatos comuns de planilha eletrônica (*.xls, etc.) muitas vezes não serão lidos corretamente no software de análise de dados, levando a erros em seus dados. A exportação de dados de planilhas para formatos como CSV ou TSV permite o uso consistente pela maioria dos programas.

Se você quiser saber mais sobre organização de conjuntos de dados, leia estes artigos:

Tipos de variáveis

Já tenho meu conjunto de dados, e agora? Vamos iniciar a exploração dos dados:

  • Nunca faça um teste estatístico antes das etapas prévias de exploração!!!!

A primeira inspeção que fazemos em um conjunto de dados é quanto ao tipo de dados, na forma de variáveis. As variáveis são as representações das colunas, as ocorrências são as representações das linhas.

Variável Variável Variável Variável Variável
Ocorrência Ocorrência Ocorrência Ocorrência Ocorrência
Ocorrência Ocorrência Ocorrência Ocorrência Ocorrência
Ocorrência Ocorrência Ocorrência Ocorrência Ocorrência
Ocorrência Ocorrência Ocorrência Ocorrência Ocorrência

Os tipos de variáveis que compõe um conjunto de dados podem ser:

Vamos observar dados reais em um conjunto de dados. Vamos importar um conjunto de dados nativo da plataforma R, o iris. Para inspecioná-lo, digite str(iris) no console do R e rode o código.

str(iris)
#> 'data.frame':    150 obs. of  5 variables:
#>  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
#>  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
#>  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
#>  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
#>  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

A função str() sumariza a estrutura de um conjunto de dados. No caso do conjunto iris, temos um data.frame, um tipo de arranjo em que cada observação corresponde a uma linha e cada coluna a uma variável. Este é o formato normalmente importado das planilhas.

Neste conjunto de dados, temos 150 ocorrências e 5 variáveis.

Vamos agora inspecionar os tipos de variáveis neste conjunto de dados. Utilize a função head() no conjunto de dados iris e rode o código.

head(iris)
#>   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#> 1          5.1         3.5          1.4         0.2  setosa
#> 2          4.9         3.0          1.4         0.2  setosa
#> 3          4.7         3.2          1.3         0.2  setosa
#> 4          4.6         3.1          1.5         0.2  setosa
#> 5          5.0         3.6          1.4         0.2  setosa
#> 6          5.4         3.9          1.7         0.4  setosa

A função head() lista as seis primeiras ocorrências do data.frame.

Vamos inspecionar outro conjunto de dados, airquality. Utilize as funções str() e head() para inspeção:

str(airquality)
#> 'data.frame':    153 obs. of  6 variables:
#>  $ Ozone  : int  41 36 12 18 NA 28 23 19 8 NA ...
#>  $ Solar.R: int  190 118 149 313 NA NA 299 99 19 194 ...
#>  $ Wind   : num  7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
#>  $ Temp   : int  67 72 74 62 56 66 65 59 61 69 ...
#>  $ Month  : int  5 5 5 5 5 5 5 5 5 5 ...
#>  $ Day    : int  1 2 3 4 5 6 7 8 9 10 ...
head(airquality)
#>   Ozone Solar.R Wind Temp Month Day
#> 1    41     190  7.4   67     5   1
#> 2    36     118  8.0   72     5   2
#> 3    12     149 12.6   74     5   3
#> 4    18     313 11.5   62     5   4
#> 5    NA      NA 14.3   56     5   5
#> 6    28      NA 14.9   66     5   6

Vamos agora identificar as variáveis. Todas as variáveis apresentam números, mas nem todos os números são variáveis numéricas! Dia e mês são unidades de ordenação e não de medida. Por isso é importante conhecer o conjunto de dados e sua organização.

Se você quiser conhecer mais conjuntos de dados, utilize a função data() no console da plataforma R e veja as formas de apresentação e distribuição de variáveis.

Variáveis de interesse

Um conjunto de dados provê respostas a uma pergunta de pesquisa. Por isso, é importante saber a natureza da pesquisa e identificar as variáveis de interesse.

As pesquisas podem ser classificadas em observacionais, quando o pesquisador estuda um problema, mas não interfere no seu desfecho, ou experimentais, quando o pesquisador interfere no problema para então observar o que acontece. Pesquisas experimentais podem ser controladas, naturais ou de campo. Pesquisas observacionais podem ser seccionais, transversais ou longitudinais.

Saber se há ou não interferência do pesquisador no resultado é importante para delinear as variáveis de interesse, aquelas que são medidas ou observadas, também chamadas de variáveis de resposta ou dependentes, e saber quais são as variáveis que afetam a resposta e podem ser definidas ou medidas, chamadas de preditoras, explicativas ou independentes (sinônimos).

Vamos voltar a fazer bolo. Queremos saber qual é o segredo para um bolo delicioso; precisamos testar as variáveis que podem ser preditivas de uma receita de bolo de sucesso, como a temperatura do forno, tempo de cozimento, tipo do recheio. Qual seria o resultado do efeito diferenciado delas em uma receita? Saber diferenciar qual é a variável preditora e a variável resposta em um estudo é essencial para a organização dos dados.

Por que isso é importante?

Muitas dificuldades em uma pesquisa decorrem de problemas na organização do conjunto de dados. Quando não se tem clareza sobre o que se quer perguntar aos dados, não se sabe qual é a variável dependente, nem quais são os preditores que atuam sobre ela.

Uma saída é usar o liquidificador: escolha um pacote estatístico, jogue todos os dados lá dentro e peça todas as possibilidades de análise. Aí escolha a que tiver o p-valor melhor…

A outra saída é ter clareza do que se quer, ter um plano de registro de pré-análise (o que eu vou perguntar aos meus dados). Isso exige ter clareza da variável dependente e dos preditores.

Como citar:

FREITAG, Raquel M. K. Organização do conjunto de dados. Disponível em: https://rkofreitag.github.io/Organizacao.html/. Atualizado em: 2021-04-11.