Modelagem de dados é a combinação de procedimentos de:
A modelagem de dados só faz sentido se houver uma pergunta a ser feita aos dados. A pergunta pode ter motivação empírica ou teórica; a partir da pergunta, são construídas hipóteses e são organizados os dados para a testagem destas hipóteses.
Por isso, precisamos ter clareza do problema de pesquisa (saber que pergunta será feita aos dados), e saber selecionar a ferramenta estatística adequada, para extrair significado dos dados.
Estatística lida com probabilidades, razões de chance de ocorrer; e o que fazemos é quantificar a nossa incerteza: eu tenho 95% de confiança de que, após este curso, entre 83% e 87% de vocês, alunos, serão capazes de realizar um teste de qui-quadrado.
Como eu cheguei a esses números? Ou melhor, o que significam esses números? Estas são algumas das respostas que este curso pode oferecer.
Para podermos fazer as perguntas ao conjunto de dados, a organização é essencial. Utilize um programa de planilhas eletrônicas para construir o seu conjunto de dados, há várias opções (Microsoft Office Excel, Open Office Calc , Planilhas Google, etc.). Siga os 10 mandamentos e as suas perguntas serão mais facilmente respondidas:
1. Todos os seus dados devem ser armazenados em uma única planilha
2. A planilha deve seguir a ordem de formatação
3. Uma linha = uma ocorrência
4. Uma coluna = uma variável
5. Não codifique todas as variáveis qualitativas
6. O banco de dados deve conter apenas dados
7. A codificação deve ser homogênea
8. Respeite as variáveis numéricas
9. Garanta o anonimato das fontes
10. O banco de dados precisa ser legível para humanos
Relembrando:
Estes cuidados vão facilitar a sua vida na análise e permitir o compartilhamento e reuso de dados, um dos princípios de Ciência Aberta.
Formato do arquivo: Os dados armazenados em formatos comuns de planilha eletrônica (*.xls, etc.) muitas vezes não serão lidos corretamente no software de análise de dados, levando a erros em seus dados. A exportação de dados de planilhas para formatos como CSV ou TSV permite o uso consistente pela maioria dos programas.
Se você quiser saber mais sobre organização de conjuntos de dados, leia estes artigos:
Já tenho meu conjunto de dados, e agora? Vamos iniciar a exploração dos dados:
- Nunca faça um teste estatístico antes das etapas prévias de exploração!!!!
A primeira inspeção que fazemos em um conjunto de dados é quanto ao tipo de dados, na forma de variáveis. As variáveis são as representações das colunas, as ocorrências são as representações das linhas.
Variável | Variável | Variável | Variável | Variável |
---|---|---|---|---|
Ocorrência | Ocorrência | Ocorrência | Ocorrência | Ocorrência |
Ocorrência | Ocorrência | Ocorrência | Ocorrência | Ocorrência |
Ocorrência | Ocorrência | Ocorrência | Ocorrência | Ocorrência |
Ocorrência | Ocorrência | Ocorrência | Ocorrência | Ocorrência |
Os tipos de variáveis que compõe um conjunto de dados podem ser:
Vamos observar dados reais em um conjunto de dados. Vamos importar um conjunto de dados nativo da plataforma R, o iris
. Para inspecioná-lo, digite str(iris)
no console do R e rode o código.
str(iris)
#> 'data.frame': 150 obs. of 5 variables:
#> $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
#> $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
#> $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
#> $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
#> $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
A função str()
sumariza a estrutura de um conjunto de dados. No caso do conjunto iris
, temos um data.frame
, um tipo de arranjo em que cada observação corresponde a uma linha e cada coluna a uma variável. Este é o formato normalmente importado das planilhas.
Neste conjunto de dados, temos 150 ocorrências e 5 variáveis.
Vamos agora inspecionar os tipos de variáveis neste conjunto de dados. Utilize a função head()
no conjunto de dados iris
e rode o código.
head(iris)
#> Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#> 1 5.1 3.5 1.4 0.2 setosa
#> 2 4.9 3.0 1.4 0.2 setosa
#> 3 4.7 3.2 1.3 0.2 setosa
#> 4 4.6 3.1 1.5 0.2 setosa
#> 5 5.0 3.6 1.4 0.2 setosa
#> 6 5.4 3.9 1.7 0.4 setosa
A função head()
lista as seis primeiras ocorrências do data.frame
.
Vamos inspecionar outro conjunto de dados, airquality
. Utilize as funções str()
e head()
para inspeção:
str(airquality)
#> 'data.frame': 153 obs. of 6 variables:
#> $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ...
#> $ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ...
#> $ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
#> $ Temp : int 67 72 74 62 56 66 65 59 61 69 ...
#> $ Month : int 5 5 5 5 5 5 5 5 5 5 ...
#> $ Day : int 1 2 3 4 5 6 7 8 9 10 ...
head(airquality)
#> Ozone Solar.R Wind Temp Month Day
#> 1 41 190 7.4 67 5 1
#> 2 36 118 8.0 72 5 2
#> 3 12 149 12.6 74 5 3
#> 4 18 313 11.5 62 5 4
#> 5 NA NA 14.3 56 5 5
#> 6 28 NA 14.9 66 5 6
Vamos agora identificar as variáveis. Todas as variáveis apresentam números, mas nem todos os números são variáveis numéricas! Dia e mês são unidades de ordenação e não de medida. Por isso é importante conhecer o conjunto de dados e sua organização.
Se você quiser conhecer mais conjuntos de dados, utilize a função
data()
no console da plataforma R e veja as formas de apresentação e distribuição de variáveis.
Um conjunto de dados provê respostas a uma pergunta de pesquisa. Por isso, é importante saber a natureza da pesquisa e identificar as variáveis de interesse.
As pesquisas podem ser classificadas em observacionais, quando o pesquisador estuda um problema, mas não interfere no seu desfecho, ou experimentais, quando o pesquisador interfere no problema para então observar o que acontece. Pesquisas experimentais podem ser controladas, naturais ou de campo. Pesquisas observacionais podem ser seccionais, transversais ou longitudinais.
Saber se há ou não interferência do pesquisador no resultado é importante para delinear as variáveis de interesse, aquelas que são medidas ou observadas, também chamadas de variáveis de resposta ou dependentes, e saber quais são as variáveis que afetam a resposta e podem ser definidas ou medidas, chamadas de preditoras, explicativas ou independentes (sinônimos).
Vamos voltar a fazer bolo. Queremos saber qual é o segredo para um bolo delicioso; precisamos testar as variáveis que podem ser preditivas de uma receita de bolo de sucesso, como a temperatura do forno, tempo de cozimento, tipo do recheio. Qual seria o resultado do efeito diferenciado delas em uma receita? Saber diferenciar qual é a variável preditora e a variável resposta em um estudo é essencial para a organização dos dados.
Muitas dificuldades em uma pesquisa decorrem de problemas na organização do conjunto de dados. Quando não se tem clareza sobre o que se quer perguntar aos dados, não se sabe qual é a variável dependente, nem quais são os preditores que atuam sobre ela.
Uma saída é usar o liquidificador: escolha um pacote estatístico, jogue todos os dados lá dentro e peça todas as possibilidades de análise. Aí escolha a que tiver o p-valor melhor…
A outra saída é ter clareza do que se quer, ter um plano de registro de pré-análise (o que eu vou perguntar aos meus dados). Isso exige ter clareza da variável dependente e dos preditores.
Como citar:
FREITAG, Raquel M. K. Organização do conjunto de dados. Disponível em: https://rkofreitag.github.io/Organizacao.html/. Atualizado em: 2021-04-11.