EXERCÍCIO 02
Faça alguns comandos no SAS, conforme instruções abaixo:
-
Faça login no SAS
-
Clique no SAS-Studio
-
Você deve ver uma tela como abaixo.
4. Digite o comando com o nome de sua biblioteca:
-
LIBNAME mydata "/courses/df47fa15ba27fe300" access=readonly;
5. Comentários:
-
mydata é um rótulo para identificar meu conjunto de dados
-
"/courses/df47fa15ba27fe300" serve para identificar onde estão meus conjuntos de dados
-
access=readonly para dizer que os dados não podem ser alterados
-
; ponto-e-vírgula no final
6. Observe que os comandos do SAS tem cores. Porém, a cor vermelha significa que o comando está incorreto.
-
a cor azul são palavras-chave
-
roxo quer dizer que é um "string"
-
verde são notas que o autor do programa insere
7. O comando para criar um conjunto de dados (dataset) é DATA new;
8. O comando set serve para indicar qual será o arquivo de dados a ser trabalhado.
9. Por exemplo, o comando abaixo:
-
DATA new; set mydata.lajeado;
10. O comando PROC indica um procedimento
11. SORT é o comando para classificar
12. Usando o by você indica o campo que classificará o arquivo de dados
-
PROC SORT; by especie;
13. Para que o programa possa ser executado, é necessário o comando "RUN" seguido de ";"
-
RUN;
14. Resumo: a análise exploratória de dados inicia olhando uma variável de cada vez. Isso é chamado de univariância ou análise descritiva. A fim de converter os dados bruto em informações úteis, precisamos resumir e examinar a distribuição de qualquer variável de interesse. As variáveis de interesse são as variáveis de interesse do pesquisador. A ideia é responder as suas perguntas de pesquisa, direcionada ao problema de pesquisa e contar a história que você deseja para sua pesquisa. Pela distribuição de uma variável, queremos dizer quais os valores que a variável pode ter, e quantas vezes (frequência) que a variável recebe esses valores?
15. Por exemplo, podemos fazer a seguinte pergunta sobre as espécies de peixes de Lajeado. Como é a distribuição de peixes de Lajeado? Existe uma diversidade muito grande de espécies? Existem espécies que dominam o cenário? Existem espécies que indicam uma ameaça a extinção?
16. Para tentar responder essa pergunta de pesquisa, podemos iniciar nosso trabalho de pesquisa no SAS, tentando responder as seguintes perguntas estatísticas. Qual a percentagem da amostra das espécies de Lajeado caem em cada categoria? Quantos tipos de categorias e como estão as espécies divididas nessas categorias? É possível verificar as maiores categorias espécies? O que podemos concluir sobre isso?
17. Voltamos para o seu programa SAS para aprender como usar um procedimento de frequência, que é o que você usa para gerar distribuições para as variáveis de interesse que pertencem a sua pergunta da pesquisa.
-
O procedimento frequência é digitado como PROC FREQ, e é seguido por um ponto e vírgula. Em seguida, inclua a declaração TABLES seguido por uma lista de variáveis que você gostaria de examinar.
-
PROC FREQ; TABLES especie;
18. Para nossa pergunta de pesquisa, estamos interessados em olhar para espécie. Caso quisesse ver outras variáveis, você só precisa colocar os nomes separados por espaço ao lado, por exemplo, da variável espécie.
19. Clique no botão Salvar na parte superior da janela do programa. Depois de salvar o programa, você pode executá-lo clicando no botão Executar na parte superior do seu menu do programa.
20. O SAS estúdio tem três guias diferentes situadas na parte superior da janela principal do programa. Na parte direita, temos a guia Log e a guia Resultados. Uma vez que seu programa terminar a execução, a guia Resultados ou a guia Log será aberta. É uma forma de entrar na guia Log para checar a execução do programa, para que possa verificar se há qualquer erro em seu programa. Quando você clicar na guia Log, você verá uma seção no topo da página intitulada erros, avisos Notes, à direita do ícone de erros X vermelho. O mesmo acontece com quaisquer advertências ou Notes. Se houver quaisquer avisos, o número será listado entre parêntesis à direita do ícone triângulo amarelo Avisos. E quaisquer notas SAS sobre seu programa serão numeradas novamente entre parênteses à direita do ícone círculo azul Notes. Se você clicar duas vezes sobre qualquer um desses ícones que indicam o número de erros, avisos ou notas que existem no programa, então irá aparecer uma lista abaixo do ícone. Se você encontrar quaisquer erros listados na página Log, volte para a página de código, corrija os erros. Salve o código corrigido e em seguida, execute o programa novamente. Se nenhum erro for listado na página Log, clique em voltar para a página de resultados e você verá os resultados de seu programa.
21. Podemos gerar rótulos para as variáveis em seu programa. O programa SAS é composto de duas etapas distintas, a etapa "DATA" e a etapa "PROC". A etapa "DATA" permite você gerir e manipular seus dados. A etapa "PROC" permite você analisar e apresentar seus dados. Os passos PROC são procedimentos pré-escritos, de modo que o código da etapa PROC não manda o SAS executar instruções como quando você escreve um código na etapa DATA. Os códigos PROC basicamente controlam a forma como a etapa PROC é executada. Com isto em mente, você pode digitar "LABEL" como rótulo em PROC. Assim, você digita o nome das variáveis. Cada nome de variável é seguida por um sinal de igual e, em seguida, o nome da variável é descrita entre aspas. Depois de ter concluído a lista de seus novos rótulos de variáveis, as declarações terminam com um ponto e vírgula. Em seguida, salve o seu programa e execute-o novamente clicando no botão Run.
-
LABEL especie="Espécies de Peixe";
22. Veja o resultado:
23. Crie um blog, wiki, ou página Web, ou seja, uma forma de mostrar o progresso do seu conhecimento durante o Curso. Neste site, você poderá colocar todo o seu material produzido para o Curso, incluindo, relatórios orais e apresentações a serem realizadas durante o Curso. O link do seu site será postado neste site do Curso, no menu "Membros", de forma que possamos ter acesso rápido e fácil ao seu material produzido para o Curso.
24. Agora, responda as seguintes perguntas:
-
Como é a distribuição de peixes de Lajeado? Existe uma diversidade muito grande de espécies? Existem espécies que dominam o cenário? Existem espécies que indicam uma ameaça de extinção?
25. Agora que você examinou as tabelas de frequência para suas variáveis, a próxima decisão que você precisa fazer é se você quer observar um subconjunto dos dados, e fazer uma pergunta com base em observações específicas. Em outras palavras, existem linhas específicas (valores) em seu conjunto de dados que você gostaria de observar separadamente? Isto é, observações individuais que você deseja manter e outras que você deseja excluir? Por exemplo, estamos mais interessados na associação entre espécies que foram coletadas em um PH específico e que ainda foram encontradas em um horário específico. Além de outros refinamentos. Assim, podemo refinar a questão original da pesquisa. Para implementar essas decisões, vamos voltar para o nosso programa e adicionar duas declarações adicionais, no final de nossa etapa DATA. Estas declarações adicionais são declarações lógicas. Especificamente, você precisa adicionar declarações lógicas para fazer o programa incluir apenas as observações que irão ajudá-lo a esclarecer sua pergunta de pesquisa.
26. Aqui está uma tabela comum de operações usadas no SAS.
27. As seguintes declarações de lógica deverão ser adicionadas ao seu programa, a fim de chamar o subconjunto específico de observações a ser utilizado como base da questão de pesquisa.
-
IF ph GT 5;
-
IF horario = 6;
28. Estas declarações lógicas devem ficar no final da etapa DATA, antes da instrução PROC.
29. Esta é uma maneira de adicionar comentários ao seu programa para ajudar você a se lembrar o que as linhas específicas de código fazem. Pois, a medida que seu código aumenta, pode se tornar difícil lembrar o por quê você as escreveu. Você pode comentar no SAS usando os comandos /* e */. Por exemplo, aqui está um comentário adicionado ao nosso código de exemplo.
-
/* Coloque somente ph maior que 5 e horário igual a 6 para ver se encontro a espécie C.gibbus*/
30. É uma nota para nos lembrar que o resultado dos dados são um subconjunto com algum intuito.
31. A nota é escrita em verde dentro do programa. Você pode ter certeza que este comentário não será lido como sintaxe no SAS. Estas anotações podem ser muito importante, porque elas vão ajudá-lo a manter o controle das decisões que você fez e ações que você tomou, por escrito, em seu código. Neste ponto, você pode salvar seu código de programa.