Introdução e Objetivo

Os setores de lazer movimentam bilhões de dólares todos os anos nos mais variados lugares do mundo. Este fator faz com que muitos profissionais fiquem de olho em grandes fatias deste montante. Desta forma, indústrias, empresários, economistas e até mesmo universidades e pesquisadores estudam, cada vez mais, formas de atrair e convencer tais consumidores a optarem, por um, ou outro serviço/produto, seja pela qualidade ou até mesmo pela satisfação. Assim, objetivou-se neste trabalho modelar um banco de dados coletadas de grupo de pessoas que visitaram um parque de pesca. No banco de dados em estudo, chamado Fish, tem-se 250 grupos de pessoas que foram a este parque. Objetivou-se nesse trabalho, a partir deste banco de dados, criar um Modelo Linear Generalizado que representasse tais dados. Para isso foi precisa acrescentar e testar algumas funções de variância.

Metodologia

Cada grupo foi questionado sobre a quantidade de peixes que foram capturados (quantidade representada pela variável COUNT), a quantidade de pessoas que estavam no grupo (variável PERSONS), e se eles trouxeram, ou não, um campista ao parque (resposta representada pela variável dicotômica CAMPER). Iniciou-se com uma análise exploratória para as variáveis quantitativas do banco de dados FISH. Retirou-se as observações 89 e 160 para tentar melhorar os dados baseado no que se observava nos gráfico até então. Posteriormente, procedeu-se, na tentativa de tentar observar as dispersões individualmente para identificar outras particularidades. Realizou-se testes de normalidade e homocedasticidade bem como foi analizado os Leverages, distâncias de Cook e medidas DFBetas chegando-se ao modelo proposto.

Resultados

A razão entre a estatística Deviance e os graus de liberdade foi igual a 5,4353, o mesmo aconteceu com a razão calculada com a estatística Scaled Deviance (número de zeros). Além disso, de modo análogo, a estatística Scaled Pearson X2 resultou em uma razão igual a 11,831 (indicativo da existência de sobredispersão). Verificou-se que os resíduos brutos eram independentes dos valores ajustados e, inclusive, de qualquer combinação linear das variáveis regressoras. Verificou-se que os resíduos apresentaram forte tendência. Notou-se que para valores pequenos do preditor linear teve-se valores pequenos para os resíduos e, com o aumento dos valores do preditor linear os valores dos resíduos também aumentaram. Pode-se então concluir, que uma ou mais das suposições do modelo não foram atendidas e, em consequência, o modelo não estava bem ajustado. Após alguns testes concluiu-se que os Resíduos Padronizados não eram normalmente distribuídos. Identificou-se uma tendência nos resíduos, com exceção da observação 138, notou-se que com o aumento dos valores preditos, a magnitude do resíduo também aumentava. Assim, entendeu-se que os dados eram sobredispersos, visto que com o aumento do preditor linear a variabilidade dos resíduos aumentavam, e que o modelo de Poisson não estava conseguindo captar essa sobredispersão. Para verificar a Função de Ligação quanto a sua adequabilidade, criou-se uma variável “eta2” e a utilizou como uma covariável no modelo idealizado. Desta forma a nova variável foi considerada significativa e assim as ocorrências indicaram que a função de ligação ficou adequada. Mantendo-se a função de ligação, pôde-se iniciar a análise dos pontos influentes como os Leverages, distâncias de Cook e medidas DFBetas. O gráfico “Quadrado dos Resíduos vs. Leverage” mostra que a observação 89 apresentou ambas as quantidades altas. A observação 138 embora tinha um alto valor para o Resíduo ao Quadrado, teve um valor baixo para o Leverage. Analisando-se as distâncias de Cook, pode-se observar no gráfico “Observação vs. Distância de Cook”, que os pontos 89 e 138 se destacaram muito dos demais. Um critério bastante específico para identificar pontos de influência é a medida DFBeta, que em resumo, apresentaram as observações que alteraram significativamente as estimativas dos parâmetros: Intercepto: 89, 138, 179 e 200; CAMPER: 89, 100 e 138; PERSONS: Nenhuma observação foi significativa; CHILD: 89 e 138.

Considerações Finais

Considerando todos os resultados já observados, muitas coisas poderiam ser modeladas de formas diferente, e entre elas estão: Visto que a normalidade dos resíduos não foi verificada, se a função de variância não for suficiente para resolver isso, um outro modelo deve ser proposto, como por exemplo, a Binomial Negativa; Como a grande variância dos dados está, provavelmente, associada a grande quantidade de zeros observados poder-se-ia pensar na distribuição de Poisson Inflacionada de Zeros.