Escolhendo a Distribuição GLM

por Aníbal Cantalice Sex Abr 17, 2020 2:57 pm

Olá, Bom dia ou Noite ...

Primeiro peço desculpas caso alguém já apresentou essa dúvida e a colocou aqui não consegui achar.

De antemão vou tentar contextualizar a situação para deixar mais clara a dúvida. Eu trabalho com Etnobiologia e a base de nossos dados e através de questionários ou entrevistas... Normalmente consideramos cada indivíduo como "uma parcela" e o conhecimento de determinado grupo (i.e plantas ou animais) como a riqueza daquele indivíduo ou "parcela".. Em suma ficaria assim:

Entrevistado 1 >> conhece 15 plantas utilizadas para combustível (vamos partir do principio que cada planta seja um espécie especifica sem repetições) >> logo 15 espécies "Riqueza"

Entrevistado 1 >> 15 espécies
Entrevistado 2 >> 20 espécies
Entrevistado 3 >> 18 espécies
E isso várias vezes...

A minha H1 é que quanto maior a idade da pessoa maior o número de espécies conhecidas
A minha H2 é que a época do ano que ele vai coletar as plantas tb interferiria no número de espécies conhecidas.

modelo>-glm(Riqueza+Idade+época_do_ano, family = poisson)

Agora vai minha dúvida ...

Acreditando que o que estou fazendo e uma contagem "Riqueza" a opção mais clara seria escolher a distribuição de Poisson para um GLM, contudo a riqueza (histograma) apresentou uma distribuição normal é o teste de Shapiro-Wilk deu que a riqueza era normal. O que seria diferente do esperado de acordo com os gráficos da aula de GLM Poisson. A questão é mesmo a distribuição sendo normal eu usaria Poisson por ser contagem ou eu Teria que passar para Gaussian.

Espero ter explicado bem a minha dúvidas e peço desculpas novamente pq a questão acabou ficando grande demais.

Fico no Aguardo..
Desde já Obrigado

por Prof. Marcos Seg Abr 20, 2020 3:42 pm

Oi, Aníbal!

Bom, vamos por partes aqui.

Eu acho muito boa a sua abordagem de pensar nos dados e já pressupor uma distribuição (no caso, Poisson realmente faz sentido, por serem dados de contagem). Então uma alternativa é seguir para o uso de um GLM com a distribuição escolhida, e depois realizar o diagnóstico do modelo para entender se ele de fato se ajusta bem com o uso da distribuição. Se os erros parecerem de fato se "comportarem bem" com o uso da Poisson, você segue adiante e pronto. Não existiria, por este caminho, a necessidade de pensar em normalidade, pois você escolheu uma distribuição já com uma fundamentação, e mostrou que o modelo se ajusta bem.

Agora, se você conferiu os dados e eles parecem de fato ter uma distribuição parecida com a normal, pode sim repensar a análise. Eu tenho algumas ressalvas com os testes de normalidade como o Shapiro-Wilk (falarei sobre isso quando falarmos mais sobre os testes estatísticos), mas entendo que eles geram sim uma evidência interessante. Se além dos testes a análise dos resíduos dos modelos indicarem que normalidade faz sentido, então você pode sim seguir este caminho. O que acontece algumas vezes é que dados de contagem, especialmente em amostras relativamente grandes, podem sim gerar uma distribuição coerente com a normal, e neste caso testes paramétricos podem ser usados sem problemas se os pressupostos forem atendidos.

Qualquer coisa vamos conversando mais sobre isso, ok?

por Aníbal Cantalice Seg Abr 20, 2020 4:03 pm

Entendo, Muito obrigado!

Eu fiz o diagnóstico do modelo e ele me pareceu adequado.

Então se eu entendi bem posso optar também por uma regressão linear múltipla caso todos os pressupostos forem atendidos. "Vou dar uma lida sobre é qualquer dúvida volto aqui"

Irei guardar algumas dúvidas para o webinário, mais tarde.

por Prof. Marcos Ter Abr 21, 2020 3:41 pm

Sim, se os pressupostos "baterem" você pode sim partir para uma regressão múltipla sem problemas. No fim, o importante é ter segurança de que os pressupostos foram atendidos, e partir para a interpretação dos resultados - que no final é o mais importante.

por Valeria Andrade Ter maio 12, 2020 11:53 am

por Bia N. Sex maio 29, 2020 8:21 pm

Olá, boa noite!

Eu tive uma questão parecida com a do Aníbal. Eram dados de contagem, mas que apresentavam uma distribuição normal, segundo o histograma. Como eu estava apenas explorando os dados, fui até o final com os dois modelos. No gráfico, achei que a reta da equação representou melhor os pontos de acordo com a distribuição normal do que de acordo com a distribuição de Poisson. Seria errado eu escolher com base nisso?

Uma outra dúvida que surgiu enquanto eu estava fazendo o GLM foi ao contrastar o modelo nulo com o modelo testado, com o comando: "anova(m1sp, m0sp, test = "F") ". Nos resultados da ANOVA, "Deviance" apresentou valores negativos. Isso quer dizer que tem alguma coisa errada, né?

por Prof. Marcos Sex Jun 05, 2020 10:13 am

Bia, esta é uma questão um pouco delicada... Se formos ser bem rigorosos com o que os modelos propõe, seria sim errado usar a normal para tratar dados de contagem. Mas na prática, sabemos que isso funciona e é usado há muito tempo, especialmente em modelos estatísticos mais robustos, como anova ou regressão simples.
Pessoalmente, eu sou da opinião de que se os pressupostos não forem violados e, mais importante, os resultados fizerem sentido (em relação às teorias por trás e o conhecimento prático do tema e dos dados), então não há problema algum em seguir.

Sobre a segunda pergunta: se puder, cole aqui os resultados, pode ser? Acho que deve ficar mais fácil de entender o que pode ter acontecido.

por Bia N. Seg Jun 08, 2020 10:51 am

Oi professor.

Abaixo estão os resultados da ANOVA do modelo nulo com o modelo testado. Aqui, com distribuição de poisson. As variáveis presentes são temperatura do micro-habitat (Te), tipo de micro-hatitat (Micro), hora do dia (Hora) e número de indivíduos registrados (N_indiv). Sendo que micro-habitat é uma variável categórica, que se divide em 3 tipos (madeira, plástico e vegetação).

> ####
> ## 1-testar um modelo contra o outro
> anova(m1sp, m0sp, test = "Chisq")

Analysis of Deviance Table

Model 1: mGLM$N_indiv ~ mGLM$Te * mGLM$micro * mGLM$Hora
Model 2: mGLM$N_indiv ~ 1
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 18 8.464
2 29 38.200 -11 -29.735 0.001743 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

por Prof. Marcos Seg Jun 08, 2020 2:36 pm

Oi, Bia!

Acho que está tudo certinho com os seu modelo, e os número negativos provavelmente vem apenas do fato de você ter colocado o modelo 1 como o mais complexo e o 2 como o modelo nulo. Experimente inverter os dois no comando (ou seja, usar anova(m0sp, m1sp, test = "Chisq") ) E acho que ficará mais fácil de entender. Não deve alterar nenhum valor, apenas os sinais. Depois me diga se era isso mesmo, ok?

por Bia N. Seg Jun 08, 2020 4:10 pm

Opa! Era só isso?
Estava preocupada porque o poder do teste estava dando um valor negativo, aí achei que estivesse tudo errado.... Agora fez sentido! Apesar de baixo, pelo menos deu positivo.

Obrigada pelas explicações!

por Conteúdo patrocinado

Escolhendo a Distribuição GLM

Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM

Re: Escolhendo a Distribuição GLM