Programa R para Biologia da Conservação
Gostaria de reagir a esta mensagem? Crie uma conta em poucos cliques ou inicie sessão para continuar.

Método de escolha e avaliação de modelos

2 participantes

Ir para baixo

Método de escolha e avaliação de modelos Empty Método de escolha e avaliação de modelos

Mensagem por Marcello Guerreiro Sáb Dez 02, 2017 12:10 am

Prezado Marcos,

Em uma situação que existam várias variáveis independentes, que sejam possíveis candidatas a serem incorporadas em um modelo preditivo, como a regressão múltipla ou uma regressão logística, ou até mesmo um modelo GLM, como podemos comparar os diferentes modelos possíveis, e a relevância das variáveis independentes? Poderia explicar o uso do método AIC e da Curva ROC? além do método de seleção de variáveis baseado no Bootstrap!
Marcello Guerreiro
Marcello Guerreiro

Mensagens : 27
Data de inscrição : 08/10/2017
Idade : 46
Localização : Rio de Janeiro

Ir para o topo Ir para baixo

Método de escolha e avaliação de modelos Empty Re: Método de escolha e avaliação de modelos

Mensagem por Prof. Marcos Ter Dez 05, 2017 7:40 pm

Oi, Guerreiro!

Vamos por partes, porque o assunto é importante e tem um bocado de coisa pra pensar, então o tópico deve ficar longo rapidinho. Wink

Pra começar, acho bacana pensar em duas etapas anteriores: o delineamento e uma avaliação das variáveis em um momento "pré-análise".

Do delineamento é um papo que vocês já conhecem, mas que não custa reforçar. É sempre bom planejar bem a coleta de dados do ponto de vista prático e pensar nas variáveis explicativas do ponto de vista teórico, evitando ir por um caminho de coletar um monte de variáveis e sair testando tudo. Um bom planejamento e um bom referencial teórico, com hipóteses bem montadas, pode já começar a "enxugar" o uso de variáveis em um modelo.

Mas beleza, mesmo depois disso podemos ter um monte de variáveis na mão, então vem uma etapa ainda anterior à construção dos modelos e análise em si: a exploração e busca por correlações. Especialmente quando pensamos em regressão múltipla, mas na verdade em qualquer modelo com múltiplas variáveis explicativas quantitativas, é fundamental conferirmos se existem correlações entre elas, para evitar a cilada da colinearidade. Variáveis redundantes afetam o modelo, diminuindo o poder do teste, mascarando efeitos e confundindo a nossa cabeça.

Neste momento pré-análise, observar correlações (a função pair() é sempre uma boa saída) é fundamental. Uma PCA pode servir também, além de servir como potencial solução (usando os componentes como variáveis, quando isso é uma saída coerente com o que estamos fazendo).
O fundamental aqui é selecionar as variáveis com cuidado antes de colocá-las no modelo, para evitar problemas práticos de análise.

Beleza, isso foi meio que uma pré-resposta, pois na verdade não respondi ainda o que você perguntou. Mas acho legal estabelecermos este contexto, antes de partirmos para as soluções práticas - mas aí já faremos isso pensando que nós estamos com modelos com muitas variáveis nos quais os problemas acima não existem. Wink

Depois volto aqui no tópico e continuamos, ok?
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Método de escolha e avaliação de modelos Empty Re: Método de escolha e avaliação de modelos

Mensagem por Marcello Guerreiro Sex Dez 08, 2017 9:21 pm

Ótimo Marcos, sempre nos lembrando que o pesquisador e suas idéias e percepções são tão importantes quanto os métodos! Existe além dos métodos descritos para verificar a correlação, métodos e indicadores para verificar a colinearidade? Aguardo a resposta da pergunta e seus desdobramentos! Obrigado por tornar cada pergunta numa aula Bônus!
Marcello Guerreiro
Marcello Guerreiro

Mensagens : 27
Data de inscrição : 08/10/2017
Idade : 46
Localização : Rio de Janeiro

Ir para o topo Ir para baixo

Método de escolha e avaliação de modelos Empty Re: Método de escolha e avaliação de modelos

Mensagem por Prof. Marcos Qua Dez 13, 2017 6:20 pm

Oi, Guerreiro!

Então, a colinearidade pode até ser deteactada depois (não me lembro de cabeça, mas há uma métrica que às vezes é usada em uma regressão múltipla para detectar). Mas na prática dá no mesmo do que medir correlações antes da análise - e em termos práticos, prefiro a abordagem "pró-ativa" de medir antes, pois de outra forma temos que voltar atrás e fazer a análise de novo...

Tá, antes de postar fui buscar, e me lembrei. A medida é chamada de vif: variance inflation factors. Há uma função chamada vif mesmo, do pacote car. Tem um exemplo dela aqui:
https://www.statmethods.net/stats/rdiagnostics.html (procure a parte sobre Multi-collinearity).

Como eu disse, acho mais prático medir as correlações antes, mas no fundo é apenas uma preferência, o que importa é detectarmos se o problema existe e resolvê-lo. Wink

---

E ainda não esqueci do tema principal do tópico, logo logo volto aqui.
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Método de escolha e avaliação de modelos Empty Re: Método de escolha e avaliação de modelos

Mensagem por Prof. Marcos Qua Dez 13, 2017 6:41 pm

Bom, mas bora voltar para a sua pergunta inicial, pois acabei tangenciando o assunto.

Uma das abordagens comuns ao se trabalhar com diversos modelos possíveis (por exemplo, em uma regressão múltipla ou GLM onde você possa incluir diversas variáveis preditivas diferentes) é a comparação que você mencionou, usando o AIC (Akaike information criterion). De uma maneira bem simplificada, o AIC é um método de parcimônia: você "pergunta" qual o modelo dá a melhor explicação possível para os dados, mantendo a maios simplicidade possível.

Ou seja, um modelo super complexo com um monte de variáveis, mas das quais várias sejam pouco explicativas, não se sairia muito bem. Do outro extremo, um modelo super simples mas que não tenha variáveis que são importantes naquele contexto, também não.

Então normalmente fazemos uma comparação entre modelos "concorrentes", usando o valor de AIC como um peso para saber quais modelos seriam os melhores.

Na prática, usando o R, o método mais comum é a função stepAIC, do pacote MASS, esta aqui: https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Ela é simples de ser implementada e interpretada.

O assunto daria bem mais pano para manga, e qualquer coisa continuamos a conversar por aqui, beleza?
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Método de escolha e avaliação de modelos Empty Re: Método de escolha e avaliação de modelos

Mensagem por Conteúdo patrocinado


Conteúdo patrocinado


Ir para o topo Ir para baixo

Ir para o topo

- Tópicos semelhantes

 
Permissões neste sub-fórum
Não podes responder a tópicos