Programa R para Biologia da Conservação
Gostaria de reagir a esta mensagem? Crie uma conta em poucos cliques ou inicie sessão para continuar.

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

2 participantes

Ir para baixo

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020 Empty Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Mensagem por Prof. Marcos Seg Abr 20, 2020 9:07 pm

Tópico criado para responder a dúvida.

Copiando e colado a mensagem original do Vicente:

Quando temos os outliers e o desvio padrão estão muito alto que pode ser devido os outliers, como podemos fazer para calcular o valor do novo valor para substituir o outliers para reduzir o desvio padrão e em alguns caso reduz até o coeficiente de variação.

Depois volto aqui e respondo, vou procurar um pouco para entender qual é o método mais simples de se fazer isso, ok?
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020 Empty Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Mensagem por Prof. Marcos Seg maio 11, 2020 8:22 am

Olá de novo! Voltei para finalmente colocar uma solução prática para a dúvida do Vicente sobre como identificar os outliers.

Aqui temos que considerar duas coisas:
- a definição de outlier pode variar, no exemplo a seguir eu usei a "clássica", que é usar o 1.5 vezes o intervalo interquartil (é a regra usada pelo R ao fazer boxplots);
- existem várias saídas diferentes, a que eu apresento aqui me pareceu uma das mais simples (mas o método usado necessariamente muda se você mudar a definição do que é outlier).

Segue o exemplo com dados do próprio R:

Código:
#Dados de exemplo:
data(iris)

#Boxplot para vermos os outliers:
boxplot(iris$Petal.Width ~iris$Species)

#Podemos usar a função boxplot.stats para armazenar o que vemos no gráfico, incluindo os outliers:
dados.boxplot<-boxplot.stats(iris$Petal.Width[iris$Species=="setosa"])
dados.boxplot

#Se quiser ver apenas os outliers, faça:
dados.boxplot$out

#Se quiser saber quem são as linhas com estes valores, faça:
which(iris$Petal.Width %in% dados.boxplot$out)

#Pronto, no exemplo acima são os dados das linhas 24 e 44

Qualquer coisa podemos seguir discutindo mais, ok?
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020 Empty Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Mensagem por Vicente Neto Seg maio 11, 2020 9:57 am

Bom dia!

Se usarmos o a função fitted para ver os valores calculados poderíamos substituir o outliers? e com isso reduzir o desvio e o coeficiente de variação também diminuiria.

Vicente Neto

Mensagens : 3
Data de inscrição : 31/03/2020

Ir para o topo Ir para baixo

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020 Empty Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Mensagem por Prof. Marcos Seg maio 11, 2020 3:26 pm

Oi, Vicente!

Depende muito (mas muito mesmo) do contexto, então não é possível dar uma única resposta, que vá ser válida para qualquer situação.

Com certeza substituir os outliers por valores ajustados (de uma regressão, por exemplo) é viável do ponto de vista técnico. Mas qual a consequência prática para a interpretação e chegada a conclusões?

Acho que o fundamental é dar um passo atrás e sempre iniciar se perguntando o que os outliers significam no contexto de cada conjunto de dados. Eles podem ser erros? Ou são apenas dados atípicos? Se são atípicos, por que existem? Ainda serão outliers se o esforço amostral for maior?

Não há uma fórmula única para lidar com isso, então é bom ser cautela. Voltando à sua pergunta, eu acho que uma boa resposta é a seguinte: sim, você pode substituir por valores ajustados se conseguir dar uma boa justificativa para isso.
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020 Empty Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Mensagem por Conteúdo patrocinado


Conteúdo patrocinado


Ir para o topo Ir para baixo

Ir para o topo

- Tópicos semelhantes

 
Permissões neste sub-fórum
Não podes responder a tópicos