Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

por Prof. Marcos Seg Abr 20, 2020 9:07 pm

Tópico criado para responder a dúvida.

Copiando e colado a mensagem original do Vicente:

Quando temos os outliers e o desvio padrão estão muito alto que pode ser devido os outliers, como podemos fazer para calcular o valor do novo valor para substituir o outliers para reduzir o desvio padrão e em alguns caso reduz até o coeficiente de variação.

Depois volto aqui e respondo, vou procurar um pouco para entender qual é o método mais simples de se fazer isso, ok?

por Prof. Marcos Seg maio 11, 2020 8:22 am

Olá de novo! Voltei para finalmente colocar uma solução prática para a dúvida do Vicente sobre como identificar os outliers.

Aqui temos que considerar duas coisas:
- a definição de outlier pode variar, no exemplo a seguir eu usei a "clássica", que é usar o 1.5 vezes o intervalo interquartil (é a regra usada pelo R ao fazer boxplots);
- existem várias saídas diferentes, a que eu apresento aqui me pareceu uma das mais simples (mas o método usado necessariamente muda se você mudar a definição do que é outlier).

Segue o exemplo com dados do próprio R:

Código:: #Dados de exemplo: data(iris) #Boxplot para vermos os outliers: boxplot(iris$Petal.Width ~iris$Species) #Podemos usar a função boxplot.stats para armazenar o que vemos no gráfico, incluindo os outliers: dados.boxplot<-boxplot.stats(iris$Petal.Width[iris$Species=="setosa"]) dados.boxplot #Se quiser ver apenas os outliers, faça: dados.boxplot$out #Se quiser saber quem são as linhas com estes valores, faça: which(iris$Petal.Width %in% dados.boxplot$out) #Pronto, no exemplo acima são os dados das linhas 24 e 44

Qualquer coisa podemos seguir discutindo mais, ok?

por Vicente Neto Seg maio 11, 2020 9:57 am

Bom dia!

Se usarmos o a função fitted para ver os valores calculados poderíamos substituir o outliers? e com isso reduzir o desvio e o coeficiente de variação também diminuiria.

por Prof. Marcos Seg maio 11, 2020 3:26 pm

Oi, Vicente!

Depende muito (mas muito mesmo) do contexto, então não é possível dar uma única resposta, que vá ser válida para qualquer situação.

Com certeza substituir os outliers por valores ajustados (de uma regressão, por exemplo) é viável do ponto de vista técnico. Mas qual a consequência prática para a interpretação e chegada a conclusões?

Acho que o fundamental é dar um passo atrás e sempre iniciar se perguntando o que os outliers significam no contexto de cada conjunto de dados. Eles podem ser erros? Ou são apenas dados atípicos? Se são atípicos, por que existem? Ainda serão outliers se o esforço amostral for maior?

Não há uma fórmula única para lidar com isso, então é bom ser cautela. Voltando à sua pergunta, eu acho que uma boa resposta é a seguinte: sim, você pode substituir por valores ajustados se conseguir dar uma boa justificativa para isso.

por Conteúdo patrocinado

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020

Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020