Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020
2 participantes
Página 1 de 1
Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020
Tópico criado para responder a dúvida.
Copiando e colado a mensagem original do Vicente:
Quando temos os outliers e o desvio padrão estão muito alto que pode ser devido os outliers, como podemos fazer para calcular o valor do novo valor para substituir o outliers para reduzir o desvio padrão e em alguns caso reduz até o coeficiente de variação.
Depois volto aqui e respondo, vou procurar um pouco para entender qual é o método mais simples de se fazer isso, ok?
Copiando e colado a mensagem original do Vicente:
Quando temos os outliers e o desvio padrão estão muito alto que pode ser devido os outliers, como podemos fazer para calcular o valor do novo valor para substituir o outliers para reduzir o desvio padrão e em alguns caso reduz até o coeficiente de variação.
Depois volto aqui e respondo, vou procurar um pouco para entender qual é o método mais simples de se fazer isso, ok?
Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020
Olá de novo! Voltei para finalmente colocar uma solução prática para a dúvida do Vicente sobre como identificar os outliers.
Aqui temos que considerar duas coisas:
- a definição de outlier pode variar, no exemplo a seguir eu usei a "clássica", que é usar o 1.5 vezes o intervalo interquartil (é a regra usada pelo R ao fazer boxplots);
- existem várias saídas diferentes, a que eu apresento aqui me pareceu uma das mais simples (mas o método usado necessariamente muda se você mudar a definição do que é outlier).
Segue o exemplo com dados do próprio R:
Qualquer coisa podemos seguir discutindo mais, ok?
Aqui temos que considerar duas coisas:
- a definição de outlier pode variar, no exemplo a seguir eu usei a "clássica", que é usar o 1.5 vezes o intervalo interquartil (é a regra usada pelo R ao fazer boxplots);
- existem várias saídas diferentes, a que eu apresento aqui me pareceu uma das mais simples (mas o método usado necessariamente muda se você mudar a definição do que é outlier).
Segue o exemplo com dados do próprio R:
- Código:
#Dados de exemplo:
data(iris)
#Boxplot para vermos os outliers:
boxplot(iris$Petal.Width ~iris$Species)
#Podemos usar a função boxplot.stats para armazenar o que vemos no gráfico, incluindo os outliers:
dados.boxplot<-boxplot.stats(iris$Petal.Width[iris$Species=="setosa"])
dados.boxplot
#Se quiser ver apenas os outliers, faça:
dados.boxplot$out
#Se quiser saber quem são as linhas com estes valores, faça:
which(iris$Petal.Width %in% dados.boxplot$out)
#Pronto, no exemplo acima são os dados das linhas 24 e 44
Qualquer coisa podemos seguir discutindo mais, ok?
Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020
Bom dia!
Se usarmos o a função fitted para ver os valores calculados poderíamos substituir o outliers? e com isso reduzir o desvio e o coeficiente de variação também diminuiria.
Se usarmos o a função fitted para ver os valores calculados poderíamos substituir o outliers? e com isso reduzir o desvio e o coeficiente de variação também diminuiria.
Vicente Neto- Mensagens : 3
Data de inscrição : 31/03/2020
Re: Identificando outliers no R - dúvida do Vicente no webnário de 20-04-2020
Oi, Vicente!
Depende muito (mas muito mesmo) do contexto, então não é possível dar uma única resposta, que vá ser válida para qualquer situação.
Com certeza substituir os outliers por valores ajustados (de uma regressão, por exemplo) é viável do ponto de vista técnico. Mas qual a consequência prática para a interpretação e chegada a conclusões?
Acho que o fundamental é dar um passo atrás e sempre iniciar se perguntando o que os outliers significam no contexto de cada conjunto de dados. Eles podem ser erros? Ou são apenas dados atípicos? Se são atípicos, por que existem? Ainda serão outliers se o esforço amostral for maior?
Não há uma fórmula única para lidar com isso, então é bom ser cautela. Voltando à sua pergunta, eu acho que uma boa resposta é a seguinte: sim, você pode substituir por valores ajustados se conseguir dar uma boa justificativa para isso.
Depende muito (mas muito mesmo) do contexto, então não é possível dar uma única resposta, que vá ser válida para qualquer situação.
Com certeza substituir os outliers por valores ajustados (de uma regressão, por exemplo) é viável do ponto de vista técnico. Mas qual a consequência prática para a interpretação e chegada a conclusões?
Acho que o fundamental é dar um passo atrás e sempre iniciar se perguntando o que os outliers significam no contexto de cada conjunto de dados. Eles podem ser erros? Ou são apenas dados atípicos? Se são atípicos, por que existem? Ainda serão outliers se o esforço amostral for maior?
Não há uma fórmula única para lidar com isso, então é bom ser cautela. Voltando à sua pergunta, eu acho que uma boa resposta é a seguinte: sim, você pode substituir por valores ajustados se conseguir dar uma boa justificativa para isso.
Tópicos semelhantes
» Setwd no Mac - dúvida do Pedro no webnário de 20-04-2020
» Combinando condições - dúvida da Isabela no webnário de 20-04-2020
» Dúvida da Angele, webnário 4 (R 4.1): diversidade por mês
» Dúvida sobre o attach() - webnário 2, turma 4
» Legenda fora do gráfico - dúvida do webnário
» Combinando condições - dúvida da Isabela no webnário de 20-04-2020
» Dúvida da Angele, webnário 4 (R 4.1): diversidade por mês
» Dúvida sobre o attach() - webnário 2, turma 4
» Legenda fora do gráfico - dúvida do webnário
Página 1 de 1
Permissões neste sub-fórum
Não podes responder a tópicos
|
|