Dúvidas Módulo 2 - Turma 2020

por Carolina Lorieri Ter Abr 21, 2020 5:52 pm

Aqui vai uma primeira dúvida na interpretação estatística da Aula 2.3 - do que é média, variável e desvio padrão, quanto utiliza o banco de dados InsectSprays:

O fato é que OK eu sei que Spray C foi que obteve a menor média da coleta de insetos, porém com o desvio padrão elevado, olhando para os dados verificamos que foi apenas um ponto de maior coleta (7 insetos, enquanto os demais pontos obtiveram números super baixos), então na interpretação final dos resultados o que eu devo considerar?
1- Que o C apesar de ter um desvio grande é um bom produto por ter apenas um ponto de coleta mais elevado?
2- Ou que o E apesar de ter uma média um pouco maior que o C possui um menor coeficiente de variação, então esse sim é um melhor produto?

Eu sei que temos poucas informações e que algumas variáveis ambientais devem ser consideradas para chegar em uma conclusão mais precisa se um produto é melhor que o outro, mas com as informações que temos na mão, até onde pode chegar para afirmar certos dizeres?

Obrigada pessoal.....

por Prof. Marcos Sex Abr 24, 2020 8:26 am

Oi, Carolina!

Esta é uma dúvida bem relevante! Numericamente falando, se pensarmos apenas na média, não teríamos dúvida de que C é mais eficiente. Mas de fato a variação dele nos deixa com a pulga atrás da orelha...

Mas no fim, a resposta final vai depender do contexto de análise! O mais provável é que qualquer abordagem indique que a quantidade de evidências que temos permite afirmar com certeza que C e E são os mais eficientes - ao mesmo tempo que devem indicar que entre os dois não podem ser diferenciados.

O que acontece é que as diferenças entre C e E são tão pequenas, que poderiam ser apenas reflexo da amostragem em si - ou seja, terem sido encontradas por acaso. Isto fará sentido quando começarmos a trabalhar com os testes estatísticos e sua lógica, ok?

No fim, então, uma tomada de decisão aqui provavelmente seria apenas na indicação dos produtos C e E - e em um contexto mais amplo, possivelmente outros fatores ajudariam na decisão final (custos de produção, riscos envolvidos, impactos, etc.).

por Carolina Lorieri Sáb Abr 25, 2020 6:12 am

Obrigada pelos esclarecimento professor.

De fato quanto mais avançarmos essas minúcias ficarão mais claras.

Estou construindo junto ao curso outra estrutura de pensamento lógico, esse apoio que fornecem pelo fórum é crucial.

Até a próxima dúvida Smile

por Carolina Lorieri Dom Abr 26, 2020 5:51 pm

Genteeee

Divido aqui com vocês a tarefa do modulo 2 executada, juntamente com as minhas interpretações. Se alguém fez algo diferente, ou descreveu outro tipo de análise dos valores, histograma e boxplot, compartilhem também .. Assim conseguimos aprender e evoluir juntos...

######################
# Lição de casa módulo 2 #
# utilizando conj. de dados exem #
######################

#Importar dados4.txt
setwd("/Users/carol/Documents/MESTRADO/Estatistica/CURSO ESTATISTICA DA CONSERVAC??A??O/MO??DULO 2")
dir()
dados<-read.table("dados4.txt", h=T)
summary(dados)
View(dados)

#Tarefa 1: calcular média, desvio e quartis
##Riqueza
mean(dados$Riqueza)
sd(dados$Riqueza)
median(dados$Riqueza)
quantile(dados$Riqueza)
##Área
tapply(dados$Riqueza, dados$Area, mean)
tapply(dados$Riqueza, dados$Area, sd)
tapply(dados$Riqueza, dados$Area, median)
tapply(dados$Riqueza, dados$Area, quantile)

###minha interpretação da Riqueza:
#o desvio padrõa (4) na mediá 13.84, me ascendeu uma lampada amarela, não é mt mas é considerável.
#são resultados bem próximos da media e mediana (13.84 e 14). Indicio positivo de simetria entre os dados de riqueza coletados.
#o intervalo dos quartis parecém próximos tb, a diferença do 2' e 4' para a média = 6 11 14 17 20 , indicando também boa simetria entre os dados
#Desta forma me parece que conseguimos trabalhar com a média, em futuras projeções e análises.

###minha interpretação das Áreas:
#o média e a mediana que ficaram mais próximas foram da categoria "Desprotegido", sugerindo uma possível simetria nos dados. Quanto analisamos os quartis, a diferença do 2' e 4' 1,5 e 2 respectivamente, continuando sugerindo uma boa simetria nos dados.
#diferente quando analisamos a área de "Uso sustentável", onde a média é 14.93 e a mediana é 16 (maior diferença entre os valores). Além disso o desvio é 4.06 enquanto do desprotegido é 3.2, mais alto também. Olhando para os quatis a diferença de mediana para 2' é de 3.5 enquanto para o 4' é de 4.5, mostrando uma certa disparidade nas variáveis.
#em relação a área "Integral" a média e mediana correspondem a 13.4 e 14 , bemmm próximas entre si, porém quando olhamos para o desvio = 4.59 é o maior de todas. Indicando uma possível assimetria. Mas aiiii, analisando os quartis tudo fica mais claro, a diferença entre o 2' e a media são 4 e para o 4' são 3.5, mas distantes entre si.

#Tarefa 2 criando histograma para riqueza e depois para área:

##2.1: Riqueza
hist(dados$Riqueza, col = "gray", main = " ", las=1, xlab="Riqueza", ylab = "Frquencia")
box()

##2.2: Área - lembrando que é uma variável categoria, então precisamos trabalhar com as informações dela em cima da variável riqueza
hist(dados$Riqueza[dados$Area=="Desprotegido"], col="blue", main=" ", las=1, xlab="Desprotegido", ylab = "Frequencia")
box()
hist(dados$Riqueza[dados$Area=="Integral"], col="pink", main=" ", las=1, xlab="Integral", ylab = "Frequencia")
box()
hist(dados$Riqueza[dados$Area=="Sustentavel"], col="green", main=" ", las=1, xlab="Sustentável", ylab = "Frequancia")
box()

#A análise dos histogramas evidenciam uma distribuição assimétrica a depender da área
#Na área Integral tem-se maior riqueza do que todas as áreas, e a que apresenta menor riqueza é a área desprotegida. Todas as áreas apresentam riqueza média com valores próximos.

#Tarefa 3 - criar boxplot para

## 3.1 Mostra riqueza por tipo de área:
boxplot(dados$Riqueza[dados$Area=="Desprotegido"], col="blue", xlab = "Desprotegido", ylab = "Frequencia", las=1, range=0, ylim=c(5,20))
boxplot(dados$Riqueza[dados$Area=="Sustentavel"], col="pink", xlab= "Sustentavel", ylab = "Frequencia", las=1, range=0, ylim=c(5,20))
boxplot(dados$Riqueza[dados$Area=="Integral"], col="green", xlab="Integral", ylab="Frequencia", las=1, range=0, ylim=c(5,20))

## 3.2 Repetir com as medias:
###primeiro criando um objeto para para as médias e desvios
medias<-tapply(dados$Riqueza, dados$Area, mean)
desvio<-tapply(dados$Riqueza, dados$Area, sd)
##agora fazendo o boxplot das medias
boxplot(dados$Riqueza ~ dados$Area, xlab="Areas", ylab="Riqueza", las=1, range=0,ylim=c(5,20))
points(medias, pch=16, col= "red", cex=2)
arrows(1:3, medias-desvio, 1:3, medias+desvio, angle = 90, code = 3 )

por Lucas Penna Dom Abr 26, 2020 8:31 pm

Oi pessoal, também compartilho aqui o meu script da atividade final do módulo 2.

Segue:

########################################################################
#
#Atividade final do módulo 2
#Lucas Penna Soares Santos
#
########################################################################

########################################################################
#Importar e conferir os dados
########################################################################

#Carregando os dados
setwd("C:/Paths/R/R_Bocaina")
getwd()
dir()

#Importando os dados
dados<-read.table("dados4.txt", h=T, sep="\t", dec=".")
dados
View(dados)
summary(dados)
#Conferido e tudo ok

########################################################################
#Explorando os dados
########################################################################

#Calculando média, desvio e quartis (incluindo mediana), respectivamente
medias<-tapply(dados$Riqueza, dados$Area, mean)
desvios<-tapply(dados$Riqueza, dados$Area, sd)

cortes<-c(0, 0.1, 0.25, 0.5, 0.75, 0.9, 1) #comando feito para aplicar na frase abaixo
quartis<-tapply(dados$Riqueza, dados$Area, quantile, probs=cortes) #adicionado o argumento "probs=corte" para especificar mais percentis

#Conferindo
medias
desvios
quartis
#Ok

########################################################################
#Criando os histogramas para a variável "Riqueza"
########################################################################

##
#Histograma geral de riqueza por todos os tipos de áreas
hist(dados$Riqueza, col="gray", main="Áreas (todas as categorias)", las=1, xlab="Riqueza de espécies", ylab="Frequência", ylim=c(0,11))
mediageral<-mean(dados$Riqueza) #mediageral = valor médio total para todas as amostras em conjunto
abline(v=mediageral, col="red", lty=2)
text(x=mediageral, y=10, labels="13.8", pos=4, col="red")
box()

#Aplicando os comandos abaixo para exibir os valores das médias em cada histograma
mediadesp<-mean(dados$Riqueza[dados$Area=="Desprotegido"]) #mediadesp = valor médio para a riqueza de espécies em areas 'Desprotegido'
mediasust<-mean(dados$Riqueza[dados$Area=="Sustentavel"]) #mediasust = valor médio para a riqueza de espécies em areas 'Sustentavel'
mediainte<-mean(dados$Riqueza[dados$Area=="Integral"]) #mediainte = valor médio para a riqueza de espécies em areas 'Integral'

#Conferindo
mediadesp
mediasust
mediainte
#Ok
##

##
#Histogramas para cada tipo de área

#Área desprotegida
hist(dados$Riqueza[dados$Area=="Desprotegido"], col="gray", main="Áreas desprotegidas", las=1, xlab="Riqueza de espécies", ylab="Frequência", ylim=c(0,5))
abline(v=mediadesp, col="red", lty=2)
text(x=mediadesp, y=5, labels=mediadesp, pos=4, col="red")
box()

#Área de Uso Sustentável
hist(dados$Riqueza[dados$Area=="Sustentavel"], col="gray", main="Áreas de Uso Sustentável", las=1, xlab="Riqueza de espécies", ylab="Frequência", ylim=c(0,5))
abline(v=mediasust, col="red", lty=2)
text(x=mediasust, y=5, labels="14.9", pos=4, col="red")
box()

#Área de Proteção Integral
hist(dados$Riqueza[dados$Area=="Integral"], col="gray", main="Áreas de Proteção Integral", las=1, xlab="Riqueza de espécies", ylab="Frequência", ylim=c(0,5))
abline(v=mediainte, col="red", lty=2)
text(x=mediainte, y=5, labels=mediainte, pos=4, col="red")
box()

##

########################################################################
#Criando o boxplot para mostrar a riqueza de espécies por área
########################################################################

#Conferindo a ordem dos dados para ordenar as categorias no boxplot da área menos protegida para a mais protegida
levels(dados$Area)
#Comando para alterar a ordem das categorias, de acordo com a referência acima, para aplicar esta ordem no boxplot
dados$Area<-ordered(dados$Area, levels=c("Desprotegido","Sustentavel","Integral"))

boxplot(dados$Riqueza ~ dados$Area, xlab="Categoria das áreas", ylab="Riqueza de espécies", las=1, range=0, ylim=c(0,25))
points(medias, pch=16, col="red", cex=2) #aplicando o comando para exibir os valores das médias em comparação aos traços que representam os valores das medianas no boxplot

########################################################################
#Criando gráfico para exibir os valores das médias e dos desvios padrões
########################################################################

x<-1:nlevels(dados$Area)

plot(x, medias, ylim=range(c(0,22)), pch=16, xlab="Categorias das áreas", ylab="Riqueza de espécies", axes=F)

axis(2, las=1)
axis(1, x, levels(dados$Area))
box()

arrows(x, medias-desvios, x, medias+desvios, angle=90, code=3, length=0.05)

#Observação: com base no script criado pelo Prof. Marcos (disponível on-line no blog Cantinho do R), todos os comandos para produzir o gráfico de média/desvio padrão foram utilizados, porém o recurso sugerido para utilizar a função "source()", não foi replicado aqui, para explicitar o passo a passo da produção deste gráfico

########################################################################
#Interpretando
########################################################################

#Neste caso de estudo, em referência à atividade final do módulo 2, os dados de tendência central (média e desvio padrão) e de posição (mediana, quartis e percentis) não apresentam diferenças tão grandes e relevantes, podendo ser aceita a interpretação dos resultados, por padronização, pela média e desvio padrão. Seria interessante aplicar um teste estatístico para verificar se existe diferença significativa na riqueza de espécies entre as categorias das áreas estudadas, o que pode ser realizado nos próximos módulos/estudos.

#Contudo, podemos verificar pelos dados e gráficos que a riqueza de espécies não apresenta uma grande variação entre as três categorias de estudo.

#A expectativa das áreas naturais protegidas é que elas resguardem mais espécies dentro de seus limites territoriais. Assim, espera-se que as áreas desprotegidas, consequentemente, com uma possível incidência mais elevada de atividades humanas, apresentem menor riqueza de espécies, em comparação às outras categorias protegidas.

#Entre as categorias de áreas protegidas, aquelas classificadas como áreas de uso sustentável apresentam, ainda que de forma controlada, uma incidência maior de atividades humanas, se for comparada às áreas de proteção integral. Assim, é possível que estas apresentem uma alta riqueza de espécies, em função da ocorrência em menor escala de perturbações humanas.

#Para este caso, seria interessante checar as metodologia de inventariamento de espécies e os locais de aplicação das amostragens. Mesmo em áreas desprotegidas, podem haver ambientes naturais mais conservados e, de forma contrária, nas areas reservadas para a conservação da natureza podem existir localidades impactadas negativamente. Ainda, os locais da aplicação deste trabalho podem ter limites geográficos muito próximos, se comparados, por exemplo por suas áreas-núcleo, o que pode ter afetado também o resultado deste estudo em questão de número de riqueza de espécies.

####
#Fim
####

por Fabíola Turiel Ter Abr 28, 2020 2:36 am

##########################
#Prática Módulo 2 #
#Fabíola Turiel C. Silva #
##########################

#Importando e conferindo os dados
setwd("C:/R/Curso R/Módulo 2/Módulo 2 - Introdução à Bioestatística no R")
dir()

#Lendo o arquivo e atribuindo a um objeto
dados4<-read.table("dados4.txt", header=T)

#Conferindo se o objeto foi criado corretamente e sumário de dados
summary(dados4)

#Calcule a média, desvio e mediana com quartis da variável “Riqueza”
mean(dados4$Riqueza)
sd(dados4$Riqueza)
median(dados4$Riqueza)
quantile(dados4$Riqueza)

#Crie um histograma desta mesma variável
mediarich<-mean(dados4$Riqueza)
hist(dados4$Riqueza, col="gray", las= 1, main= "Riqueza de espécies", xlab="Riqueza", ylab="Frequência" )
box()
abline(v=mediarich, col="red", lty=2)
text(x=mediarich, labels="13,8", y=8, pos=4, col="red")

#Histograma por tipo de área
mediarich1<-mean(dados4$Riqueza[dados4$Area=="Desprotegido"])
hist(dados4$Riqueza[dados4$Area=="Desprotegido"], col="dark blue", las= 1, main= "Riqueza de espécies em área desprotegida", xlab="Riqueza", ylab="Frequência" )
box()
abline(v=mediarich1, col="red", lty=2)
text(x=mediarich1, labels="13,2", y=3.5, pos=4, col="red")

mediarich2<-mean(dados4$Riqueza[dados4$Area=="Integral"])
hist(dados4$Riqueza[dados4$Area=="Integral"], col="dark green", las= 1, main= "Riqueza de espécies em área integral", xlab="Riqueza", ylab="Frequência" )
box()
abline(v=mediarich2, col="red", lty=2)
text(x=mediarich2, labels="13,4", y=3.5, pos=4, col="red")

mediarich3<-mean(dados4$Riqueza[dados4$Area=="Sustentavel"])
hist(dados4$Riqueza[dados4$Area=="Sustentavel"], col="orange", las= 1, main= "Riqueza de espécies em área sustentável", xlab="Riqueza", ylab="Frequência" )
box()
abline(v=mediarich3, col="red", lty=2)
text(x=mediarich3, labels="14,9", y=3.5, pos=4, col="red")

#Crie um boxplot que mostre a riqueza por tipo de área
boxplot(dados4$Riqueza ~ dados4$Area, xlab="Tipos de área", ylab="Riqueza", las=1, range=0)

#Repita a operação com um gráfico de média
medias<-tapply(dados4$Riqueza, dados4$Area, mean)
desvios<-tapply(dados4$Riqueza, dados4$Area, sd)
x<-1:nlevels(dados4$Area)

plot(x, medias, pch=16, ylim=range(c(medias-desvios, medias+desvios)),ylab="Médias", xlab="Tipo de área", main= "Variação de riqueza por tipo de área", axes=F)
axis(2, las=1)
axis(1, x, levels(dados4$Area))
box()
arrows(1:3, medias-desvios, 1:3, medias+desvios, angle=90, code=3, pch=2, length=0.1)

#Fazendo com uma função pronta:
setwd("C:/R/Curso R/Módulo 2/Módulo 2 - Introdução à Bioestatística no R/Módulo 2 - Introdução à Bioestatística no R - Scripts e dados")
dir()
source("plotmedias.R")
plotmédias(dados4$Area, dados4$Riqueza, "Tipo de área", "Riqueza")

#Interpretando
#Os diferentes gráficos indicam que há maior simetria de dados em áreas desprotegidas em relação às áreas integrais e sustentáveis. Nestas últimas, entretanto, há maior riqueza média. As áreas integrais apresentaram o valor da média de riqueza mais frequentemente do que as áreas sustentáveis, que apresentaram o valor médio poucas vezes. Porém, as áreas integrais apresentaram os quartis mais extremos com maior frequência relativa em comparação a outros quartis intermediários, e por isso as áreas integrais apresentaram maior dispersão de dados. Os dados das áreas sustentáveis também são bem dispersos, mas apresentam altas frequências em quartis intermediários, diminuindo o seu desvio padrão em relação às áreas integrais. Estes dados, portanto, indicam grande variabilidade de coleta de dados em diferentes unidades amostrais, principalmente de áreas integrais e de manejo sustentável.

por Alan_blefor Seg maio 04, 2020 9:52 pm

Olá a todos, deixo aqui meu script da atividade do módulo II.

###################################
#Atividade do módulo II #
#Alan Lacerda #
#R para Bio da conservação #
###################################

# Importando os dados

dados<-read.table("dados4.txt", header = T)
dados

#Conferindo os dados
summary(dados)

#Calculando a média geral da variável riqueza

mean(dados$Riqueza)
var(dados$Riqueza)

#Calculando o desvio geral da variável riqueza

sd(dados$Riqueza)

# Olhando a média e o desvio padrão por tipo de Área

tapply(dados$Riqueza, dados$Area, mean)
tapply(dados$Riqueza, dados$Area, sd)

# Olhando os dados por categoria

dados$Riqueza[dados$Area=="Integral"]

dados$Riqueza[dados$Area=="Desprotegido"]

dados$Riqueza[dados$Area=="Sustentavel"]

# Calculando a mediana geral e o quantile

median(dados$Riqueza)

quantile(dados$Riqueza)

# calculando o percentis:

quantile(dados$Riqueza, probs=c(0,0.1,0.25,0.5,0.75,1))

#Construíndo o histograma da riqueza

hist(dados$Riqueza, col="gray", main = "Frequência do número de riqueza", ylab = "Frequência", xlab = "Número de riqueza", las = 1)

#Histograma para cada área

hist(dados$Riqueza[dados$Area=="Integral"], col="gray",main = "Frequência do número de riqueza", ylab = "Frequência", xlab = "Número de riqueza da Área integral", las = 1)

hist(dados$Riqueza[dados$Area=="Sustentavel"], col="gray",main = "Frequência do número de riqueza", ylab = "Frequência", xlab = "Número de riqueza da Área Sustentável", las = 1)

hist(dados$Riqueza[dados$Area=="Desprotegido"], col="gray",main = "Frequência do número de riqueza", ylab = "Frequência", xlab = "Número de riqueza da Área Desprotegida", las = 1)

# Fazendo Boxplot da riqueza em função da área

boxplot(dados$Riqueza ~ dados$Area, main = "Representação do número de espécie por área estudada", ylab = "Número de espécies", xlab= "Áreas estudadas", las=1)

# Gráfico de média
medias<-tapply(dados$Riqueza, dados$Area, mean)
desvios<-tapply(dados$Riqueza, dados$Area, sd)
medias
desvios

plot(1:3, medias,pch=16, ylim=range(c(medias-desvios, medias+desvios)))

arrows(1:3, medias-desvios, 1:3, medias+desvios, angle=90, code=3)

#Usando a função média

source("plotmedias.R")
plotmédias(dados$Area, dados$Riqueza, "Áreas estudadas", "Número de espécies por área")

#Interpretação dos dados

A média geral a riqueza foi 13.84, e o desvio padrão 3.9. Nesse contexto geral, o desvio padrão está bem abaixo da média, indicando que os dados não variam muito, sugerindo que os dados sejam simétricos. Além disso, quando olhamos as médias das áreas separadamente e seus respectivos desvios, observamos que os dados não parecem diferir muito. Porém, quando olhamos esses dados separadamente, no histograma, percebemos que a área integral e sustentável, demonstram ser assimétricos. Diferente de quando olhamos para os dados da área desprotegida, onde os dados são mais simétricos. Por fim, quando fazemos o boxplot dos dados, percebemos que os ambientes Integral e sustentável tendem a ter uma maior variação dos dados quando comparamos com a área desprotegida e em média, as duas primeiras, possuem maior riqueza. Porém a meu ver, os dados podem ser inconclusivos, talvez devêssemos aumentar o esforço amostral.

por Conteúdo patrocinado

Dúvidas Módulo 2 - Turma 2020

Dúvidas Módulo 2 - Turma 2020

Re: Dúvidas Módulo 2 - Turma 2020

Re: Dúvidas Módulo 2 - Turma 2020

Tarefa módulo 2

Re: Dúvidas Módulo 2 - Turma 2020

Prática - módulo 2

Re: Dúvidas Módulo 2 - Turma 2020

Re: Dúvidas Módulo 2 - Turma 2020