Calculadora de Valor-p

Calcule e interprete valores-p para testes de hipótese com soluções passo a passo geradas por IA

Arraste e solte ou clique para adicionar imagens ou PDF

Math Input
p-value for z = 2.1 two-tailed
p-value for t = 1.8 with 19 degrees of freedom, right-tailed
p-value for chi-square = 7.5 with 3 df
Is p = 0.03 significant at alpha = 0.05?

O que é um Valor-p?

Um valor-p é a probabilidade de observar resultados de teste tão extremos quanto, ou mais extremos que, os resultados reais — supondo que a hipótese nula H0H_0 seja verdadeira.

Formalmente, para uma estatística de teste TT com valor observado tt:

  • Cauda direita: p=P(TtH0)p = P(T \geq t \mid H_0)
  • Cauda esquerda: p=P(TtH0)p = P(T \leq t \mid H_0)
  • Bicaudal: p=2P(TtH0)p = 2 \cdot P(T \geq |t| \mid H_0)

Interpretação: um valor-p pequeno significa que os dados observados seriam surpreendentes se H0H_0 fosse verdadeira, então temos evidência contra H0H_0. Um valor-p grande significa que os dados são consistentes com H0H_0 — mas não prova que H0H_0 é verdadeira.

Regra de decisão: compare pp a um nível de significância pré-escolhido α\alpha (tipicamente 0,05):

  • p<αp < \alpha → rejeitar H0H_0 ('estatisticamente significativo')
  • pαp \geq \alpha → não rejeitar H0H_0 (evidência insuficiente)

O que o valor-p NÃO é:

  • Não é a probabilidade de H0H_0 ser verdadeira.
  • Não é a probabilidade de a alternativa H1H_1 ser verdadeira.
  • Não é uma medida de tamanho de efeito.
  • Não distingue 'significância prática' de 'significância estatística'.

Como Calcular e Usar Valores-p

Passo a Passo

  1. Enuncie as hipóteses H0H_0 e H1H_1.
  2. Escolha um teste apropriado para os dados (teste z, teste t, qui-quadrado, teste F, ...).
  3. Calcule a estatística de teste a partir dos dados.
  4. Determine a(s) cauda(s) com base em H1H_1: cauda direita (>>), cauda esquerda (<<) ou bicaudal (\neq).
  5. Encontre o valor-p a partir da distribuição do teste.
  6. Compare a α\alpha e conclua.

Valores-p de uma Estatística Z

Para uma normal padrão ZZ:

  • Cauda direita: p=1Φ(z)p = 1 - \Phi(z)
  • Cauda esquerda: p=Φ(z)p = \Phi(z)
  • Bicaudal: p=2(1Φ(z))p = 2(1 - \Phi(|z|))

Referência rápida: z=1.96z = 1.96pp bicaudal 0.05\approx 0.05. z=2.576z = 2.576pp bicaudal 0.01\approx 0.01.

Valores-p de uma Estatística T

Use a distribuição t com n1n - 1 graus de liberdade (ou conforme especificado pelo teste). A mesma lógica de cauda do z, mas a distribuição tem caudas ligeiramente mais pesadas para gl pequeno.

Valores-p de uma Estatística Qui-Quadrado

Testes qui-quadrado são inerentemente de cauda direita porque χ20\chi^2 \geq 0 e valores maiores indicam pior ajuste a H0H_0:

p=P(χdf2observado)p = P(\chi^2_{df} \geq \text{observado})

Unicaudal vs Bicaudal: Qual Usar?

  • Bicaudal: quando você se importa com desvios de H0H_0 em qualquer direção. Padrão na maioria dos contextos acadêmicos.
  • Unicaudal: quando a hipótese alternativa é direcional e pré-especificada (H1:μ>0H_1: \mu > 0, não μ0\mu \neq 0). Reduz o valor-p pela metade se a direção corresponder.

Nunca escolha a cauda depois de ver os dados — isso é p-hacking.

Limiares Comuns de Significância

α\alphaRótulo comum
0.10sugestivo
0.05padrão
0.01forte
0.001muito forte

A American Statistical Association alertou contra tratar α=0.05\alpha = 0.05 como uma linha rígida — o contexto e o tamanho do efeito importam mais que cruzar um limiar.

Erros Comuns a Evitar

  • 'O valor-p é a probabilidade de H0H_0 ser verdadeira': ERRADO. O valor-p é calculado supondo que H0H_0 é verdadeira; ele não mede quão provável H0H_0 é.
  • Tratar p=0.049p = 0.049 e p=0.051p = 0.051 como fundamentalmente diferentes: não são. O limiar de 0,05 é uma convenção, não uma transição de fase.
  • Escolher a cauda depois de ver os dados: se você vê z=2z = -2 e muda para um teste de cauda esquerda, você dobrou sua taxa de falsos positivos. Pré-especifique.
  • Confundir significância com tamanho de efeito: um efeito minúsculo com uma amostra enorme pode ser 'altamente significativo' mas praticamente irrelevante. Sempre reporte tamanhos de efeito junto com os valores-p.
  • Inflação por comparações múltiplas: rodar 20 testes em α=0.05\alpha = 0.05, um falso positivo é esperado por acaso. Use correções de Bonferroni ou FDR.
  • 'p>0.05p > 0.05 prova H0H_0': NÃO. Não rejeitar não é o mesmo que aceitar. Significa apenas que os dados não têm evidência suficiente contra H0H_0 neste tamanho de amostra.

Examples

Step 1: Consulte Φ(2.1)0.9821\Phi(2.1) \approx 0.9821
Step 2: Probabilidade da cauda direita: 10.9821=0.01791 - 0.9821 = 0.0179
Step 3: Valor-p bicaudal: 2×0.0179=0.03582 \times 0.0179 = 0.0358
Answer: p0.0358p \approx 0.0358 (significant at α=0.05\alpha = 0.05)

Step 1: Use a distribuição t com df=19df = 19
Step 2: Das tabelas t: P(T191.8)0.0438P(T_{19} \geq 1.8) \approx 0.0438
Step 3: Compare com os limiares comuns: significativo em α=0.05\alpha = 0.05, não em α=0.01\alpha = 0.01
Answer: p0.044p \approx 0.044 (significant at α=0.05\alpha = 0.05)

Step 1: O qui-quadrado é de cauda direita
Step 2: P(χ327.5)P(\chi^2_3 \geq 7.5) da tabela qui-quadrado
Step 3: Valores críticos para gl = 3: χ0.102=6.25\chi^2_{0.10} = 6.25, χ0.052=7.81\chi^2_{0.05} = 7.81
Step 4: 7.57.5 está entre eles, então 0.05<p<0.100.05 < p < 0.10
Step 5: Mais precisamente, p0.058p \approx 0.058
Answer: p0.058p \approx 0.058 (not significant at α=0.05\alpha = 0.05, suggestive at α=0.10\alpha = 0.10)

Frequently Asked Questions

Significa que os dados observados (ou dados mais extremos) ocorreriam em menos de 5% das amostras repetidas se a hipótese nula fosse verdadeira. Por convenção, isso é tratado como 'estatisticamente significativo' — mas não significa que a hipótese nula seja necessariamente falsa, e não mede o tamanho do efeito.

O valor-p é calculado *supondo* que H₀ é verdadeira — ele é condicional a H₀. Calcular P(H₀ verdadeira | dados) requer métodos bayesianos com uma probabilidade a priori para H₀, que o valor-p frequentista não usa.

Apenas quando a pergunta de pesquisa é genuinamente direcional e pré-especificada antes de ver os dados — ex.: um novo medicamento precisa ter desempenho *melhor* que o placebo para ser útil, com desempenho pior equivalente a nenhum efeito. Escolher a cauda post-hoc é p-hacking.

P-hacking é a prática de rodar muitas análises (subconjuntos diferentes, transformações, exclusões) e reportar apenas as significativas, ou trocar a direção do teste após ver os dados. Isso infla as taxas de falsos positivos e é um grande contribuinte para a crise de replicação.

Related Solvers

Try AI-Math for Free

Get step-by-step solutions to any math problem. Upload a photo or type your question.

Start Solving