Calculadora de valor p
Calcula e interpreta valores p para pruebas de hipótesis con soluciones paso a paso impulsadas por IA
Arrastra y suelta o haz clic para añadir imágenes o PDF
¿Qué es un valor p?
Un valor p es la probabilidad de observar resultados de la prueba tan extremos como, o más extremos que, los resultados reales, suponiendo que la hipótesis nula es verdadera.
Formalmente, para un estadístico de prueba con valor observado :
- De cola derecha:
- De cola izquierda:
- De dos colas:
Interpretación: un valor p pequeño significa que los datos observados serían sorprendentes si fuera verdadera, así que tenemos evidencia en contra de . Un valor p grande significa que los datos son coherentes con , pero no demuestra que sea verdadera.
Regla de decisión: compara con un nivel de significancia preseleccionado (normalmente 0.05):
- → rechaza ('estadísticamente significativo')
- → no se rechaza (evidencia insuficiente)
Lo que el valor p NO es:
- No es la probabilidad de que sea verdadera.
- No es la probabilidad de que la alternativa sea verdadera.
- No es una medida del tamaño del efecto.
- No distingue la 'significancia práctica' de la 'significancia estadística'.
Cómo calcular y usar los valores p
Paso a paso
- Plantea las hipótesis y .
- Elige una prueba adecuada para los datos (prueba z, prueba t, chi-cuadrado, prueba F, ...).
- Calcula el estadístico de prueba a partir de los datos.
- Determina la(s) cola(s) según : de cola derecha (), de cola izquierda () o de dos colas ().
- Halla el valor p a partir de la distribución de la prueba.
- Compara con y concluye.
Valores p a partir de un estadístico z
Para una normal estándar :
- De cola derecha:
- De cola izquierda:
- De dos colas:
Referencia rápida: → de dos colas . → de dos colas .
Valores p a partir de un estadístico t
Usa la distribución t con grados de libertad (o según especifique la prueba). La misma lógica de colas que con z, pero la distribución tiene colas algo más pesadas para grados de libertad pequeños.
Valores p a partir de un estadístico chi-cuadrado
Las pruebas de chi-cuadrado son inherentemente de cola derecha porque y los valores mayores indican peor ajuste a :
Una cola frente a dos colas: ¿cuál usar?
- De dos colas: cuando te importa la desviación de en cualquier dirección. Predeterminado en la mayoría de los entornos académicos.
- De una cola: cuando la hipótesis alternativa es direccional y está preespecificada (, no ). Reduce el valor p a la mitad si la dirección coincide.
Nunca elijas la cola tras ver los datos: eso es p-hacking.
Umbrales de significancia comunes
| Etiqueta común | |
|---|---|
| 0.10 | sugerente |
| 0.05 | estándar |
| 0.01 | fuerte |
| 0.001 | muy fuerte |
La American Statistical Association ha advertido contra tratar como una línea divisoria rígida: el contexto y el tamaño del efecto importan más que cruzar un umbral.
Errores comunes que debes evitar
- 'El valor p es la probabilidad de que sea verdadera': INCORRECTO. El valor p se calcula suponiendo que es verdadera; no mide cuán probable es .
- Tratar y como fundamentalmente distintos: no lo son. El umbral de 0.05 es una convención, no una transición de fase.
- Elegir la cola tras ver los datos: si ves y cambias a una prueba de cola izquierda, has duplicado tu tasa de falsos positivos. Preespecifica.
- Confundir la significancia con el tamaño del efecto: un efecto diminuto con una muestra enorme puede ser 'altamente significativo' y a la vez prácticamente irrelevante. Informa siempre del tamaño del efecto junto al valor p.
- Inflación por comparaciones múltiples: al realizar 20 pruebas con , se espera un falso positivo por azar. Usa correcciones de Bonferroni o FDR.
- ' demuestra ': NO. No rechazar no es lo mismo que aceptar. Solo significa que los datos no tienen suficiente evidencia contra con este tamaño muestral.
Examples
Frequently Asked Questions
Significa que los datos observados (o datos más extremos) ocurrirían en menos del 5% de las muestras repetidas si la hipótesis nula fuera verdadera. Por convención, esto se trata como 'estadísticamente significativo', pero no significa que la hipótesis nula sea necesariamente falsa, ni mide el tamaño del efecto.
El valor p se calcula *suponiendo* que H₀ es verdadera: está condicionado a H₀. Calcular P(H₀ verdadera | datos) requiere métodos bayesianos con una probabilidad a priori para H₀, que el valor p frecuentista no usa.
Solo cuando la pregunta de investigación es genuinamente direccional y está preespecificada antes de ver los datos; p. ej., un nuevo fármaco debe tener un *mejor* desempeño que el placebo para ser útil, siendo un peor desempeño equivalente a ningún efecto. Elegir la cola a posteriori es p-hacking.
El p-hacking es la práctica de realizar muchos análisis (distintos subconjuntos, transformaciones, exclusiones) y reportar solo los significativos, o cambiar la dirección de la prueba tras ver los datos. Infla las tasas de falsos positivos y es un contribuyente importante a la crisis de replicación.
Related Solvers
Try AI-Math for Free
Get step-by-step solutions to any math problem. Upload a photo or type your question.
Start Solving