Seminario
15
CONTRASTE DE HIPÓTESIS
|
Se le conoce también como el ritual de la significancia estadística,
porque siempre se realiza de la misma forma, fue planteado originalmente por
Fisher hace más de 50 años y está compuesta por cinco pasos: Primero: Plantear
el sistema de hipótesis. Segundo: Establecer el nivel de significancia.
Tercero: Elegir del estadístico de prueba. Cuarto: Dar lectura al p-valor
calculado. Quinto: Tomar una decisión estadística
Estos cinco pasos son la actualización del
ritual de Fisher para la era informática, en la versión fisheriana en el primer
paso se trabajaba sobre la hipótesis nula y se pretende rechazarla para
quedarnos con la hipótesis del investigador; en el cuarto paso se comparaba el
valor del estadístico calculado con el valor que puede ocurrir por el azar;
esto implicada comparar el resultado obtenido con los resultados de una tabla
teórica.
En la era informática, ya no contrastamos en
valor del estadístico calculado con los resultados de la tabla, porque el
software estadístico es capaz de calcular el p-valor, con todas sus cifras
decimales, recordando que el p-valor es la probabilidad de que la hipótesis del
investigador sea falsa. De esta manera solo existe la probabilidad de cometer
un error de tipo I, y nunca un error de tipo II.
1. Plantear el sistema de
hipótesis
Consiste en escribir una hipótesis nula y una hipótesis alterna,
comenzamos escribiendo la hipótesis alterna que es la hipótesis del
investigador y luego oponiéndose a ella escribimos la hipótesis nula. Este
sistema es un convencionalismo en el contraste de hipótesis, porque en realidad
solo nos interesa la hipótesis del investigador o hipótesis alterna, a la cual
le tendremos que calcular su probabilidad de error.
Pero es una tradición escribir tanto la hipótesis nula como la alterna;
la mejor forma de escribir nuestro sistema de hipótesis sin cometer errores,
consiste en escribir primero la hipótesis del investigador como hipótesis
alterna y luego formular la hipótesis nula que viene a ser la negación de la
alterna; el elemento clave para realizar una adecuada formulación de hipótesis
será la identificación del objetivo estadístico.
-
Si el
objetivo del estudio es la comparación, la hipótesis alterna declara las
diferencias, la hipótesis nula dirá que no existen diferencias.
-
Si el
objetivo del estudio es la asociación, la hipótesis alterna declara que existe
tal asociación, la hipótesis nula dirá que no hay asociación.
-
Si el
estudio es de correlación, la hipótesis alterna declara que existe tal correlación,
la hipótesis nula indica la ausencia de correlación.
-
Si el
objetivo es la concordancia, la hipótesis alterna declara que existe tal
concordancia, la hipótesis nula declara la ausencia de concordancia.
La hipótesis alterna traduce el propósito del estudio, es lo que el
investigador desea demostrar; por otro lado, si la hipótesis alterna
corresponde al valor de verdad de verdadero y la hipótesis nula corresponde al
valor de verdad de falso, esta última siempre estará en oposición a la
hipótesis alterna.
El sistema de hipótesis y el
supuesto de normalidad
El sistema de hipótesis siempre se plantea de la misma manera y no hay
excepciones, por ello se denomina ritual, no importa lo que estemos tratando de
demostrar, por ejemplo: si el objetivo del estudio es la comparación, entonces,
la hipótesis alterna H1 indica que los grupos son diferentes; la
hipótesis nula, oponiéndose a la hipótesis alterna, nos dirá que los grupos no
son diferentes.
Si estamos analizando el supuesto de normalidad, entonces estamos
comparando la distribución de la variable aleatoria con la distribución normal,
la hipótesis alterna dirá que la distribución de la variable analizada es
distinta a la distribución normal; y la hipótesis nula negando a la alterna
dirá que la distribución de la variable analizada no es distinta a la
distribución normal.
En este caso lo que nos conviene, es quedarnos con la hipótesis nula
puesto que declara que, la distribución de la variable analizada no es distinta
a la distribución normal, dicho de otro modo: la distribución de la variable
analizada es igual a la distribución normal, lo cual interpretamos como
normalidad y es un requisito para desarrollar pruebas estadísticas
paramétricas.
Es exactamente el mismo razonamiento que realizamos para demostración de
homocedasticidad y otros supuestos en estadística, el sistema de hipótesis para
el objetivo comparativo siempre tiene la misma estructura, la hipótesis alterna
es la que plantea diferencias y la hipótesis nula la que plantea la ausencia de
diferencias. No hay excepción a esta estructura matemática de la hipótesis.
2. Establecer el nivel de
significancia
Según Fisher, el nivel de significancia estadística equivale a la
magnitud del error que se está dispuesto a correr, de rechazar una hipótesis
nula que en realidad era verdadera. Esto equivale a calcular la probabilidad de
error que cometeríamos de aceptar nuestra hipótesis como verdadera, cuando en
realidad era falsa, entonces surge la necesidad de establecer el límite de
error que estamos dispuestos a aceptar en caso de equivocarnos.
El nivel de significancia se denota por la letra griega alfa (α), y para
la mayoría de los propósitos se suele establecer preliminarmente en 0,05 en
porcentaje 5% y se considera significativo a todo p-valor que se encuentre por
debajo de este nivel, hay que aclarar que este valor de 5% es solo un punto de
partida convencional, que más adelante ajustaremos el nivel de significancia de
acuerdo a las necesidades de la línea de investigación.
En las líneas de investigación que ya están bastante avanzadas es
probable que surja la necesidad de establecer niveles de significancia
distintos en cada procedimiento; son los expertos que pertenecen a esta línea
de investigación quienes tendrán que determinar cuál es el límite máximo de
error que se está dispuesto a aceptar para dar como válido un procedimiento.
Está claro que no podemos aceptar un 5% de error, por ejemplo en un
vuelo aéreo, tampoco podemos aceptar un 5% de error en un procedimiento
anestésico, un 5% de error es demasiado, incluso para una competencia olímpica;
en esos casos se tendrá que establecer el nivel de significancia considerando
la opinión de los expertos; si en nuestra de investigación no hay parámetros
preestablecidos para aceptar el límite máximo de este error entonces podremos
comenzar con un 5%.
3. Elegir el estadístico de
prueba
El verdadero Know How del análisis de datos, es saber elegir el
estadístico de prueba, para ello se necesita conocer las bases de la
metodología; se han identificado seis criterios para elegir una prueba
estadística, y estos son: tipo de estudio, nivel investigativo, diseño de la
investigación, objetivo estadístico, escalas de medición de las variables y
comportamiento de los datos. Veamos un ejemplo con cada uno de ellos.
Tipos de investigación. Los estudios según el número de ocasiones en que
se mide la variable de estudio son transversal y longitudinal; de encontrar la
necesidad de comparar utilizando la prueba t de Student, en un estudio
transversal utilizamos la t de Student para muestras independientes, y en un
estudio longitudinal utilizamos la t de Student para muestras relacionadas o
que es lo mismo que medidas repetidas.
Niveles de investigación. En el nivel descriptivo por ser univariado
encontramos estadísticos como la media y desviación estándar, la frecuencias
absolutas y relativas; en el nivel relacional por ser bivariado encontramos a
la prueba de chi cuadrado y la t de Student; a partir del nivel explicativo se
inicia el análisis multivariado; como el análisis estratificado y las
regresiones logísticas y lineales.
Diseños de investigación. Es muy conocido por todos que para cuantificar
el riesgo en el diseño de casos y controles utilizamos el Odds Ratio, mientras
que en el diseño de cohortes el Riesgo Relativo es el estadístico que se
necesita. Esto es porque el diseño de casos y controles parte de la
consecuencia para buscar las causas, mientras que el diseño de cohortes parte
de las causas para buscar los efectos o consecuencias.
El objetivo estadístico. No es lo mismo asociar que comparar o
concordar; a pesar de que estos tres procedimientos se pueden presentar en una
tabla de contingencia de 2 x 2, la prueba estadística es distinta para cada
objetivo estadístico. La asociación se desarrolla con chi cuadrado de
independencia, la comparación con chi cuadrado de homogeneidad y la
concordancia requiere de una medida como el Índice de Kappa de Cohen.
Las escalas de medición de las variables. Es el criterio más conocido de
todos, si queremos comparar dos grupos, por ejemplo, dos salones de clases y
nuestra variable aleatoria es categórica utilizamos x2 de
homogeneidad, pero si nuestra variable aleatoria es numérica utilizamos t de
Student para muestras independientes; si nuestra escala de medición para la
variable aleatoria es ordinal utilizamos la U de Mann-Whitney
El comportamiento de los datos. Cuando trabajamos con variables
categóricas y planeamos desarrollar la prueba x2 de independencia y
una de las frecuencias esperadas en nuestra tabla de 2 x 2 es menor a 5,
utilizamos la corrección por continuidad o corrección de Yates, esta decisión
no depende del tipo de estudio ni del nivel investigativo ni del diseño, mucho
menos del objetivo estadístico ni de la escala de medición, sino del
comportamiento de los datos.
Por otro lado, cuando trabajamos con variables numéricas y planeamos
realizar una comparación mediante la t de Student para muestras independientes
y nuestra variable aleatoria no tiene distribución normal, entonces, tendremos
que elegir su equivalente no paramétrico; esta decisión, nuevamente, no depende
ni del tipo del estudio, ni del nivel, ni del diseño, tampoco del objetivo, ni
la de la escala de medición, sino de la distribución de los datos.
4. Dar lectura al p-valor calculado
Este paso no fue planteado originalmente por Fisher, porque en esa época
no se disponían de programas informáticos que nos ayuden a calcular el p-valor,
el cual cuantifica el error tipo I y nos ayuda a tomar una decisión de rechazo
a la hipótesis nula cuando es menor al nivel de significancia, y de no rechazo
cuando su valor es igual o mayor al alfa planteado antes de la ejecución del
estudio.
Actualmente es fácil calcular el valor de p, con la ayuda del software
estadístico, de tal manera que ya no es necesario utilizar la ruta larga que
planteaba Fisher, sino que simplemente calculamos la probabilidad de que
nuestra afirmación sea falsa, de tal modo que cada quien tomará su propia
decisión de aceptar o no nuestra proposición, según el límite de tolerancia que
le tenga al error.
La lectura del p-valor no es más que eso, una lectura, la decisión de
quedarnos con alguna de las hipótesis la tomaremos más adelante, pero en este
punto solo nos limitamos a enunciar la hipótesis del investigador con un grado
de error, este grado de error es precisamente el p-valor, además debemos
recordar que el error nunca será del 0% ni tampoco del 100%.
Veamos un ejemplo de lectura del p-valor: Con un error del 2,5% el
procedimiento anestésico planteado es seguro; esto podemos interpretarlo como
que en el 2,5% de los casos el procedimiento anestésico no es seguro; de manera
que con esta información el paciente decidirá si dar o no su consentimiento
para ser sometido a una cirugía. Entonces dar lectura al p-valor, no es tomar
una decisión, es solamente informar la magnitud del error en caso de aceptar la
hipótesis del investigador.
5. Tomar una decisión estadística
Cada decisión que tomamos cada día tiene un margen de error, conocer la
magnitud del error es la tarea del investigador, para poder tomar decisiones
basadas en la probabilidad; sino ejecutamos el ritual de la significancia
estadística estaremos tomando decisiones sobre las cuales no conocemos la
probabilidad de fracasar o de equivocarnos.
El p-valor es la magnitud del error, mientras menor sea su valor,
mayores serán nuestras probabilidades de éxito, actuar en función a la
probabilidad de equivocarnos y tomar decisiones basadas en la probabilidad es
una característica de la ciencia; porque siempre estamos tratando de reducir el
error en cada uno de nuestros procedimientos.
La toma de decisiones tiene que ver con el nivel de significancia, si el
error estimado es menor al nivel de significancia que habíamos establecido
preliminarmente, entonces, tomaremos la decisión de aceptación, de aceptar la
hipótesis del investigador.
Si la magnitud del error para un procedimiento anestésico es del 7% y el
límite aceptable llamado nivel de significancia es del 5%, entonces, no
aceptaremos este procedimiento anestésico, porque el error es mayor al límite
máximo convencionalmente aceptado; en consecuencia, nuestra decisión final será
emitir el enunciado: el procedimiento anestésico no es seguro.
No hay que confundir la toma de la decisión con la interpretación; la
toma de decisiones está relacionada con el planteamiento de la hipótesis
derivada del objetivo estadístico, mientras que la interpretación está
relacionada al propósito del estudio.
La interpretación no es parte de
la prueba de hipótesis
El ritual de la significancia estadística originalmente planteado pro
Fisher, no incluye la interpretación, porque no es posible interpretar los
datos sino se conoce el contexto en que fue analizado; y el ritual de la
significancia estadística es un procedimiento netamente matemático y rígido que
se puede aplicar en todos los casos, es solo el puente entre la necesidad de
calcular el error y tomar decisiones.
Luego de tomar una decisión de quedarnos con alguna de las hipótesis ya
sea nula o alterna, recién surge la necesidad de interpretar estos resultados;
y la interpretación tiene que apoyarse en la presentación de resultados que se
desarrollaron como una necesidad de completar el propósito del estudio, por
ello la interpretación está relacionada con el propósito del estudio.
Ejemplo: en un estudio de factores de riesgo, desarrollado con el diseño
de los casos y controles, el objetivo estadístico es comparar y la hipótesis
del investigador es que el grupo de los casos es diferente al grupo de los
controles; si el p-valor es menor al nivel de significancia tomaré la decisión
de que la característica en estudio se encuentra en una frecuencia distinta en
ambos grupos.
Pero la interpretación amplía su contexto hacia el propósito del
estudio, interpretando que la característica comparada por encentrarse con mayor
frecuencia en el grupo de los casos es un factor de riesgo. Podría ser un
factor concomitante e incluso un factor pronóstico, pero interpretamos que es
un factor de riesgo por la especificidad del estudio de querer conocer los
factores de riesgo expresados en el propósito del estudio.