miércoles, 9 de noviembre de 2016

Seminario
15
CONTRASTE DE HIPÓTESIS

Se le conoce también como el ritual de la significancia estadística, porque siempre se realiza de la misma forma, fue planteado originalmente por Fisher hace más de 50 años y está compuesta por cinco pasos: Primero: Plantear el sistema de hipótesis. Segundo: Establecer el nivel de significancia. Tercero: Elegir del estadístico de prueba. Cuarto: Dar lectura al p-valor calculado. Quinto: Tomar una decisión estadística

Estos cinco pasos son la actualización del ritual de Fisher para la era informática, en la versión fisheriana en el primer paso se trabajaba sobre la hipótesis nula y se pretende rechazarla para quedarnos con la hipótesis del investigador; en el cuarto paso se comparaba el valor del estadístico calculado con el valor que puede ocurrir por el azar; esto implicada comparar el resultado obtenido con los resultados de una tabla teórica.

En la era informática, ya no contrastamos en valor del estadístico calculado con los resultados de la tabla, porque el software estadístico es capaz de calcular el p-valor, con todas sus cifras decimales, recordando que el p-valor es la probabilidad de que la hipótesis del investigador sea falsa. De esta manera solo existe la probabilidad de cometer un error de tipo I, y nunca un error de tipo II.


1. Plantear el sistema de hipótesis
Consiste en escribir una hipótesis nula y una hipótesis alterna, comenzamos escribiendo la hipótesis alterna que es la hipótesis del investigador y luego oponiéndose a ella escribimos la hipótesis nula. Este sistema es un convencionalismo en el contraste de hipótesis, porque en realidad solo nos interesa la hipótesis del investigador o hipótesis alterna, a la cual le tendremos que calcular su probabilidad de error.

Pero es una tradición escribir tanto la hipótesis nula como la alterna; la mejor forma de escribir nuestro sistema de hipótesis sin cometer errores, consiste en escribir primero la hipótesis del investigador como hipótesis alterna y luego formular la hipótesis nula que viene a ser la negación de la alterna; el elemento clave para realizar una adecuada formulación de hipótesis será la identificación del objetivo estadístico.

-       Si el objetivo del estudio es la comparación, la hipótesis alterna declara las diferencias, la hipótesis nula dirá que no existen diferencias.
-       Si el objetivo del estudio es la asociación, la hipótesis alterna declara que existe tal asociación, la hipótesis nula dirá que no hay asociación.
-       Si el estudio es de correlación, la hipótesis alterna declara que existe tal correlación, la hipótesis nula indica la ausencia de correlación.
-       Si el objetivo es la concordancia, la hipótesis alterna declara que existe tal concordancia, la hipótesis nula declara la ausencia de concordancia.

La hipótesis alterna traduce el propósito del estudio, es lo que el investigador desea demostrar; por otro lado, si la hipótesis alterna corresponde al valor de verdad de verdadero y la hipótesis nula corresponde al valor de verdad de falso, esta última siempre estará en oposición a la hipótesis alterna.
El sistema de hipótesis y el supuesto de normalidad

El sistema de hipótesis siempre se plantea de la misma manera y no hay excepciones, por ello se denomina ritual, no importa lo que estemos tratando de demostrar, por ejemplo: si el objetivo del estudio es la comparación, entonces, la hipótesis alterna H1 indica que los grupos son diferentes; la hipótesis nula, oponiéndose a la hipótesis alterna, nos dirá que los grupos no son diferentes.

Si estamos analizando el supuesto de normalidad, entonces estamos comparando la distribución de la variable aleatoria con la distribución normal, la hipótesis alterna dirá que la distribución de la variable analizada es distinta a la distribución normal; y la hipótesis nula negando a la alterna dirá que la distribución de la variable analizada no es distinta a la distribución normal.

En este caso lo que nos conviene, es quedarnos con la hipótesis nula puesto que declara que, la distribución de la variable analizada no es distinta a la distribución normal, dicho de otro modo: la distribución de la variable analizada es igual a la distribución normal, lo cual interpretamos como normalidad y es un requisito para desarrollar pruebas estadísticas paramétricas.

Es exactamente el mismo razonamiento que realizamos para demostración de homocedasticidad y otros supuestos en estadística, el sistema de hipótesis para el objetivo comparativo siempre tiene la misma estructura, la hipótesis alterna es la que plantea diferencias y la hipótesis nula la que plantea la ausencia de diferencias. No hay excepción a esta estructura matemática de la hipótesis.


2. Establecer el nivel de significancia
Según Fisher, el nivel de significancia estadística equivale a la magnitud del error que se está dispuesto a correr, de rechazar una hipótesis nula que en realidad era verdadera. Esto equivale a calcular la probabilidad de error que cometeríamos de aceptar nuestra hipótesis como verdadera, cuando en realidad era falsa, entonces surge la necesidad de establecer el límite de error que estamos dispuestos a aceptar en caso de equivocarnos.

El nivel de significancia se denota por la letra griega alfa (α), y para la mayoría de los propósitos se suele establecer preliminarmente en 0,05 en porcentaje 5% y se considera significativo a todo p-valor que se encuentre por debajo de este nivel, hay que aclarar que este valor de 5% es solo un punto de partida convencional, que más adelante ajustaremos el nivel de significancia de acuerdo a las necesidades de la línea de investigación.

En las líneas de investigación que ya están bastante avanzadas es probable que surja la necesidad de establecer niveles de significancia distintos en cada procedimiento; son los expertos que pertenecen a esta línea de investigación quienes tendrán que determinar cuál es el límite máximo de error que se está dispuesto a aceptar para dar como válido un procedimiento.

Está claro que no podemos aceptar un 5% de error, por ejemplo en un vuelo aéreo, tampoco podemos aceptar un 5% de error en un procedimiento anestésico, un 5% de error es demasiado, incluso para una competencia olímpica; en esos casos se tendrá que establecer el nivel de significancia considerando la opinión de los expertos; si en nuestra de investigación no hay parámetros preestablecidos para aceptar el límite máximo de este error entonces podremos comenzar con un 5%.


3. Elegir el estadístico de prueba

El verdadero Know How del análisis de datos, es saber elegir el estadístico de prueba, para ello se necesita conocer las bases de la metodología; se han identificado seis criterios para elegir una prueba estadística, y estos son: tipo de estudio, nivel investigativo, diseño de la investigación, objetivo estadístico, escalas de medición de las variables y comportamiento de los datos. Veamos un ejemplo con cada uno de ellos.

Tipos de investigación. Los estudios según el número de ocasiones en que se mide la variable de estudio son transversal y longitudinal; de encontrar la necesidad de comparar utilizando la prueba t de Student, en un estudio transversal utilizamos la t de Student para muestras independientes, y en un estudio longitudinal utilizamos la t de Student para muestras relacionadas o que es lo mismo que medidas repetidas.

Niveles de investigación. En el nivel descriptivo por ser univariado encontramos estadísticos como la media y desviación estándar, la frecuencias absolutas y relativas; en el nivel relacional por ser bivariado encontramos a la prueba de chi cuadrado y la t de Student; a partir del nivel explicativo se inicia el análisis multivariado; como el análisis estratificado y las regresiones logísticas y lineales.

Diseños de investigación. Es muy conocido por todos que para cuantificar el riesgo en el diseño de casos y controles utilizamos el Odds Ratio, mientras que en el diseño de cohortes el Riesgo Relativo es el estadístico que se necesita. Esto es porque el diseño de casos y controles parte de la consecuencia para buscar las causas, mientras que el diseño de cohortes parte de las causas para buscar los efectos o consecuencias.


El objetivo estadístico. No es lo mismo asociar que comparar o concordar; a pesar de que estos tres procedimientos se pueden presentar en una tabla de contingencia de 2 x 2, la prueba estadística es distinta para cada objetivo estadístico. La asociación se desarrolla con chi cuadrado de independencia, la comparación con chi cuadrado de homogeneidad y la concordancia requiere de una medida como el Índice de Kappa de Cohen.

Las escalas de medición de las variables. Es el criterio más conocido de todos, si queremos comparar dos grupos, por ejemplo, dos salones de clases y nuestra variable aleatoria es categórica utilizamos x2 de homogeneidad, pero si nuestra variable aleatoria es numérica utilizamos t de Student para muestras independientes; si nuestra escala de medición para la variable aleatoria es ordinal utilizamos la U de Mann-Whitney

El comportamiento de los datos. Cuando trabajamos con variables categóricas y planeamos desarrollar la prueba x2 de independencia y una de las frecuencias esperadas en nuestra tabla de 2 x 2 es menor a 5, utilizamos la corrección por continuidad o corrección de Yates, esta decisión no depende del tipo de estudio ni del nivel investigativo ni del diseño, mucho menos del objetivo estadístico ni de la escala de medición, sino del comportamiento de los datos.

Por otro lado, cuando trabajamos con variables numéricas y planeamos realizar una comparación mediante la t de Student para muestras independientes y nuestra variable aleatoria no tiene distribución normal, entonces, tendremos que elegir su equivalente no paramétrico; esta decisión, nuevamente, no depende ni del tipo del estudio, ni del nivel, ni del diseño, tampoco del objetivo, ni la de la escala de medición, sino de la distribución de los datos.
4.  Dar lectura al p-valor calculado

Este paso no fue planteado originalmente por Fisher, porque en esa época no se disponían de programas informáticos que nos ayuden a calcular el p-valor, el cual cuantifica el error tipo I y nos ayuda a tomar una decisión de rechazo a la hipótesis nula cuando es menor al nivel de significancia, y de no rechazo cuando su valor es igual o mayor al alfa planteado antes de la ejecución del estudio.

Actualmente es fácil calcular el valor de p, con la ayuda del software estadístico, de tal manera que ya no es necesario utilizar la ruta larga que planteaba Fisher, sino que simplemente calculamos la probabilidad de que nuestra afirmación sea falsa, de tal modo que cada quien tomará su propia decisión de aceptar o no nuestra proposición, según el límite de tolerancia que le tenga al error.

La lectura del p-valor no es más que eso, una lectura, la decisión de quedarnos con alguna de las hipótesis la tomaremos más adelante, pero en este punto solo nos limitamos a enunciar la hipótesis del investigador con un grado de error, este grado de error es precisamente el p-valor, además debemos recordar que el error nunca será del 0% ni tampoco del 100%.

Veamos un ejemplo de lectura del p-valor: Con un error del 2,5% el procedimiento anestésico planteado es seguro; esto podemos interpretarlo como que en el 2,5% de los casos el procedimiento anestésico no es seguro; de manera que con esta información el paciente decidirá si dar o no su consentimiento para ser sometido a una cirugía. Entonces dar lectura al p-valor, no es tomar una decisión, es solamente informar la magnitud del error en caso de aceptar la hipótesis del investigador.
5. Tomar una decisión estadística
Cada decisión que tomamos cada día tiene un margen de error, conocer la magnitud del error es la tarea del investigador, para poder tomar decisiones basadas en la probabilidad; sino ejecutamos el ritual de la significancia estadística estaremos tomando decisiones sobre las cuales no conocemos la probabilidad de fracasar o de equivocarnos.

El p-valor es la magnitud del error, mientras menor sea su valor, mayores serán nuestras probabilidades de éxito, actuar en función a la probabilidad de equivocarnos y tomar decisiones basadas en la probabilidad es una característica de la ciencia; porque siempre estamos tratando de reducir el error en cada uno de nuestros procedimientos.

La toma de decisiones tiene que ver con el nivel de significancia, si el error estimado es menor al nivel de significancia que habíamos establecido preliminarmente, entonces, tomaremos la decisión de aceptación, de aceptar la hipótesis del investigador.

Si la magnitud del error para un procedimiento anestésico es del 7% y el límite aceptable llamado nivel de significancia es del 5%, entonces, no aceptaremos este procedimiento anestésico, porque el error es mayor al límite máximo convencionalmente aceptado; en consecuencia, nuestra decisión final será emitir el enunciado: el procedimiento anestésico no es seguro.

No hay que confundir la toma de la decisión con la interpretación; la toma de decisiones está relacionada con el planteamiento de la hipótesis derivada del objetivo estadístico, mientras que la interpretación está relacionada al propósito del estudio.


La interpretación no es parte de la prueba de hipótesis

El ritual de la significancia estadística originalmente planteado pro Fisher, no incluye la interpretación, porque no es posible interpretar los datos sino se conoce el contexto en que fue analizado; y el ritual de la significancia estadística es un procedimiento netamente matemático y rígido que se puede aplicar en todos los casos, es solo el puente entre la necesidad de calcular el error y tomar decisiones.

Luego de tomar una decisión de quedarnos con alguna de las hipótesis ya sea nula o alterna, recién surge la necesidad de interpretar estos resultados; y la interpretación tiene que apoyarse en la presentación de resultados que se desarrollaron como una necesidad de completar el propósito del estudio, por ello la interpretación está relacionada con el propósito del estudio.

Ejemplo: en un estudio de factores de riesgo, desarrollado con el diseño de los casos y controles, el objetivo estadístico es comparar y la hipótesis del investigador es que el grupo de los casos es diferente al grupo de los controles; si el p-valor es menor al nivel de significancia tomaré la decisión de que la característica en estudio se encuentra en una frecuencia distinta en ambos grupos.


Pero la interpretación amplía su contexto hacia el propósito del estudio, interpretando que la característica comparada por encentrarse con mayor frecuencia en el grupo de los casos es un factor de riesgo. Podría ser un factor concomitante e incluso un factor pronóstico, pero interpretamos que es un factor de riesgo por la especificidad del estudio de querer conocer los factores de riesgo expresados en el propósito del estudio.

No hay comentarios:

Publicar un comentario