miércoles, 9 de noviembre de 2016

Seminario
15
CONTRASTE DE HIPÓTESIS

Se le conoce también como el ritual de la significancia estadística, porque siempre se realiza de la misma forma, fue planteado originalmente por Fisher hace más de 50 años y está compuesta por cinco pasos: Primero: Plantear el sistema de hipótesis. Segundo: Establecer el nivel de significancia. Tercero: Elegir del estadístico de prueba. Cuarto: Dar lectura al p-valor calculado. Quinto: Tomar una decisión estadística

Estos cinco pasos son la actualización del ritual de Fisher para la era informática, en la versión fisheriana en el primer paso se trabajaba sobre la hipótesis nula y se pretende rechazarla para quedarnos con la hipótesis del investigador; en el cuarto paso se comparaba el valor del estadístico calculado con el valor que puede ocurrir por el azar; esto implicada comparar el resultado obtenido con los resultados de una tabla teórica.

En la era informática, ya no contrastamos en valor del estadístico calculado con los resultados de la tabla, porque el software estadístico es capaz de calcular el p-valor, con todas sus cifras decimales, recordando que el p-valor es la probabilidad de que la hipótesis del investigador sea falsa. De esta manera solo existe la probabilidad de cometer un error de tipo I, y nunca un error de tipo II.


1. Plantear el sistema de hipótesis
Consiste en escribir una hipótesis nula y una hipótesis alterna, comenzamos escribiendo la hipótesis alterna que es la hipótesis del investigador y luego oponiéndose a ella escribimos la hipótesis nula. Este sistema es un convencionalismo en el contraste de hipótesis, porque en realidad solo nos interesa la hipótesis del investigador o hipótesis alterna, a la cual le tendremos que calcular su probabilidad de error.

Pero es una tradición escribir tanto la hipótesis nula como la alterna; la mejor forma de escribir nuestro sistema de hipótesis sin cometer errores, consiste en escribir primero la hipótesis del investigador como hipótesis alterna y luego formular la hipótesis nula que viene a ser la negación de la alterna; el elemento clave para realizar una adecuada formulación de hipótesis será la identificación del objetivo estadístico.

-       Si el objetivo del estudio es la comparación, la hipótesis alterna declara las diferencias, la hipótesis nula dirá que no existen diferencias.
-       Si el objetivo del estudio es la asociación, la hipótesis alterna declara que existe tal asociación, la hipótesis nula dirá que no hay asociación.
-       Si el estudio es de correlación, la hipótesis alterna declara que existe tal correlación, la hipótesis nula indica la ausencia de correlación.
-       Si el objetivo es la concordancia, la hipótesis alterna declara que existe tal concordancia, la hipótesis nula declara la ausencia de concordancia.

La hipótesis alterna traduce el propósito del estudio, es lo que el investigador desea demostrar; por otro lado, si la hipótesis alterna corresponde al valor de verdad de verdadero y la hipótesis nula corresponde al valor de verdad de falso, esta última siempre estará en oposición a la hipótesis alterna.
El sistema de hipótesis y el supuesto de normalidad

El sistema de hipótesis siempre se plantea de la misma manera y no hay excepciones, por ello se denomina ritual, no importa lo que estemos tratando de demostrar, por ejemplo: si el objetivo del estudio es la comparación, entonces, la hipótesis alterna H1 indica que los grupos son diferentes; la hipótesis nula, oponiéndose a la hipótesis alterna, nos dirá que los grupos no son diferentes.

Si estamos analizando el supuesto de normalidad, entonces estamos comparando la distribución de la variable aleatoria con la distribución normal, la hipótesis alterna dirá que la distribución de la variable analizada es distinta a la distribución normal; y la hipótesis nula negando a la alterna dirá que la distribución de la variable analizada no es distinta a la distribución normal.

En este caso lo que nos conviene, es quedarnos con la hipótesis nula puesto que declara que, la distribución de la variable analizada no es distinta a la distribución normal, dicho de otro modo: la distribución de la variable analizada es igual a la distribución normal, lo cual interpretamos como normalidad y es un requisito para desarrollar pruebas estadísticas paramétricas.

Es exactamente el mismo razonamiento que realizamos para demostración de homocedasticidad y otros supuestos en estadística, el sistema de hipótesis para el objetivo comparativo siempre tiene la misma estructura, la hipótesis alterna es la que plantea diferencias y la hipótesis nula la que plantea la ausencia de diferencias. No hay excepción a esta estructura matemática de la hipótesis.


2. Establecer el nivel de significancia
Según Fisher, el nivel de significancia estadística equivale a la magnitud del error que se está dispuesto a correr, de rechazar una hipótesis nula que en realidad era verdadera. Esto equivale a calcular la probabilidad de error que cometeríamos de aceptar nuestra hipótesis como verdadera, cuando en realidad era falsa, entonces surge la necesidad de establecer el límite de error que estamos dispuestos a aceptar en caso de equivocarnos.

El nivel de significancia se denota por la letra griega alfa (α), y para la mayoría de los propósitos se suele establecer preliminarmente en 0,05 en porcentaje 5% y se considera significativo a todo p-valor que se encuentre por debajo de este nivel, hay que aclarar que este valor de 5% es solo un punto de partida convencional, que más adelante ajustaremos el nivel de significancia de acuerdo a las necesidades de la línea de investigación.

En las líneas de investigación que ya están bastante avanzadas es probable que surja la necesidad de establecer niveles de significancia distintos en cada procedimiento; son los expertos que pertenecen a esta línea de investigación quienes tendrán que determinar cuál es el límite máximo de error que se está dispuesto a aceptar para dar como válido un procedimiento.

Está claro que no podemos aceptar un 5% de error, por ejemplo en un vuelo aéreo, tampoco podemos aceptar un 5% de error en un procedimiento anestésico, un 5% de error es demasiado, incluso para una competencia olímpica; en esos casos se tendrá que establecer el nivel de significancia considerando la opinión de los expertos; si en nuestra de investigación no hay parámetros preestablecidos para aceptar el límite máximo de este error entonces podremos comenzar con un 5%.


3. Elegir el estadístico de prueba

El verdadero Know How del análisis de datos, es saber elegir el estadístico de prueba, para ello se necesita conocer las bases de la metodología; se han identificado seis criterios para elegir una prueba estadística, y estos son: tipo de estudio, nivel investigativo, diseño de la investigación, objetivo estadístico, escalas de medición de las variables y comportamiento de los datos. Veamos un ejemplo con cada uno de ellos.

Tipos de investigación. Los estudios según el número de ocasiones en que se mide la variable de estudio son transversal y longitudinal; de encontrar la necesidad de comparar utilizando la prueba t de Student, en un estudio transversal utilizamos la t de Student para muestras independientes, y en un estudio longitudinal utilizamos la t de Student para muestras relacionadas o que es lo mismo que medidas repetidas.

Niveles de investigación. En el nivel descriptivo por ser univariado encontramos estadísticos como la media y desviación estándar, la frecuencias absolutas y relativas; en el nivel relacional por ser bivariado encontramos a la prueba de chi cuadrado y la t de Student; a partir del nivel explicativo se inicia el análisis multivariado; como el análisis estratificado y las regresiones logísticas y lineales.

Diseños de investigación. Es muy conocido por todos que para cuantificar el riesgo en el diseño de casos y controles utilizamos el Odds Ratio, mientras que en el diseño de cohortes el Riesgo Relativo es el estadístico que se necesita. Esto es porque el diseño de casos y controles parte de la consecuencia para buscar las causas, mientras que el diseño de cohortes parte de las causas para buscar los efectos o consecuencias.


El objetivo estadístico. No es lo mismo asociar que comparar o concordar; a pesar de que estos tres procedimientos se pueden presentar en una tabla de contingencia de 2 x 2, la prueba estadística es distinta para cada objetivo estadístico. La asociación se desarrolla con chi cuadrado de independencia, la comparación con chi cuadrado de homogeneidad y la concordancia requiere de una medida como el Índice de Kappa de Cohen.

Las escalas de medición de las variables. Es el criterio más conocido de todos, si queremos comparar dos grupos, por ejemplo, dos salones de clases y nuestra variable aleatoria es categórica utilizamos x2 de homogeneidad, pero si nuestra variable aleatoria es numérica utilizamos t de Student para muestras independientes; si nuestra escala de medición para la variable aleatoria es ordinal utilizamos la U de Mann-Whitney

El comportamiento de los datos. Cuando trabajamos con variables categóricas y planeamos desarrollar la prueba x2 de independencia y una de las frecuencias esperadas en nuestra tabla de 2 x 2 es menor a 5, utilizamos la corrección por continuidad o corrección de Yates, esta decisión no depende del tipo de estudio ni del nivel investigativo ni del diseño, mucho menos del objetivo estadístico ni de la escala de medición, sino del comportamiento de los datos.

Por otro lado, cuando trabajamos con variables numéricas y planeamos realizar una comparación mediante la t de Student para muestras independientes y nuestra variable aleatoria no tiene distribución normal, entonces, tendremos que elegir su equivalente no paramétrico; esta decisión, nuevamente, no depende ni del tipo del estudio, ni del nivel, ni del diseño, tampoco del objetivo, ni la de la escala de medición, sino de la distribución de los datos.
4.  Dar lectura al p-valor calculado

Este paso no fue planteado originalmente por Fisher, porque en esa época no se disponían de programas informáticos que nos ayuden a calcular el p-valor, el cual cuantifica el error tipo I y nos ayuda a tomar una decisión de rechazo a la hipótesis nula cuando es menor al nivel de significancia, y de no rechazo cuando su valor es igual o mayor al alfa planteado antes de la ejecución del estudio.

Actualmente es fácil calcular el valor de p, con la ayuda del software estadístico, de tal manera que ya no es necesario utilizar la ruta larga que planteaba Fisher, sino que simplemente calculamos la probabilidad de que nuestra afirmación sea falsa, de tal modo que cada quien tomará su propia decisión de aceptar o no nuestra proposición, según el límite de tolerancia que le tenga al error.

La lectura del p-valor no es más que eso, una lectura, la decisión de quedarnos con alguna de las hipótesis la tomaremos más adelante, pero en este punto solo nos limitamos a enunciar la hipótesis del investigador con un grado de error, este grado de error es precisamente el p-valor, además debemos recordar que el error nunca será del 0% ni tampoco del 100%.

Veamos un ejemplo de lectura del p-valor: Con un error del 2,5% el procedimiento anestésico planteado es seguro; esto podemos interpretarlo como que en el 2,5% de los casos el procedimiento anestésico no es seguro; de manera que con esta información el paciente decidirá si dar o no su consentimiento para ser sometido a una cirugía. Entonces dar lectura al p-valor, no es tomar una decisión, es solamente informar la magnitud del error en caso de aceptar la hipótesis del investigador.
5. Tomar una decisión estadística
Cada decisión que tomamos cada día tiene un margen de error, conocer la magnitud del error es la tarea del investigador, para poder tomar decisiones basadas en la probabilidad; sino ejecutamos el ritual de la significancia estadística estaremos tomando decisiones sobre las cuales no conocemos la probabilidad de fracasar o de equivocarnos.

El p-valor es la magnitud del error, mientras menor sea su valor, mayores serán nuestras probabilidades de éxito, actuar en función a la probabilidad de equivocarnos y tomar decisiones basadas en la probabilidad es una característica de la ciencia; porque siempre estamos tratando de reducir el error en cada uno de nuestros procedimientos.

La toma de decisiones tiene que ver con el nivel de significancia, si el error estimado es menor al nivel de significancia que habíamos establecido preliminarmente, entonces, tomaremos la decisión de aceptación, de aceptar la hipótesis del investigador.

Si la magnitud del error para un procedimiento anestésico es del 7% y el límite aceptable llamado nivel de significancia es del 5%, entonces, no aceptaremos este procedimiento anestésico, porque el error es mayor al límite máximo convencionalmente aceptado; en consecuencia, nuestra decisión final será emitir el enunciado: el procedimiento anestésico no es seguro.

No hay que confundir la toma de la decisión con la interpretación; la toma de decisiones está relacionada con el planteamiento de la hipótesis derivada del objetivo estadístico, mientras que la interpretación está relacionada al propósito del estudio.


La interpretación no es parte de la prueba de hipótesis

El ritual de la significancia estadística originalmente planteado pro Fisher, no incluye la interpretación, porque no es posible interpretar los datos sino se conoce el contexto en que fue analizado; y el ritual de la significancia estadística es un procedimiento netamente matemático y rígido que se puede aplicar en todos los casos, es solo el puente entre la necesidad de calcular el error y tomar decisiones.

Luego de tomar una decisión de quedarnos con alguna de las hipótesis ya sea nula o alterna, recién surge la necesidad de interpretar estos resultados; y la interpretación tiene que apoyarse en la presentación de resultados que se desarrollaron como una necesidad de completar el propósito del estudio, por ello la interpretación está relacionada con el propósito del estudio.

Ejemplo: en un estudio de factores de riesgo, desarrollado con el diseño de los casos y controles, el objetivo estadístico es comparar y la hipótesis del investigador es que el grupo de los casos es diferente al grupo de los controles; si el p-valor es menor al nivel de significancia tomaré la decisión de que la característica en estudio se encuentra en una frecuencia distinta en ambos grupos.


Pero la interpretación amplía su contexto hacia el propósito del estudio, interpretando que la característica comparada por encentrarse con mayor frecuencia en el grupo de los casos es un factor de riesgo. Podría ser un factor concomitante e incluso un factor pronóstico, pero interpretamos que es un factor de riesgo por la especificidad del estudio de querer conocer los factores de riesgo expresados en el propósito del estudio.
Seminario
14
PLANTEAMIENTO DE HIPÓTESIS

Antes de pensar en plantear la hipótesis debemos asegurarnos de que el estudio a desarrollar lleva hipótesis; esto es porque, no todos los estudios llevan hipótesis, sino solamente aquellos cuyo enunciado es una proposición, un enunciado susceptible de ser calificado como verdadero o falso; esta es una forma muy práctica de reconocer a los estudios que poseen hipótesis.

Los estudios que, no lleven hipótesis no necesitarán del planteamiento de hipótesis, y ello no los hace menos valiosos o menos importantes, simplemente no llevan hipótesis, porque no es la intencionalidad del investigador, el propósito del estudio no expresa la necesidad de afirmar o negar, en la investigación cuantitativa, los estudios que no poseen hipótesis por lo general buscan la cuantificación de la relación entre las variables.

Una vez determinada la necesidad de plantear una hipótesis y de conocer la formulación gramatical, la formulación lógica, la formulación matemática y la formulación de contraste, debemos identificar el objetivo del estudio, el cual se deriva del propósito o especificidad del estudio, el planteamiento de la hipótesis está directamente relacionada con el objetivo del estudio en cualquiera de los niveles investigativos.


1. La hipótesis del investigador.
Desde el punto de vista matemático, la hipótesis tiene dos proposiciones; la hipótesis nula y la hipótesis alterna; la hipótesis del investigador corresponde a la hipótesis alterna, porque es lo que el investigador desea demostrar; de hecho el investigador podría afirmar su proposición de manera anticipada, antes de realizar el estudio; sin embargo existiría la posibilidad de cometer un error.

Si el investigador afirma de manera anticipada su proposición y se equivoca, entonces comete un error, que corresponde a una afirmación o decisión equivocada, a una relación entre las variables que en realidad no existe, esto equivaldría en el campo jurídico a declarar culpable a una persona que en realidad es inocente, y enviarla a prisión como seguramente ha ocurrido alguna vez, y seguirá ocurriendo.

De manera que la tarea del investigador es calcular la probabilidad de cometer este error, el cual por supuesto no se puede conocer, como no se puede conocer la proporción de personas inocentes que se encuentran en prisión pagando por crímenes que no cometieron; sin embargo esta proporción puede ser estimada probabilísticamente, de manera que podamos tomar decisiones sobre el conjunto.

Antes de tomar decisiones sobre el conjunto de afirmar o negar una relación entre las variables, de encarcelar o liberar a un acusado, de hospitalizar o dar de alta a un paciente , debemos establecer la magnitud de error que estamos dispuestos a aceptar para tomar la decisión de quedarnos con la hipótesis del investigador, que es la razón de ser del estudio, es lo que el investigador desea demostrar.



2. Error tipo I

Cuando tomamos una decisión o realizamos una afirmación, como por ejemplo: afirmar que un procedimiento quirúrgico es seguro, afirmar que un vuelo aéreo es seguro o afirmar que aprobaremos un examen; y nos equivocamos, a este resultado negativo lo denominamos error tipo I, esto en el campo jurídico equivaldría a enviar a prisión a una persona inocente, seguramente ha ocurrido alguna vez, y seguirá ocurriendo.

El error tipo I, ocurre cuando aceptamos la hipótesis del investigador cuando en realidad era falsa, por lo tanto, es un juicio de valor equivocado; por ejemplo, si aseguramos que un procedimiento quirúrgico es seguro, y  nos equivocamos, si asumimos que los vuelos aéreos son seguros y nos equivocamos. Si afirmamos que vamos a aprobar un examen y luego resultamos desaprobados hemos cometido un error tipo I.

Pero antes de decidir si hemos cometido o no un error debemos definir el error, en nuestro ejemplo: donde afirmamos que el procedimiento quirúrgico es seguro, debemos definir qué es lo que debe ocurrir para concluir en que no es seguro, puede ocurrir una complicación como la hemorragia, puede ocurrir una infección e incluso podría ocurrir la muerte, en cualquier caso debemos definir claramente a que consideramos error.

En nuestro ejemplo: donde afirmamos que los vuelos aéreos son seguros, también tendríamos que definir lo que tendría que ocurrir para considerar que nos hemos equivocado, puede ser en el peor de los casos un accidente aéreo, puede ser algo menos catastrófico como un aterrizaje forzoso, o puede ser algo mas insignificante como un vuelo retrasado, en cualquier caso es mejor definirlo antes de decir que no son seguros.
En nuestro ejemplo: donde afirmamos que vamos a aprobar un examen, el error natural sería que resultemos desaprobados, pero también podría ocurrir que lleguemos tarde al examen y no nos permitan ingresar a rendirlo, podría ser que no nos alcance el tiempo para completarlo, podría ocurrir que nos acusen de copiar las respuestas y terminemos descalificados, en cualquier caso es prioritario definir a que denominamos error tipo I.

Una forma práctica de poner a prueba nuestra hipótesis es enfocarnos únicamente en la hipótesis alterna o hipótesis del investigador, que es una afirmación anticipada de nuestra proposición, si ocurriera que nos equivocamos habríamos cometido un error denominado error tipo I. Afirmar de manera anticipada la hipótesis, es apostar por la hipótesis alterna lo cual es equivalente a decir que rechazamos la hipótesis nula.

La hipótesis nula es la hipótesis de trabajo, cuando planteamos la relación entre las variables, corresponde a la independencia entre las variables, que es el principio de la probabilidad “dos variables son independientes hasta que se demuestre lo contrario” es por ello que en una prueba de hipótesis debemos descartar la hipótesis nula para quedarnos con la alterna que corresponde a la hipótesis del investigador.

Sin embargo trabajar con la hipótesis nula trae un problema escondido ¿Qué sucede si no rechazamos la hipótesis nula, cuando en realidad debimos rechazarla?. Esto por supuesto también es un error y se denomina erro tipo II, equivalente en el campo jurídico a liberar de prisión a un culpable. El error tipo II se considera más grave que el error tipo I; en el campo de la salud sería, no darle tratamiento a una persona que en realidad está enferma.


3. El p-valor
Continuando con el desarrollo de la prueba de hipótesis, luego de haber definido el concepto de error, pasamos a cuantificar la magnitud del error o la probabilidad de que ocurra el error, por ejemplo la probabilidad de que un procedimiento quirúrgico no sea seguro, la probabilidad de que los vuelos aéreos no sean seguros y la probabilidad de que no aprobemos el examen; a esta probabilidad de equivocarse se le denomina p-valor.

El p-valor, es la probabilidad de equivocarse al aceptar la hipótesis del investigador como verdadera, es decir la probabilidad de cometer un error tipo I, recordemos que el investigador desea probar su hipótesis, de manera realiza una afirmación anticipada de la misma y nunca una negación anticipada de su hipótesis, de tal modo que solo existe la probabilidad de cometer un error tipo I, y nunca la probabilidad de cometer un error tipo II.

¿Cuál será la probabilidad de que una cirugía se complique con una hemorragia intraoperatoria?, por supuesto que nuestro deseo es que la cirugía nunca se complique, sin embargo existe la probabilidad de que esto ocurra y a esta probabilidad se le conoce como p-valor, porque corresponde a la magnitud del error que comentemos cuando afirmamos que la cirugía es segura, por supuesto que esta probabilidad dependerá del tipo de cirugía.

¿Cuál será la probabilidad de que un vuelo aéreo este retrasado?, porque no creo que las compañías aéreas retrasen sus vuelos de manera intencional esto es algo inesperado que nadie desea que ocurra, sin embargo ocurre muy a menudo; la frecuencia con la que los vuelos aéreos se retrasan corresponde al p-valor, porque corresponde a la magnitud del error que cometen los vendedores de tickets aéreos cuando afirman que no habrá retraso en el vuelo.


¿Cuál es la probabilidad de que al rendir un examen terminemos desaprobados?, dado que siempre que rendimos un examen lo hacemos con la intención de aprobarlo, pero puede ocurrir que lo desaprobemos y la probabilidad de que esto ocurra es el p-valor. Por supuesto que esta probabilidad dependerá del grado de preparación que hayamos tenido para rendir el examen, pero siempre habrá la probabilidad de desaprobar.

En nuestro sistema de hipótesis el p-valor es la probabilidad de equivocarse al haberle asignado a la hipótesis el valor de verdad de verdadero; esta probabilidad es muy fácil de calcular en los estudios univariados, porque se trata de una frecuencia como: la frecuencia de hemorragia intraoperatoria, la frecuencia del retraso de los vuelos aéreos y la proporción de alumnos desaprobados.

El p-valor, no es tan sencillo de calcular cuando trabajamos con dos o más variables, felizmente hoy en día contamos con el apoyo del software estadístico que realiza este cálculo por nosotros, de manera que la tarea del investigador no solo se ha simplificado, sino que es más exacto, a diferencia del pasado cuando trabajábamos con aproximaciones, ahora podemos conocer el p-valor con todas sus cifras decimales.

A partir de ahora le tenemos que calcular la probabilidad de error a todas nuestras afirmaciones, y debemos exhibir esta probabilidad para que cada investigador pueda tomar sus propias decisiones en función a la probabilidad del error, por ejemplo si la probabilidad de que una cirugía se complique con hemorragia intraoperatoria es del 2%, esto lo debería conocer el paciente para que dé su consentimiento informado.




4. El nivel de significancia
Todas las decisiones que tomamos diariamente tienen una probabilidad de error, de que sean decisiones equivocadas; sin embargo ejecutamos estas acciones porque creemos que la probabilidad de este error es lo suficientemente baja como para correr el riesgo; entonces surge la necesidad de establecer un límite para este error, por debajo del cual consideramos que nuestras decisiones son acertadas.

Este límite del error que estamos dispuestos a aceptar para dar como válida a la hipótesis del investigador; se conoce como nivel de significancia; y es el límite máximo de error; que estamos dispuestos a aceptar cada vez que tomamos una decisión; para esto hay que recordar que cada decisión que tomamos tiene un margen de error, ya sea una cirugía, un vuelo aéreo o el hecho de rendir un examen.

El nivel de significancia es un concepto integrado a la prueba de la hipótesis, el investigador plantea una proposición, y le asigna el valor de verdad de verdadero, al tomar esta decisión existe la probabilidad de equivocarse (de cometer un error), entonces, decide estimar la probabilidad de cometer este error; y solo podrá afirmar su proposición si el error está por debajo del nivel de significancia.

Así que el siguiente paso natural es establecer nivel de significancia o establecer el límite del error que estamos dispuestos a aceptar para dar como válida nuestra hipótesis, sin embargo el nivel de significancia será distinto en cada caso; así que de manera provisional podríamos plantear un 5% con la consigna de modificar este valor cuando conozcamos más sobre nuestra línea de investigación.

¿Cuál es la máxima probabilidad de hemorragia intraoperatoria que estamos dispuestos a aceptar para decidir realizar la cirugía?, si se trata de una cirugía de urgencia, probablemente aceptemos un 10% de error; pero si se trata de una cirugía estética seremos más exigentes y la cantidad de error que estemos dispuestos a aceptar sea del orden de 0,1%;  por lo tanto, para establecer la máxima cantidad de error, será distinto en cada caso.

¿Cuál es la máxima probabilidad que estarías dispuesto a aceptar en cuanto a los retrasos en los vuelos aéreos?, sobre todo si vas a hacer un transbordo y es el primer vuelo el que se te retrasa, si esa probabilidad es del 10% ¿armarías tu itinerario con solamente 30 minutos para el transbordo?, probablemente no; por supuesto, tomarás las precauciones del caso y planearás un itinerario más holgado.

¿Cuánto de probabilidad de desaprobar un examen estás dispuesto de arriesgar al momento de inscribirte al examen? A diferencia de los dos ejemplos anteriores donde la probabilidad no depende de la persona que se somete a la cirugía o de la persona que decide comprar un boleto aéreo;  en el ejemplo del examen la probabilidad de desaprobar puede modificarse si el alumno decide estudiar con mucho empeño.

El nivel de significancia se define en el momento de la planificación del estudio y está relacionado con la línea de investigación, en cada nivel investigativo; en cada área del conocimiento. El nivel de significancia es un valor convencional o acordado entre los especialistas, que pertenecen a una misma línea de investigación; así, tenemos que la magnitud del error que estamos dispuestos a aceptar para una cirugía de urgencia, no es el mismo al error que estamos dispuestos a aceptar a una cirugía estética.


La ausencia de evidencia no es evidencia de ausencia
Rechazar la hipótesis nula significa aceptar a la hipótesis alterna como verdadera, pero no rechazar la hipótesis nula no significa aceptar la hipótesis nula, que es la interpretación errónea que algunos investigadores le dan a sus resultados cuando no encuentran un p-valor menor al nivel de significancia.

Veamos un ejemplo coloquial, tenemos dos equipos de futbol: el campeón del último mundial y una selección que ni siquiera logró clasificar a estas competencias deportivas; si el equipo campeón juega 5 minutos con el equipo que no pudo lograr su clasificación es muy probable que no se produzca ningún gol, pero esto no significa que el nivel de juego de ambos equipos sea el mismo.

Sabemos que el campeón tiene un nivel de juego mejor que el nivel de juego del equipo que no logró su clasificación; sin embargo no pudimos demostrarlo en estos 5 minutos de juego, entonces no podemos decir que no existen diferencias, lo que sucede es que no pudimos demostrarlas. En este ejemplo la hipótesis alterna es que el campeón tiene un nivel de juego mejor al equipo que no pudo lograr su clasificación; y la hipótesis nula es que el  nivel de juego de estos dos equipos es igual.


Para poder quedarnos con la hipótesis alterna tenemos que rechazar la hipótesis nula, pero 5 minutos de juego son insuficientes para poder demostrar la diferencia, por tanto, no podemos rechazar la hipótesis nula, pero esto no significa que debamos aceptarla, La falta de evidencia no es evidencia de ausencia. La falta de tiempo para demostrar la diferencia en el nivel de juego de estos dos equipos, no es evidencia de que su juego no tenga diferencias.
Seminario
13
LA  HIPÓTESIS ESTADÍSTICA

La hipótesis es una proposición del investigador sobre la cual hay que decidir si es verdadera o falsa; esta proposición se expresa en el enunciado del estudio; de tal modo que la existencia de la hipótesis está directamente relacionada con el enunciado; si el enunciado del estudio es una proposición, el estudio llevará hipótesis, pero si el enunciado del estudio no es una proposición, el estudio no llevará hipótesis.

Existe el mito o la falsa creencia de que los estudios descriptivos no llevan hipótesis; la existencia de la hipótesis en un estudio no está relacionada al tipo de estudio sino a su enunciado. Ejemplo de un estudio descriptivo con hipótesis: la prevalencia de diabetes en la ciudad de Arequipa es mayor al 5%; este enunciado es una proposición, porque puede ser calificado como verdadero o falso, por lo tanto hay que realizar la prueba de hipótesis.

Ahora veamos un ejemplo de estudio analítico sin hipótesis; valor predictivo del Papanicolaou para el diagnóstico de cáncer cervical corroborado con biopsia; aquí no podemos emitir una hipótesis, porque no buscamos saber si es verdadero o falso; sino que deseamos conocer la magnitud del valor predictivo para la prueba diagnóstica, por tanto, el estudio no lleva hipótesis, a pesar de tratarse de un estudio analítico.
1. Formulación gramatical
Desde el punto de vista gramatical, la hipótesis tiene dos partes: fundamento y deducción;  el fundamento es el que nos permite sostener la hipótesis planteada, sin embargo las hipótesis no siempre llevan fundamento: las hipótesis relacionales carecen de fundamento porque nacen de la experiencia del investigador, mientras que las hipótesis explicativas se fundamentan en los antecedentes investigativos.

Las hipótesis sin fundamento
En el desarrollo de una línea de investigación, por lo general las hipótesis aparecen en el nivel investigativo relacional, como en este punto se originan las hipótesis, es de esperar que carezcan de fundamento, porque solo buscan demostrar dependencia probabilística entre los hechos, asociación o correlación; pero en ningún caso plantear relaciones de causalidad.

Podríamos decir que son hipótesis exploratorias, porque lo único que buscan saber es si existe o no existe relación entre variables, esto es asociación o correlación dependiendo de la naturaleza de las variables; esta posible asociación o correlación nace de la percepción subjetiva del investigador; y es que, lo que observa un primer investigador no necesariamente será lo que observa un segundo investigador.

De modo que el argumento o fundamento que emita el investigador para sostener su hipótesis empírica carece de importancia, porque además es subjetiva a su percepción; es por esta razón que algunos investigadores sostienen que en este caso, no es necesario escribir un fundamento para la hipótesis. En este caso de escribir un fundamento, ello no representará una justificación del estudio por su naturaleza subjetiva.


Las hipótesis con fundamento
Cuando planteamos estudios de causa y efecto, donde queremos probar la relación causal entre dos variables necesitamos fundamentar nuestra hipótesis, sobre todo si estamos planeando desarrollar un experimento. Esto es porque en el campo de las ciencias de la salud, la unidad de estudio es un ser humano, y experimentar con humanos solo puede justificarse si tenemos un sólido fundamento o razón para hacerlo.

Por otro lado, un experimento requiere de la inversión de tiempo, recursos y unidades experimentales, las unidades experimentales son eventos que se modifican luego de experimentar con ellas; así que no podemos desarrollar un experimento si no tenemos una razón seria para llevarlo a cabo, este argumento es el fundamento no solo para nuestra hipótesis sino para llevar a cabo el estudio.

En los estudios con intervención, el fundamento es parte de la justificación del estudio, es decir que su función va más allá de sugerir la prueba de hipótesis, sino que es parte de la justificación del estudio, o la razón por la cual decidimos dar un paso más dentro de nuestra línea de investigación, o la razón por la cual planteamos el propósito específico de nuestro estudio.

La deducción
En los estudios en los que se cuenta con una hipótesis, la deducción es el enunciado del estudio escrito en forma afirmativa; dicho de otro modo a nuestro enunciado le otorgamos el valor de verdad de verdadero. La deducción es la hipótesis misma denominada hipótesis del investigador; estadísticamente se refiere a la hipótesis alterna y deber ser sometida a contraste.
2. Formulación lógica
Desde el punto de vista de la lógica proposicional, la hipótesis tiene dos orígenes: empíricas y racionales. David Hume, conocido como el padre del empirismo, sostiene que el conocimiento y por tanto las hipótesis nacen de la experiencia; por otro lado René Descartes, plantea que el conocimiento necesariamente nace del conocimiento previo, que no puede haber conocimiento que se genere espontáneamente.

Las hipótesis empíricas
En el desarrollo natural de una línea de investigación, primero descubrimos y conceptualizamos problemas, luego los cuantificamos, para enseguida buscar los factores asociados o los factores de riesgo que lo estarían condicionando, es en ese punto donde nacen las hipótesis, como es lógico mientras más experiencia tenga el investigador mayor será el número de factores que plantee, el origen de las hipótesis es la experiencia.

La hipótesis empírica por lo general se encuentra en el nivel investigativo relacional; porque son afirmaciones respecto a las relaciones entre dos o más variables, como nacen de la observación y la experiencia, no tienen fundamento, únicamente buscan concordancia entre hechos y generan la necesidad de plantear hipótesis explicativas, son inductivas porque buscan generalizar leyes a partir de la experiencia.

Como la experiencia es muy subjetiva, y la capacidad de observación de un investigador y otro es muy variable, hoy en día podemos apoyarnos en el análisis de las bases de datos, mediante técnicas asociación y clasificación de la minerías de datos, para detectar asociaciones que a simple vista hubieran pasado desapercibidas, en ese caso la razón por la cual planteamos la asociación es una mera exploración de asociaciones.


Las hipótesis racionales

El padre del racionalismo, René Descartes sostiene que las hipótesis deben estar relacionadas con el conocimiento existente, que los nuevos conocimientos deben ser posibles de ser deducidos de los conocimientos previos, por eso, las hipótesis racionales son consideradas deductivas; y tienen que existir antecedentes investigativos para poder sustentarlas, para poder sostenerlas, lo cual constituirá su fundamento.

Lo anteriormente comentado, es completamente compatible con el razonamiento por analogía que plantea Bradford Hill en sus criterios de causalidad: para poder demostrar una relación causal entre dos variables debe existir conocimiento previo, deben existir estudios anteriores que nos ayuden a sostener el nuevo concepto que estamos planteando en calidad de hipótesis.

El concepto de explicación tentativa para definir a la hipótesis es válida únicamente para las hipótesis racionales, que corresponden al nivel investigativo explicativo; donde uno de los criterios de causalidad más importantes después de la asociación y la fuerza de asociación es la experimentación, y esta requiere de una hipótesis fundamentada en los antecedentes investigativos, esto es una hipótesis racional.

La hipótesis racional le prosigue a la hipótesis empírica; esto es que: las variables a las cuales se le plantea una relación de causalidad previamente deben haber demostrado dependencia estadística o probabilística en un estudio anterior, en un estudio donde se planteó una hipótesis empírica, en un nivel investigativo anterior que corresponde al relacional. Demostrada la relación causal, lo que sigue es predecir la consecuencia a partir de la causa.
3. Formulación matemática
Desde el punto de vista matemático la hipótesis tiene dos proposiciones: la hipótesis nula y la hipótesis alterna, correspondientes a los dos valores de verdad que se le pueden asignar a toda proposición; como la hipótesis es una proposición, puede ser calificada como verdadero y falso, lo cual corresponde al juicio de valor al que debe ser sometido toda proposición.

La hipótesis alterna corresponde al valor de verdad de verdadero, y la hipótesis nula corresponde al valor de verdad del falso; por tanto, la hipótesis alterna es la hipótesis del investigador porque esta afirmación es la que el investigador desea probar, y se da por verdadera cuando rechazamos a la hipótesis nula; como existe la posibilidad de que nos equivoquemos tenemos que estimar la probabilidad que esto ocurra.

La hipótesis alterna
Una forma práctica de escribir, sin cometer errores el sistema de hipótesis para nuestro estudio, es escribir en primer lugar la hipótesis alterna, y luego la hipótesis nula; ahora, la forma de escribir la hipótesis alterna o hipótesis del investigador dependerá exclusivamente del objetivo estadístico, porque utilizará la terminología del objetivo y también su intencionalidad.

El objetivo estadístico más frecuentemente utilizado es el objetivo comparativo, en este caso la hipótesis alterna es la que nos dice que hay diferencias entre los grupos; en un estudio de asociación la hipótesis alterna nos dice que existe tal asociación; en un estudio de correlación, la hipótesis alterna afirma la correlación. La hipótesis alterna es la que corresponde a lo que el investigador desea demostrar.



La hipótesis nula
La hipótesis nula es conocida también como la hipótesis de trabajo, porque es la alternativa que se somete a contraste, es decir, que corresponde a la oración que se rechaza o no se rechaza; la hipótesis nula niega la afirmación que plantea el investigador, es exactamente lo opuesto a la hipótesis alterna, se puede expresar utilizando la palabra NO, antes de toda la oración correspondiente a la hipótesis alterna.

¿Por qué existe la hipótesis nula? El principio de la relación entre variables, corresponde al principio de independencia; esto es análogo al principio jurídico que indica que “todos son inocentes hasta que se demuestre lo contrario” en estadística y probabilidad sería “dos variables son independientes hasta que se demuestre lo  contrario”, donde la independencia entre dos variables corresponde a la hipótesis nula.

Como todas las pruebas estadísticas están basadas en supuestos: en un estudio de asociación, el supuesto es la independencia entre los hechos, es la independencia entre las variables, y lo que nosotros debemos hacer es descartar esta independencia, si descartamos la independencia, rechazamos la hipótesis nula, nos quedamos con la alterna, que representa a la dependencia, es decir, a la asociación.

En un estudio comparativo partimos del principio de que los grupos son iguales y debemos descartar este hecho; por eso, todas las pruebas estadísticas se desarrollan en función a la hipótesis nula, y deseamos rechazarla para quedarnos con la hipótesis alterna, que es la hipótesis del investigador; es posible que en este proceso de rechazar la hipótesis nula nos equivoquemos, la tarea de la estadística es estimar la probabilidad de que eso ocurra.


4. Formulación de contraste.
El objetivo estadístico más utilizado es el objetivo comparativo , y habitualmente cuando pensamos en comparar, partimos del principio de que los dos grupos son iguales y debemos descartar este hecho, de manera que es natural que busquemos la diferencia entre los grupos, lo cual corresponde a una hipótesis de dos colas, pero no siempre es así; en ocasiones buscamos demostrar desigualdad a favor de uno de los grupos.

Hipótesis de dos colas (bilateral)
En el desarrollo de la línea de investigación las hipótesis aparecen en el nivel investigativo relacional y las denominamos hipótesis exploratorias, puesto que cuando comparamos dos grupos solo para ver si son diferentes; pero la diferencia tiene dos connotaciones diferentes, puede ser que el primer grupo sea mayor que el segundo o que el primer grupo sea menor que el segundo grupo.

Dentro de la línea de investigación aparecen primero las hipótesis de dos colas, que plantean únicamente diferencias, y pretendemos saber si los dos grupos son diferentes, corresponde al punto de partida para analizar diferencias y habitualmente corresponden al nivel investigativo relacional, dicho de otro modo a las hipótesis que se plantean en los estudios observacionales.

Las primeras comparaciones entre grupos que aparecen en una línea de investigación son hipótesis a dos colas, porque se tratan de hipótesis exploratorias, porque se plantean solo para saber si hay relación entre variables, con esta intención se desarrollan por ejemplo las matrices de correlación, así como la asociación y la clasificación de la minería de datos.


Hipótesis de una cola (unilateral)

Puede parecer que la hipótesis a una sola cola sea más simple que una hipótesis a dos colas; sin embargo por corresponder a un segundo momento de la prueba de hipótesis suele ser algo más compleja que una hipótesis a dos colas, sobre todo cuando trabajamos con objetivos estadísticos distinto al objetivo comparativo.

En los estudios observacionales las hipótesis a una sola cola aparecen en las comparaciones entre medidas, puesto que si comparamos dos medidas de un solo grupo, es porque sospechamos que la segunda medida no solamente es diferente a la primera medida, sino que sospechamos sea menor o mayor dependiendo de las variables involucradas.

En los estudios experimentales, todas las hipótesis son a una sola cola, y este es el error más frecuente que suelen cometer los investigadores noveles, puesto que si realizamos una intervención, buscamos incrementos o disminuciones y no solamente diferencias; por ejemplo si administramos captopril a un grupo de pacientes hipertensos esperamos que la segunda medida de la presión arterial sea menor que la primera medida.

Cuando el objetivo del estudio es comparativo la hipótesis a una sola cola, nos indica que un grupo es mayor que el otro, pero cuando trabajamos con el objetivo asociar, la hipótesis de una sola cola, nos indica direccionalidad, lo cual es más fácil de entender en un estudio de correlación, donde las correlaciones directas o inversas corresponden a hipótesis de una sola cola. En síntesis las medidas de asociación y correlación siempre se aplican con una hipótesis de una sola cola.