lunes, 1 de noviembre de 2021

Procedimiento de validez y confiabilidad de los instrumentos

 

La validez es la cualidad de un instrumento que permite afirmar que éste cumple al menos tres condiciones: que mide realmente el evento que pretende medir, que mide todos los aspectos que conforman el evento que se pretende medir, y que mide exclusivamente el evento que se desea medir, sin que se filtren características de otros eventos (Thorndike, 1980).

La validez se logra inicialmente en el proceso de construcción del instrumento, pero luego existen algunas técnicas para corroborar que se logró realmente un índice aceptable de validez, y que además proporciona información sobre algunos aspectos que habría que modificar en el instrumento en caso de que este índice no se logre. Para construir un instrumento válido es necesario comprender que cada atributo de la validez corresponde a un tipo particular de ésta y se logra mediante ciertos procedimientos.


Validez de Constructo




La validez de constructo se va configurando en el proceso de elaboración del instrumento, cuando se crea la tabla de operacionalización, en la medida que se identifican sinergias e indicios pertinentes al concepto del evento. Si este proceso no se cumple adecuadamente, cualquier técnica de validación que se aplique arrojará que el instrumento no es válido.

Un constructo es un concepto. Por lo tanto, la validez de constructo parte del principio de que el investigador, cuando formula su pregunta de investigación escoge los eventos que pretende estudiar, y durante la elaboración de su fundamentación teórica precisa cómo los va a definir. Estos conceptos, que en realidad son abstracciones del investigador o de un grupo de teóricos, se denominan constructos (Nunnally, 1987). Un instrumento tiene validez de constructo cuando sus ítems están en correspondencia con las sinergias -o dimensiones- y con los indicios que se derivan del concepto del evento que se va a medir.

 

Validez de Contenido

 

En este tipo de validez se responde a la siguiente pregunta. ¿Los ítems que constituyen el test son realmente una muestra representativa del dominio de contenido o dominio conductual que nos interesa? Para que nos entendamos, un dominio o campo conductual es una agrupación hipotética de todos los ítems posibles que cubren un área psicológica particular. Por ejemplo, un test de vocabulario debe ser una muestra adecuada del dominio de ítem posibles en esta área.

 

En este sentido, la validez de contenido es una “medida” de lo adecuado del muestreo. Se dice “medida” entre comillas, ya que este tipo de validez consiste en una serie de estimaciones u opiniones. Estas estimaciones no proporcionan un índice cuantitativo de validez.

 


Validez aparente

 

La validez aparente, como su nombre indica, mide cuán representativo es un proyecto de investigación "en apariencia" y si parece ser un buen proyecto o no.

 

Se basa en el principio de analizar el proyecto y evaluar la viabilidad de la investigación, con poca medida objetiva. Si bien la validez aparente, a veces denominada validez de representación, es una medida débil de validez, su importancia no puede ser subestimada. Este enfoque de "sentido común" a menudo ahorra un montón de tiempo, recursos y esfuerzo.

 

En muchos sentidos, la validez aparente se compara con la validez de contenido, que trata de medir el grado en que un experimento representa lo que está tratando de medir. La diferencia es que la validez de contenido es evaluada con cuidado, mientras que la validez aparente es una medida más general y los sujetos a menudo hacen su aporte.

 

La validez aparente es clasificada como "evidencia débil" que apoya la validez de constructo, pero eso no significa que no sea correcta, sólo que debes tener cuidado.

 

Por ejemplo, imagina un artículo de investigación sobre el Calentamiento Global. Una persona común puede leerlo y pensar que se trata de un experimento fuerte que destaca los procesos detrás del Calentamiento Global. Por el contrario, un profesor de climatología distinguido podría leerlo y considerar que el artículo y el razonamiento detrás de las técnicas son muy precarios. Este ejemplo muestra la importancia de la validez aparente como un filtro útil para eliminar la mala investigación del campo de la ciencia a través de la revisión de colegas.

 


Confiabilidad de Consistencia Interna

 

La fiabilidad de la consistencia interna define la consistencia de los resultados de una prueba, garantizando que los diversos elementos que miden los diferentes constructos brinden resultados consistentes.

Por ejemplo, una prueba de inglés se divide en vocabulario, ortografía, puntuación y gramática. La prueba de fiabilidad de la consistencia interna arroja una medida que indica que cada una de estas diferentes aptitudes es medida correcta y fiablemente.

Una manera de probar esto es mediante un método de prueba y repetición, en donde se administra la misma prueba después de la prueba inicial y se comparan los resultados. Sin embargo, esto crea algunos problemas y por eso muchos investigadores prefieren medir la consistencia interna incluyendo dos versiones del mismo instrumento en la misma prueba. Nuestro ejemplo de la prueba de inglés podría incluir dos preguntas muy similares sobre el uso de la coma, dos sobre ortografía, etc.

 

El principio básico es que el estudiante debe dar la misma respuesta a ambas. Si no sabe cómo utilizar la coma responderá mal las dos veces. Algunas manipulaciones estadísticas ingeniosas aportarán la fiabilidad de la consistencia interna y permitirán que el investigador evalúe la fiabilidad de la prueba.

 


Pruebas Paralelas

Consiste en comparar las notas de dos pruebas muy similares (paralelas), de modo que la correlación entre ambas revela el coeficiente de fiabilidad. No obstante, la dificultad de este método estriba, precisamente, en redactar dos pruebas que sean efectivamente paralelas.

 

 

Prueba de división por mitades

La prueba de división por mitades para la fiabilidad de la consistencia interna es el tipo más fácil y consiste en dividir una prueba en dos mitades.

Por ejemplo, un cuestionario para medir la extroversión podría dividirse en preguntas pares e impares. Los resultados de ambas mitades son analizados estadísticamente y si la correlación entre las dos es débil, entonces la prueba tiene un problema de fiabilidad.

La prueba de división por mitades da una medida entre 0 y 1, en donde 1 significa una correlación perfecta.

La división de la pregunta en dos partes debe ser al azar. Las pruebas de división por mitades era una forma popular de medir la fiabilidad, por su simplicidad y velocidad.

Sin embargo, en la era en donde las computadoras se ocupan de todos los cálculos, los científicos tienden a usar pruebas mucho más poderosas.


Prueba Alpha de Cron Bach

La prueba Alpha de Cron Bach no sólo promedia la correlación entre todas las combinaciones posibles de división por mitades, sino que permite respuestas de varios niveles.

Por ejemplo, una serie de preguntas podría pedir a los sujetos que calificaran su respuesta entre 1 y 5. Alpha de Cron Bach da una puntuación entre 0 y 1, en donde 0,7 es generalmente aceptado como un signo de fiabilidad aceptable.

La prueba también tiene en cuenta el tamaño de la muestra y el número de respuestas posibles. Se considera que tiene mayor precisión una prueba de 40 preguntas con calificaciones posibles entre 1 y 5 que una prueba de 10 preguntas con 3 niveles posibles de respuesta.

Por supuesto, incluso con la metodología inteligente de Cron Bach, lo que hace mucho más sencillo el cálculo en lugar de enloquecerse con cada permutación posible, sigue siendo mejor dejar esta prueba para las computadoras y los programas de hojas de cálculo estadísticos.


Prueba de Kuder-Richardson

La prueba de Kuder-Richardson para la fiabilidad de la consistencia interna es una versión más avanzada, y un poco más compleja, de la prueba de división por mitades.

En esta versión, la prueba calcula la correlación promedio de todas las combinaciones posibles de división por mitades en una prueba. La prueba de Kuder-Richardson también genera una correlación entre 0 y 1, con un resultado más exacto que la prueba de división por mitades. La debilidad de este enfoque, al igual que la división por mitades, es que la respuesta a cada pregunta debe ser una simple respuesta correcta o incorrecta, de 0 o 1.

En el caso de respuestas a escala múltiple, se requieren técnicas sofisticadas para medir la fiabilidad de la consistencia interna.


Test - Retest

supone administrar la misma prueba dos veces a los mismos sujetos, de forma que, si ésta es fiable, los aprendientes obtienen los mismos resultados en ambas ocasiones. Se trata de un método poco usado, dado que los alumnos pueden haber adquirido nuevos conocimientos durante el intervalo, haberse acostumbrado al método o, simplemente, hallarse fatigados durante la realización de una de las dos pruebas, de forma que es posible obtener resultados distintos entre ambas, debido a factores aleatorios.


Ejemplo de Validez de Criterio de Acción

 

Una empresa de encuestas desarrolla una prueba que cree que ubica a la gente en la escala política, en base a una serie de preguntas que establecen si la persona se inclina hacia la derecha o hacia la izquierda.

Con esta prueba, esperan predecir cómo va a votar la gente. Para evaluar la validez de criterio de la prueba, realizan un estudio piloto y eligen sólo miembros de los partidos políticos de izquierda y de derecha.

Si la prueba tiene una validez concurrente alta, los miembros del partido de izquierda deberían recibir puntuaciones que reflejen su ideología de izquierda. Del mismo modo, los miembros del partido de derecha deben recibir puntuaciones que indiquen que se encuentran a la derecha.

Si esto no sucede, entonces la prueba es defectuosa y necesita ser rediseñada. Si funciona, los investigadores pueden asumir que su prueba tiene una base sólida y que la validez de criterio es alta.

La mayoría de los encuestadores no se detiene allí y en unos pocos meses, cuando se cuenten los votos de las elecciones, les preguntarán a los sujetos cómo votaron realmente.

Esta validez predictiva les permite verificar dos veces su prueba, con una alta correlación que indique nuevamente que han desarrollado una prueba sólida de la ideología política.


No hay comentarios.:

Publicar un comentario

La Población o unidades de estudio

  No siempre, pero en la mayoría de las situaciones en investigación, sí se realizas el estudio en una muestra. Sólo cuando queremos efectua...