La
validez es la cualidad de un instrumento que permite afirmar que éste cumple al
menos tres condiciones: que mide realmente el evento que pretende medir, que
mide todos los aspectos que conforman el evento que se pretende medir, y que
mide exclusivamente el evento que se desea medir, sin que se filtren
características de otros eventos (Thorndike, 1980).
La validez se logra inicialmente en el proceso de construcción del instrumento, pero luego existen algunas técnicas para corroborar que se logró realmente un índice aceptable de validez, y que además proporciona información sobre algunos aspectos que habría que modificar en el instrumento en caso de que este índice no se logre. Para construir un instrumento válido es necesario comprender que cada atributo de la validez corresponde a un tipo particular de ésta y se logra mediante ciertos procedimientos.
Validez de Constructo
La validez de constructo se va configurando en el proceso de elaboración del instrumento, cuando se crea la tabla de operacionalización, en la medida que se identifican sinergias e indicios pertinentes al concepto del evento. Si este proceso no se cumple adecuadamente, cualquier técnica de validación que se aplique arrojará que el instrumento no es válido.
Un constructo es un concepto. Por lo tanto, la validez
de constructo parte del principio de que el investigador, cuando
formula su pregunta de investigación escoge los eventos que pretende estudiar,
y durante la elaboración de su fundamentación teórica precisa cómo los va a
definir. Estos conceptos, que en realidad son abstracciones del investigador o
de un grupo de teóricos, se denominan constructos (Nunnally,
1987). Un instrumento tiene validez de constructo cuando sus ítems están en
correspondencia con las sinergias -o dimensiones- y con los indicios que se
derivan del concepto del evento que se va a medir.
Validez de Contenido
En este tipo de validez se responde a la siguiente pregunta. ¿Los ítems que constituyen el test son realmente una muestra representativa del dominio de contenido o dominio conductual que nos interesa? Para que nos entendamos, un dominio o campo conductual es una agrupación hipotética de todos los ítems posibles que cubren un área psicológica particular. Por ejemplo, un test de vocabulario debe ser una muestra adecuada del dominio de ítem posibles en esta área.
En este sentido, la validez de contenido es una “medida” de lo
adecuado del muestreo. Se dice “medida” entre comillas, ya
que este tipo de validez consiste en una serie de estimaciones u opiniones. Estas estimaciones no proporcionan un índice cuantitativo
de validez.
Validez aparente
La
validez aparente, como su nombre indica, mide cuán representativo es un
proyecto de investigación "en apariencia" y si parece ser un buen
proyecto o no.
Se
basa en el principio de analizar el proyecto y evaluar la viabilidad de la
investigación, con poca medida objetiva. Si bien la validez aparente, a veces
denominada validez de representación, es una medida débil de validez, su
importancia no puede ser subestimada. Este enfoque de "sentido común"
a menudo ahorra un montón de tiempo, recursos y esfuerzo.
En
muchos sentidos, la validez aparente se compara con la validez de contenido,
que trata de medir el grado en que un experimento representa lo que está
tratando de medir. La diferencia es que la validez de contenido es evaluada con
cuidado, mientras que la validez aparente es una medida más general y los
sujetos a menudo hacen su aporte.
La
validez aparente es clasificada como "evidencia débil" que apoya la
validez de constructo, pero eso no significa que no sea correcta, sólo que
debes tener cuidado.
Por
ejemplo, imagina un artículo de investigación sobre el Calentamiento Global.
Una persona común puede leerlo y pensar que se trata de un experimento fuerte
que destaca los procesos detrás del Calentamiento Global. Por el contrario, un
profesor de climatología distinguido podría leerlo y considerar que el artículo
y el razonamiento detrás de las técnicas son muy precarios. Este ejemplo
muestra la importancia de la validez aparente como un filtro útil para eliminar
la mala investigación del campo de la ciencia a través de la revisión de
colegas.
Confiabilidad de
Consistencia Interna
La fiabilidad de la consistencia interna define la
consistencia de los resultados de una prueba, garantizando que los diversos
elementos que miden los diferentes constructos brinden resultados consistentes.
Por ejemplo, una prueba de inglés se divide en
vocabulario, ortografía, puntuación y gramática. La prueba de fiabilidad de la
consistencia interna arroja una medida que indica que cada una de estas
diferentes aptitudes es medida correcta y fiablemente.
Una manera de probar esto es mediante
un método de prueba y repetición, en donde se administra la
misma prueba después de la prueba inicial y se comparan los resultados. Sin
embargo, esto crea algunos problemas y por eso muchos investigadores prefieren
medir la consistencia interna incluyendo dos versiones del mismo instrumento en
la misma prueba. Nuestro ejemplo de la prueba de inglés podría incluir dos
preguntas muy similares sobre el uso de la coma, dos sobre ortografía, etc.
El principio básico es que el estudiante
debe dar la misma respuesta a ambas. Si no sabe cómo utilizar la coma
responderá mal las dos veces. Algunas manipulaciones estadísticas ingeniosas aportarán la fiabilidad de la
consistencia interna y permitirán que el investigador evalúe la fiabilidad de
la prueba.
Pruebas Paralelas
Consiste en comparar las notas de dos
pruebas muy similares (paralelas), de modo que la correlación entre ambas
revela el coeficiente de fiabilidad. No obstante, la dificultad de este método
estriba, precisamente, en redactar dos pruebas que sean efectivamente
paralelas.
Prueba de división por mitades
La prueba de división por mitades para la fiabilidad de la consistencia interna es el tipo más fácil y consiste en dividir una prueba en dos mitades.
Por ejemplo, un cuestionario para medir la extroversión podría dividirse en preguntas pares e impares. Los resultados de ambas mitades son analizados estadísticamente y si la correlación entre las dos es débil, entonces la prueba tiene un problema de fiabilidad.
La prueba de división por mitades da una medida entre 0 y 1, en donde 1 significa una correlación perfecta.
La división de la pregunta en dos partes
debe ser al azar. Las pruebas de división por mitades era una forma popular de
medir la fiabilidad, por su simplicidad y velocidad.
Sin embargo, en la era en donde las
computadoras se ocupan de todos los cálculos, los científicos tienden a usar
pruebas mucho más poderosas.
Prueba Alpha de Cron Bach
La prueba Alpha de Cron Bach no sólo promedia la
correlación entre todas las combinaciones posibles de división por mitades,
sino que permite respuestas de varios niveles.
Por ejemplo, una serie de preguntas podría pedir a los
sujetos que calificaran su respuesta entre 1 y 5. Alpha de Cron Bach da una
puntuación entre 0 y 1, en donde 0,7 es generalmente aceptado como un signo de
fiabilidad aceptable.
La prueba también tiene en cuenta el tamaño de la
muestra y el número de respuestas posibles. Se considera que tiene mayor
precisión una prueba de 40 preguntas con calificaciones posibles entre 1 y 5
que una prueba de 10 preguntas con 3 niveles posibles de respuesta.
Por supuesto, incluso con la metodología inteligente
de Cron Bach, lo que hace mucho más sencillo el cálculo en lugar de
enloquecerse con cada permutación posible, sigue siendo mejor dejar esta prueba
para las computadoras y los programas de hojas de cálculo estadísticos.
Prueba de Kuder-Richardson
La prueba de Kuder-Richardson para la fiabilidad de la
consistencia interna es una versión más avanzada, y un poco más compleja, de la
prueba de división por mitades.
En esta versión, la prueba calcula la correlación
promedio de todas las combinaciones posibles de división por mitades en una
prueba. La prueba de Kuder-Richardson también genera una correlación entre 0 y
1, con un resultado más exacto que la prueba de división por mitades. La
debilidad de este enfoque, al igual que la división por mitades, es que la
respuesta a cada pregunta debe ser una simple respuesta correcta o incorrecta,
de 0 o 1.
En el caso de respuestas a escala múltiple, se
requieren técnicas sofisticadas para medir la fiabilidad de la consistencia
interna.
Test
- Retest
supone administrar la misma prueba dos
veces a los mismos sujetos, de forma que, si ésta es fiable, los aprendientes
obtienen los mismos resultados en ambas ocasiones. Se trata de un método poco
usado, dado que los alumnos pueden haber adquirido nuevos conocimientos durante
el intervalo, haberse acostumbrado al método o, simplemente, hallarse fatigados
durante la realización de una de las dos pruebas, de forma que es posible
obtener resultados distintos entre ambas, debido a factores aleatorios.
Ejemplo de Validez
de Criterio de Acción
Una empresa de encuestas
desarrolla una prueba que cree que ubica a la gente en la escala política, en
base a una serie de preguntas que establecen si la persona se inclina hacia la
derecha o hacia la izquierda.
Con esta prueba, esperan predecir cómo va a votar
la gente. Para evaluar la validez de criterio de la prueba, realizan un estudio
piloto y eligen sólo miembros de los partidos políticos de izquierda
y de derecha.
Si la prueba tiene una validez concurrente alta, los miembros del partido de izquierda deberían recibir puntuaciones que reflejen su ideología de izquierda. Del mismo modo, los miembros del partido de derecha deben recibir puntuaciones que indiquen que se encuentran a la derecha.
Si esto no sucede, entonces la prueba es defectuosa y necesita ser rediseñada. Si funciona, los investigadores pueden asumir que su prueba tiene una base sólida y que la validez de criterio es alta.
La
mayoría de los encuestadores no se detiene allí y en unos pocos meses, cuando
se cuenten los votos de las elecciones, les preguntarán a los sujetos cómo
votaron realmente.
Esta validez
predictiva les permite verificar dos veces su prueba, con una alta
correlación que indique nuevamente que han desarrollado una prueba sólida de la
ideología política.
No hay comentarios.:
Publicar un comentario