La Inteligencia Artificial Generativa ofrece la posibilidad de transformar las evaluaciones, permitiendo un desarrollo de pruebas más rápido, adaptable y escalable, pero estas innovaciones deben implementarse con cautela, asegurando que su eficacia esté alineada con los principios psicométricos fundamentales de fiabilidad, validez y equidad. Así lo concluye un estudio publicado en la revista Psicothema, titulado «Uso de la Inteligencia Artificial en la Construcción de Pruebas: Una Guía Práctica».
El artículo, elaborado por Javier Suárez-Álvarez, de la University of Massachusetts Amherst; Qiwei He, de Georgetown University; Nigel Guenole, de la University of London; y Damiano D’Urso, investigador independiente, propone una guía práctica relacionando los desafíos de validez, fiabilidad y equidad con recomendaciones específicas para una implementación responsable y eficaz de la Inteligencia Artificial (IA) en el desarrollo y elaboración de pruebas.

Foto: Freepik. Autor: Rawpixel.com. Descarga; 10/12/2025
La importancia de conocer los avances de la IA en la construcción de pruebas.
Los autores señalan que, a pesar de que la IA está transformando el diseño, la aplicación y la interpretación de las pruebas educativas y psicológicas, su uso se ha limitado históricamente a grandes corporaciones, con escasa adopción por parte de la comunidad investigadora y profesional. El objetivo del artículo es, precisamente, divulgar los últimos avances tecnológicos a una audiencia más amplia.
Para abordar su objetivo de revisar críticamente las aplicaciones de la IA en la construcción de pruebas y proponer buenas prácticas, los investigadores realizaron una revisión sistemática de la literatura. El análisis se centró en examinar los avances recientes de las aplicaciones basadas en inteligencia artificial en la construcción de pruebas, enfatizando el desarrollo y la calibración de ítems. Además, el equipo incluyó ejemplos prácticos provenientes del mundo real para demostrar cómo se lleva a cabo la implementación de estas tecnologías.
La irrupción de la IA en la evaluación estándar.
La adopción global de la inteligencia artificial, especialmente la generativa (GenAI), avanza a un ritmo sin precedentes. Los autores ejemplifican esta velocidad de cambio al citar que ChatGPT alcanzó 800 millones de usuarios semanales en abril de 2025, un crecimiento que a internet le llevó más de dos décadas lograr. En el ámbito de las evaluaciones educativas y psicológicas, la IA se utiliza crecientemente para mejorar las prácticas tradicionales de evaluación, lo que conlleva un aumento de la eficiencia, una reducción de costes y una facilitación de la escalabilidad.
Tradicionalmente, la construcción de pruebas ha sido un proceso riguroso, pero costoso y lento, que requiere la elaboración manual de ítems por parte de expertos en la materia (SMEs), según exponen los autores. Para mitigar estas deficiencias, los investigadores promueven el uso de la Generación Automatizada de Ítems (AIG), una técnica que permite crear versiones diversas de ítems a partir de plantillas, mejorando la eficiencia de los costes y reduciendo la reutilización de ítems. Sin embargo, tal como señalan los autores, ha sido con los recientes avances tecnológicos en la IA generativa y representacional, mediante el uso de embeddings (representaciones numéricas densas), que estas aproximaciones están comenzando a desarrollar su «pleno potencial operativo».
Los investigadores destacan que los modelos de lenguaje grandes (LLM) —un tipo de modelo de Procesamiento de Lenguaje Natural (NLP) entrenado en texto masivo— pueden mejorar la eficiencia y la calidad respecto a los métodos tradicionales de AIG cuando se utilizan instrucciones (prompts) bien diseñadas (Bezirhan & von Davier, 2023).
Aplicación de la IA Generativa en la construcción de ítems.
Los autores se centran en la AIG debido a sus significativos beneficios en términos de eficiencia de costes y escalabilidad, aunque también reconocen que presenta potenciales amenazas para la fiabilidad, la validez y la equidad. La GenAI, al gestionar tareas repetitivas, está transformando la evaluación educativa, facilitando formatos interactivos como simulaciones y realidad virtual, y permitiendo la calificación automatizada y la retroalimentación instantánea que reducen la carga de trabajo de los profesores.
Para ejemplificar la aplicación de GenAI en el desarrollo de ítems, el estudio presenta un caso de la Evaluación Nacional del Progreso Educativo de Estados Unidos (NAEP) centrado en la generación de pasajes de lectura. En este ejercicio, los investigadores entrenaron modelos de IA utilizando LLM implementados en ChatGPT, Meta AI y Claude. Los autores explican que para refinar la calidad de la generación se empleó un enfoque iterativo de ingeniería de instrucciones (prompt engineering). Inicialmente, las instrucciones generales no lograban una alineación consistente con los rangos esperados de los índices de legibilidad. No obstante, al revisar las instrucciones para cuantificar explícitamente los estándares de legibilidad y detallar el cálculo de los índices, se mejoró la alineación con los niveles de lectura reales.
Según los hallazgos de los autores, entre las tres herramientas, ChatGPT demostró ser la más eficaz en la generación de pasajes. De esta forma, el equipo de investigación concluye que el lenguaje en el pasaje generado por ChatGPT muestra «descripciones más ricas y es altamente consistente con los índices de nivel de grado».
A pesar de los avances, los autores recuerdan que las mejores prácticas requieren una supervisión humana continua. En el ejemplo del NAEP, los desarrolladores de ítems humanos ayudaron a validar los elementos generados. Asimismo, se recomienda enfáticamente utilizar datos simulados o nuevas recolecciones de datos para una validación adicional en estudios futuros.
El Pseudo Análisis Factorial para la calibración psicológica.
La Inteligencia Artificial Generativa también ha abierto nuevas vías para la evaluación psicológica, particularmente a través de la calibración de ítems. El texto resalta el uso de la Representational Artificial Intelligence a través de embeddings (vectores numéricos que codifican el significado del texto).
Estos embeddings se utilizan en el método de Pseudo Análisis Factorial (PFA) para examinar la estructura factorial de los ítems incluso antes de que se recojan datos de respuesta reales. El PFA se fundamenta en la «suposición de sustituibilidad» (substitutability assumption), que establece que el vector embedding de una afirmación de ítem puede reemplazar un vector de respuesta empírica bajo ciertas condiciones.
Los investigadores explican que el PFA implica crear una matriz de similitud de coseno entre los embeddings de los ítems y luego someter dicha matriz a un análisis factorial, tal como se analizaría una matriz de correlación de respuestas humanas. En el caso real de la calibración de una escala de fundamentos morales, los autores demuestran que el PFA puede ser un «método eficaz sin datos» para obtener un conocimiento previo de los ítems durante el desarrollo de la escala.
Guía práctica para la implementación responsable de la IA.
El estudio culmina proponiendo una guía práctica de diez directrices vinculadas a las etapas de desarrollo y calibración, con el fin de maximizar la validez, la fiabilidad y la equidad en la implementación de la IA para el desarrollo de pruebas.
Para el desarrollo de pruebas, los expertos recomiendan:
(1) Asegurar la calidad y consistencia de los datos de entrenamiento, puesto que todos los materiales deben someterse a una revisión rigurosa; (2) Alinear el uso de la IA con el propósito previsto y el tipo de tarea (ej., los modelos destacan en tareas lógicas o basadas en reglas, pero no en contenido emocional o de ficción); (3) Comparar múltiples modelos de IA para garantizar resultados consistentes y fiables; (4) Aplicar un enfoque de validación estandarizado; y (5) Verificar y validar los ítems generados, lo cual requiere un control adicional para abordar la naturaleza de «caja negra» de la IA en comparación con el desarrollo tradicional de evaluaciones.
Para la calibración de ítems, se aconseja:
(6) Usar codificadores de oraciones para establecer la validez semántica del constructo; (7) Aplicar estrategias de ingeniería de instrucciones (prompt engineering) para la generación de ítems (optando por instrucciones guiadas o few-shot prompting para mayor precisión, o zero-shot prompting para más creatividad); (8) Realizar la alineación semántica de los ítems; (9) Usar el análisis factorial basado en embeddings con refinamiento iterativo para la selección de ítems; y (10) Usar técnicas exploratorias libres de modelo para evaluar el ajuste del Pseudo Análisis Factorial, dado que no hay un tamaño de muestra disponible para las pruebas de ajuste tradicionales.
Abordando los riesgos: validez, fiabilidad y equidad.
Los autores argumentan que para aprovechar plenamente los beneficios de la IA es esencial comprender y abordar sus limitaciones.
Validez y el problema de la “Caja Negra”.
Una preocupación central de la validez es la falta de transparencia en cómo los grandes modelos de IA realizan sus predicciones. Esto se conoce como el problema de la «caja negra». Los modelos de IA basados en datos no permiten el mismo escrutinio basado en el principio de falsabilidad de Karl Popper que sí permiten los métodos basados en la teoría. Las directrices del estudio abordan esto estableciendo métodos sistemáticos para verificar la alineación del output con los constructos previstos, lo que ayuda a hacer más transparente el proceso de toma de decisiones de la IA.
Fiabilidad y el problema de la “Alucinación”.
Otra gran amenaza es la falta de fiabilidad. Los modelos de IA pueden producir errores, responder de manera inconsistente o tener dificultades con el razonamiento abstracto, problemas que se engloban bajo el término de «alucinaciones». Esto se mitiga, según los autores, con directrices que fomentan la alineación tarea-modelo, la comparación entre múltiples modelos y el uso de la ingeniería de instrucciones para reducir la variabilidad y aumentar la consistencia de los ítems generados.
Equidad y la “Brecha de Alineación”.
La equidad se ve comprometida cuando los modelos preentrenados son utilizados sin examinar la sensibilidad cultural de los datos con los que fueron entrenados, una situación que refleja una «brecha de alineación». Los investigadores enfatizan que la supervisión humana y la revisión son cruciales para garantizar la adecuación y relevancia cultural de los ítems. Las directrices buscan que los constructos estén claramente definidos y fundamentados culturalmente para reducir el riesgo de una representación sesgada.
Seguridad y Privacidad de Datos.
Además de los aspectos psicométricos, los autores señalan que las herramientas dirigidas al consumidor, como la versión gratuita de ChatGPT, pueden usar las entradas y respuestas enviadas para seguir entrenando sus modelos. Esto plantea riesgos éticos y de seguridad si se ingresa contenido sensible. La solución pasa por implementar prácticas sólidas de gobernanza de datos que protejan la información sensible y que eviten el uso de herramientas abiertas que puedan reutilizar los datos de entrada, tal y como sugieren los autores.
Los autores concluyen que, si bien la IA generativa promete transformar la evaluación, su eficacia depende de su alineación con los principios psicométricos fundamentales, requiriendo un equilibrio entre innovación, estándares empíricos rigurosos y consideraciones éticas.
Fuente.
Suárez-Álvarez, J., He, Q., Guenole, N., & D´Urso, D. (2026). Using artificial intelligence in test construction: A practical guide. Psicothema, 38(1), 1-12. https://doi.org/10.70478/psicothema.2026.38.
