Pruebas Exploratorias: La Habilidad que la IA No Puede Reemplazar

Los tests con scripts verifican el comportamiento que alguien pensó en especificar. El testing exploratorio encuentra el bug donde seleccionar 200 ítems del catálogo, navegar a otra página, volver y seleccionar de nuevo envía cambios a 400 ítems porque nadie especificó qué pasa con el estado de selección oculto. Esta guía cubre cómo la gestión de sesiones basadas en tiempo estructura la exploración sin transformarla en scripts, qué heurísticas señalan hacia los problemas, y tres técnicas de tour que consistentemente detectan fallos que el suite de automatización no puede encontrar.

Qué es realmente el testing exploratorio

La definición que mejor se sostiene es la de James Bach y Michael Bolton: el testing exploratorio es aprendizaje, diseño de tests y ejecución simultáneos. No haces estas cosas en secuencia. Las haces todas al mismo tiempo, en tiempo real.

Con el testing con scripts, alguien escribe el caso de prueba primero y un tester lo ejecuta después, a menudo con días o semanas de diferencia. La persona que diseña el test y la que lo ejecuta puede que ni siquiera sea la misma. En el testing exploratorio no hay brecha entre esas actividades. Lo que descubres en los primeros cinco minutos da forma a dónde vas en los próximos cinco. El test evoluciona a medida que aprendes.

No es una forma inferior de testing. Es un modo cognitivo completamente diferente. El testing con scripts es excelente para la verificación: confirmar que el comportamiento conocido sigue funcionando. El testing exploratorio es excelente para el descubrimiento: encontrar comportamientos que nadie pensó en escribir un script.

Un ejemplo concreto: tu equipo lanza una nueva funcionalidad de edición masiva para un catálogo de productos. Los tests con scripts cubren seleccionar ítems, aplicar un cambio, confirmar el guardado. Durante una sesión exploratoria, seleccionas 200 ítems, empiezas a editar, luego navegas a otra página sin guardar. Cuando vuelves y seleccionas ítems de nuevo, la selección anterior sigue activa en un estado oculto. Al enviar el formulario ahora se aplican cambios a 400 ítems. Nadie especificó ese escenario. Ningún script lo verificó. Tu curiosidad lo detectó.

El testing exploratorio no se opone al testing con scripts. Una estrategia de testing saludable usa los dos. Los tests con scripts dan cobertura de regresión a velocidad. El testing exploratorio encuentra lo que los scripts no sabían que buscar.

Por qué los tests con scripts y los exploratorios resuelven problemas diferentes

Si envías al mismo tester a ejecutar un script de regresión de 50 pasos cada sprint, deja de ver la aplicación. Está leyendo una lista y haciendo clic. La carga cognitiva cae casi a cero, lo que significa que la detección de bugs también, a menos que el bug resulte intersectar exactamente con un paso del script.

El testing exploratorio exige atención plena. Formulas hipótesis, intentas refutarlas y reaccionas a lo que encuentras. "Este dropdown carga lento. Me pregunto qué pasa si envías el formulario antes de que termine de cargarse." Ese pensamiento no aparece en ningún documento de casos de prueba. Aparece porque estás pensando mientras testeas.

La distinción importa para planificar el trabajo de testing. Cuando heredas una funcionalidad estable con buena cobertura de automatización, la regresión con scripts es la herramienta correcta. Cuando miras una funcionalidad recién construida, una integración con terceros, o cualquier cosa que toque múltiples partes del sistema de formas no obvias, el testing exploratorio encuentra lo que el testing con scripts no ve.

Ningún enfoque es superior. Elegir el correcto, o la combinación correcta, es la habilidad.

Gestión de sesiones basadas en tiempo: estructura sin rigidez

La exploración no estructurada es donde la crítica de "hacer clic al azar" tiene algo de verdad. Si abres una aplicación sin ningún objetivo, sin límite de tiempo y sin registro de lo que hiciste, cubrirás el mismo terreno repetidamente, perderás áreas enteras y no tendrás nada útil para mostrar al final.

La Gestión de Sesiones Basadas en Tiempo (GSBT), desarrollada por Jonathan y James Bach, resuelve esto sin convertir la exploración en testing con scripts.

La unidad central es una sesión de test: un bloque de testing ininterrumpido, generalmente de 60 a 90 minutos, con tres componentes.

La carta de sesión define la misión. No es un caso de prueba, es una pregunta enfocada. "Explorar la funcionalidad de exportación de facturas prestando atención a los casos límite en pedidos con múltiples monedas." Eso es una carta. Te dice dónde empezar y qué tener en cuenta, pero no dicta tu camino. Puedes y deberías seguir hilos interesantes a medida que aparecen.

La caja de tiempo mantiene las sesiones honestas. 90 minutos de exploración enfocada es significativamente más productivo que cuatro horas de deriva. La restricción fuerza la priorización. Si solo tienes 90 minutos, vas primero hacia las áreas de mayor riesgo.

El debriefing es donde se captura el valor de la sesión. Después de la sesión, dedicas 10-15 minutos a resumir qué cubriste, qué encontraste, a qué no llegaste y qué preguntas quedan. Este output es lo que hace visible el testing exploratorio para el resto del equipo.

En la práctica, una carta para un flujo de pago podría ser: "Explorar el comportamiento del checkout cuando los usuarios cambian métodos de pago a mitad de la sesión, con foco en el manejo de errores y la gestión de estado." Le pones un tiempo límite de 60 minutos, testeas con intención, luego haces el debriefing. Las notas resultantes son tu entregable: no un reporte de pasa/falla, sino un mapa de lo que aprendiste.

Lleva un registro simple de GSBT en un documento compartido o tabla de Notion: carta, tester, fecha, duración, bugs encontrados, áreas no cubiertas. Con el tiempo construye una imagen de tu cobertura más honesta que cualquier plan de tests con scripts.

Heurísticas que guían dónde buscar

Los testers exploratorios experimentados no deambulan. Siguen heurísticas: atajos mentales que señalan hacia áreas con probabilidad de contener problemas.

La heurística SFDPOT (desarrollada por James Bach) te da seis lentes: Estructura, Función, Datos, Plataforma, Operaciones y Tiempo. Aplicadas a una nueva funcionalidad, te preguntas: ¿la estructura del modelo de datos crea vulnerabilidades? ¿Qué pasa en los límites de las entradas aceptadas? ¿El comportamiento cambia en diferentes plataformas o navegadores? ¿Qué pasa cuando esto corre bajo carga, o cuando se interrumpe un proceso dependiente del tiempo?

No aplicas las seis a cada sesión. Las usas como disparadores cuando sientes que se te agotan las ideas.

Las personas usuarias funcionan junto a las heurísticas. Un usuario avanzado que memorizó los atajos de teclado interactúa con un producto de forma muy diferente a alguien que lo abre por primera vez. Un usuario con conexión de red lenta tropieza con casos límite distintos a alguien con fibra óptica. Encarnar una persona específica mantiene coherente tu exploración y te ayuda a descubrir modos de fallo específicos de esa persona.

Las áreas de riesgo son la tercera guía. El código nuevo tiene más bugs que el viejo. Las integraciones entre sistemas tienen más bugs que cualquiera de los sistemas por separado. Las funcionalidades con estado complejo (wizards de múltiples pasos, carritos de compra, formularios con lógica condicional) tienen más bugs que las pantallas CRUD simples. Apunta tu exploración ahí primero.

Técnicas de tour: tres que dan resultados de inmediato

Cem Kaner introdujo la idea de aplicar metáforas de turismo al testing exploratorio, luego expandida por Michael Kelly. Tres tours vale la pena conocer a fondo.

El tour de funcionalidades es una cobertura sistemática de las capacidades de una funcionalidad, pero abordada con curiosidad en lugar de una checklist. Visitas cada habitación del edificio (cada función principal, cada punto de interacción) no para confirmar que funciona, sino para entenderla lo suficientemente bien como para saber dónde profundizar. En un nuevo módulo de reportes, esto significa generar cada tipo de reporte, aplicar cada filtro, exportar en cada formato disponible. No para verificarlos, sino para mapear el territorio.

El tour de complejidad busca interacciones entre funcionalidades. Buscas lugares donde dos sistemas se tocan de formas que quizás no fueron diseñadas juntas. Un formulario de pago que también aplica códigos de descuento es más complejo que cualquiera de los dos solos. Una acción del panel de administración que desencadena un email de notificación es más compleja que cualquiera de los dos solos. Testeas la costura. En una herramienta de gestión de proyectos, esto podría ser: crear una tarea, asignarla a un usuario, luego desactivar inmediatamente ese usuario. ¿Qué pasa con la tarea? ¿El campo de usuario asignado maneja graciosamente una referencia ahora inválida?

El tour de interrupción testea la resiliencia. Conexiones lentas. Navegación a mitad de proceso. Botón de retroceso del navegador durante el envío de un formulario. Cerrar una pestaña durante la carga de un archivo. Timeout de sesión en medio del checkout. Las aplicaciones modernas manejan bien el camino feliz. El tour de interrupción busca todo lo que pasa cuando el usuario no se comporta como el camino feliz asume. Un wizard de incorporación de tres pasos que funciona perfectamente cuando se completa normalmente puede perder completamente el estado si el usuario hace clic en el botón de retroceso del navegador entre el paso dos y el tres.

Documentar hallazgos sin frenar el flujo

Lo peor que puedes hacer durante una sesión exploratoria es detenerte para escribir un reporte formal de bug. Rompes tu modelo mental, pierdes el hilo del pensamiento y pasas el resto de la sesión en un modo cognitivo diferente.

La solución es la separación: capturas durante la sesión, formalizas después.

Durante la sesión, quieres notas rápidas y descartables. Post-its en un escritorio físico. Una nota de borrador corriendo en VS Code o el Bloc de notas. Anotaciones breves mientras tomas capturas de pantalla. El objetivo es suficiente información para reconstruir lo que encontraste, no un reporte pulido.

Las capturas de pantalla deben anotarse de inmediato con una sola flecha de señalamiento antes de seguir adelante. La anotación te dice en dos días por qué tomaste esta captura. Sin ella, una captura de un filtro dropdown roto es solo una captura.

Loom (o cualquier grabador de pantalla) vale la pena para cualquier cosa que involucre una secuencia de pasos. Grabá los pasos, narrá qué estás haciendo y por qué es inesperado, y guardá el enlace en tus notas de borrador. Un Loom de 90 segundos de una reproducción vale más que un reporte de bug de 400 palabras, y lleva menos tiempo crear.

Después de la sesión, revisas tus notas de borrador y decides qué hallazgos merecen reportes formales de bug. La mayoría de las sesiones exploratorias producen una mezcla de bugs confirmados, preguntas para el desarrollador, observaciones de comportamiento y cosas para dar seguimiento. El reporte formal llega después de la sesión, no durante.

No dejes que la documentación perfecta sea el enemigo de una buena exploración. Si dedicas más de 30 segundos a documentar algo durante la sesión, estás interrumpiendo el flujo. Captura una captura de pantalla y una nota de una línea, luego sigue adelante.

Por qué la IA no puede hacer esto

El argumento para que la IA reemplace el testing exploratorio generalmente dice: "La IA puede generar casos de prueba, aprender de bugs pasados y explorar la aplicación de forma inteligente." Algo de esto ya está ocurriendo. Las herramientas con IA recorren aplicaciones, generan scripts de tests y marcan regresiones visuales. Esto es útil.

Lo que no es, es testing exploratorio.

El testing exploratorio depende de la intuición del dominio: conocimiento sobre cómo los usuarios realmente se comportan en el contexto específico de un producto específico. Un tester que pasó tres meses en una plataforma de e-commerce sabe que los usuarios con listas de deseos grandes se comportan diferente en el checkout. Que el campo de código de promoción atrae intentos de inyección. Que la validación de direcciones falla de formas específicas con direcciones fuera de EE.UU. que los desarrolladores centrados en EE.UU. sistemáticamente pasan por alto. Esto no está en ningún dataset de entrenamiento en una forma utilizable. Es contexto acumulado.

Más fundamentalmente, el testing exploratorio depende de la curiosidad motivada por el significado. Cuando ves un dropdown lento, te preguntas qué pasa durante esa ventana de lentitud porque entiendes qué intenta hacer el usuario y por qué la latencia crea un riesgo. Una IA ve una métrica de rendimiento. Tú ves un modo de fallo.

Las herramientas de IA son excelentes para ejecutar caminos conocidos a escala, identificar regresiones contra una línea base, y detectar anomalías en logs y métricas. La pregunta "¿sobre qué debería ser curioso aquí?" no es algo que un modelo entrenado en casos de prueba pasados pueda responder bien para un sistema que no ha encontrado en un contexto que no ha visto.

El trabajo del tester exploratorio es precisamente encontrar lo que nadie pensó en especificar. Eso requiere hacer preguntas que nadie pensó en hacer, lo que requiere entender el dominio, los usuarios y el producto lo suficientemente bien como para saber qué preguntas importan. Eso no es automatización. Es experiencia.

Cómo aplicar esto el lunes a la mañana

No necesitas un programa formal de GSBT para empezar. Un punto de partida práctico que cabe en un sprint normal:

Elige una funcionalidad que fue cambiada o lanzada recientemente. Escribe una carta en una oración: "Explorar [funcionalidad] con foco en [área de interés]." Dedícale 60 minutos. Toma notas en un documento de borrador mientras avanzas. Al final, dedica 10 minutos a revisar las notas y registrar los bugs que encontraste.

Eso es una sesión exploratoria. Hazlo de forma consistente (una o dos por sprint) y empezarás a detectar cosas que tu suite de automatización nunca hubiera encontrado.

Al escribir las cartas, rota el foco. Una sesión sobre casos límite de datos. La siguiente sobre la interacción entre esta funcionalidad y una adyacente. La siguiente sobre qué pasa cuando el usuario se comporta de forma inesperada. La variedad es el punto.

Por último: comparte las notas de tu sesión con el equipo en el debriefing, aunque sea de forma informal. Un mensaje rápido en Slack ("hice una sesión exploratoria en el flujo de edición masiva, encontré dos bugs, noté que el manejo de errores para fallos parciales no está claro") hace visible un trabajo que de otra forma ocurre sin que nadie lo vea. También convierte el testing exploratorio en una práctica del equipo en lugar de un hábito individual.

Qué es realmente el testing exploratorio

Por qué los tests con scripts y los exploratorios resuelven problemas diferentes

Gestión de sesiones basadas en tiempo: estructura sin rigidez

Heurísticas que guían dónde buscar

Técnicas de tour: tres que dan resultados de inmediato

Documentar hallazgos sin frenar el flujo

Por qué la IA no puede hacer esto

Cómo aplicar esto el lunes a la mañana

Continue reading