Tests Exploratoires: La Compétence que l'IA Ne Peut Pas Remplacer

Le test exploratoire est apprentissage, conception et exécution simultanés : on découvre quoi tester en testant, plutôt que de suivre un script prédéfini.

Ce qu'est réellement le test exploratoire

La définition la plus solide vient de James Bach et Michael Bolton : le test exploratoire est apprentissage, conception de tests et exécution simultanés. Ces activités ne se font pas en séquence. Elles se font toutes en même temps, en temps réel.

Avec les tests scriptés, quelqu'un écrit d'abord un cas de test, puis un testeur l'exécute plus tard, parfois des jours ou des semaines après. La personne qui conçoit le test et celle qui l'exécute ne sont souvent pas la même. Dans le test exploratoire, il n'y a pas de décalage entre ces activités. Ce qu'on découvre dans les cinq premières minutes oriente les cinq minutes suivantes. Le test évolue au fil de l'apprentissage.

Ce n'est pas une forme inférieure de test. C'est un mode cognitif entièrement différent. Les tests scriptés excellent dans la vérification : confirmer que les comportements connus tiennent toujours. Le test exploratoire excelle dans la découverte : trouver des comportements que personne n'a songé à scripter.

Un exemple concret. Votre équipe livre une nouvelle fonctionnalité d'édition en masse pour un catalogue produit. Les tests scriptés couvrent la sélection d'articles, l'application d'une modification, la confirmation de la sauvegarde. Lors d'une session exploratoire, vous sélectionnez 200 articles, commencez à les éditer, puis naviguez ailleurs avant de sauvegarder. En revenant et en sélectionnant à nouveau des articles, la sélection précédente est toujours active dans un état caché. Soumettre le formulaire applique maintenant les modifications à 400 articles. Personne n'a spécifié ce scénario. Aucun script ne l'a vérifié. Votre curiosité l'a trouvé.

Le test exploratoire n'est pas opposé au test scripté. Une stratégie de test saine utilise les deux. Les tests scriptés donnent une couverture de régression rapide. Le test exploratoire trouve ce que les scripts ne savaient pas chercher.

Pourquoi les tests scriptés et exploratoires résolvent des problèmes différents

Si vous envoyez le même testeur exécuter un script de régression en 50 étapes chaque sprint, il finit par ne plus voir l'application. Il lit une liste et coche des cases. La charge cognitive tombe presque à zéro, et avec elle la détection de bugs, à moins que le bug ne coïncide exactement avec une étape du script.

Le test exploratoire exige une attention totale. On formule des hypothèses, on essaie de les réfuter, on réagit à ce qu'on trouve. "Ce dropdown se charge lentement. Je me demande ce qui se passe si je soumets le formulaire avant qu'il finisse de se remplir." Cette pensée n'apparaît dans aucun document de cas de test. Elle apparaît parce qu'on réfléchit pendant qu'on teste.

La distinction compte pour la planification du travail de test. Sur une fonctionnalité stable avec une bonne couverture d'automatisation, la régression scriptée est le bon outil. Sur une fonctionnalité nouvellement construite ou une intégration tierce, le test exploratoire trouve ce que le test scripté rate. Idem pour tout ce qui touche plusieurs parties du système de façon non évidente.

Aucune approche n'est supérieure à l'autre. Choisir la bonne, ou la bonne combinaison, c'est la compétence.

Session-Based Test Management : structure sans rigidité

L'exploration non structurée, c'est là que la critique "cliquer au hasard" a une part de vérité. Si vous ouvrez une application sans objectif, sans limite de temps et sans trace de ce que vous faites, vous couvrirez les mêmes zones en boucle, raterez de larges pans, et n'aurez rien d'utile à montrer à la fin.

Le Session-Based Test Management (SBTM), développé par Jonathan et James Bach, résout ça sans transformer l'exploration en test scripté.

L'unité de base est une session de test : un bloc de tests ininterrompus, généralement de 60 à 90 minutes, avec trois composantes.

La charte définit la mission. Ce n'est pas un cas de test, c'est une question ciblée. "Explorer la fonctionnalité d'export de factures en portant attention aux cas limites dans les commandes multi-devises." C'est une charte. Elle indique où commencer et ce qui compte, sans dicter le chemin. On peut et on doit suivre les fils intéressants qui apparaissent.

La time box maintient l'honnêteté des sessions. 90 minutes d'exploration concentrée est nettement plus productif que quatre heures à dériver. La contrainte force la priorisation. Avec seulement 90 minutes, on se dirige d'abord vers les zones les plus risquées.

Le debriefing est là où la valeur de la session est capturée. Après la session, on passe 10 à 15 minutes à résumer ce qu'on a couvert et ce qu'on a trouvé. On note aussi ce qu'on n'a pas eu le temps de faire et les questions qui restent. Ce résultat est ce qui rend le test exploratoire visible pour le reste de l'équipe.

En pratique, une charte pour un flux de paiement pourrait ressembler à : "Explorer le comportement du paiement quand les utilisateurs changent de mode de paiement en cours de session, en mettant l'accent sur la gestion des erreurs et la gestion de l'état." On la met dans une time box de 60 minutes, on teste avec intention, puis on debriefe. Les notes résultantes sont le livrable, pas un rapport pass/fail, mais une carte de ce qu'on a appris.

Tenez un journal SBTM simple dans un document partagé ou une table Notion : charte, testeur, date, durée, bugs trouvés, zones non couvertes. Sur la durée, ça construit une image de votre couverture plus honnête que n'importe quel plan de test scripté.

Les heuristiques qui guident l'exploration

Les testeurs exploratoires expérimentés ne vagabondent pas. Ils suivent des heuristiques : des raccourcis mentaux qui pointent vers des zones susceptibles de contenir des problèmes.

L'heuristique SFDPOT (développée par James Bach) donne six lentilles : Structure, Fonction, Données, Plateforme, Opérations, Temps. Appliquée à une nouvelle fonctionnalité, elle suggère de se demander si la structure crée des vulnérabilités, ce qui se passe aux limites des entrées, ou si le comportement change selon la plateforme. Elle invite aussi à tester sous charge ou en cas d'interruption d'un processus dépendant du temps.

On n'applique pas les six à chaque session. On les utilise comme déclencheurs quand on a l'impression de manquer d'idées.

Les personas utilisateurs complètent les heuristiques. Un utilisateur expert qui a mémorisé les raccourcis clavier interagit avec un produit très différemment de quelqu'un qui l'ouvre pour la première fois. Un utilisateur avec une mauvaise connexion réseau touche des cas limites différents de quelqu'un en fibre. Incarner un persona spécifique rend l'exploration cohérente et aide à découvrir des modes de défaillance propres à ce persona.

Les zones à risque constituent le troisième guide. Le nouveau code a plus de bugs que le code ancien. Les intégrations entre systèmes ont plus de bugs que chaque système individuellement. Les fonctionnalités avec un état complexe (formulaires multi-étapes, paniers d'achat, formulaires avec logique conditionnelle) ont plus de bugs que des écrans CRUD simples. Dirigez l'exploration là en premier.

Tours de test : trois qui portent leurs fruits immédiatement

Cem Kaner a introduit l'idée d'appliquer des métaphores touristiques au test exploratoire, développée par la suite par Michael Kelly. Trois tours valent la peine d'être maîtrisés.

Le tour des fonctionnalités est une couverture systématique des capacités d'une fonctionnalité, abordée avec curiosité plutôt qu'une checklist. On visite chaque pièce du bâtiment (chaque fonction principale, chaque point d'interaction) non pas pour confirmer que ça fonctionne, mais pour comprendre assez bien où aller plus loin. Sur un nouveau module de reporting, ça signifie générer chaque type de rapport, appliquer chaque filtre, exporter dans chaque format disponible. Pas pour les vérifier, mais pour cartographier le territoire.

Le tour de complexité cherche les interactions entre fonctionnalités. On cherche les endroits où deux systèmes se touchent de façons qui n'ont peut-être pas été conçues ensemble. Un formulaire de paiement qui applique aussi des codes de réduction est plus complexe que l'un ou l'autre seul. Une action du panneau d'administration qui déclenche un e-mail de notification est plus complexe que l'une ou l'autre seule. On teste la jonction. Dans un outil de gestion de projet, ça pourrait donner : créer une tâche, l'assigner à un utilisateur, puis immédiatement désactiver cet utilisateur. Que se passe-t-il avec la tâche ? Le champ "assigné à" gère-t-il gracieusement une référence maintenant invalide ?

Le tour d'interruption teste la résilience. Connexions lentes. Navigation en cours de processus. Bouton retour du navigateur pendant une soumission de formulaire. Fermeture d'un onglet pendant un upload de fichier. Expiration de session en plein paiement. Les applications modernes gèrent bien le chemin nominal. Le tour d'interruption cherche tout ce qui se passe quand l'utilisateur ne se comporte pas comme le chemin nominal le suppose. Un assistant d'inscription en trois étapes peut perdre son état quand l'utilisateur clique sur le bouton retour entre les étapes deux et trois, même si le flux normal fonctionne parfaitement.

Documenter les découvertes sans casser le flux

La pire chose qu'on puisse faire pendant une session exploratoire, c'est s'arrêter pour rédiger un rapport de bug formel. On brise son modèle mental, on perd le fil de ses pensées, et on passe le reste de la session dans un mode cognitif différent.

La solution : séparer capture et formalisation. On capture pendant la session, on formalise après.

Pendant la session, les notes doivent être rapides et jetables. Des post-its sur un bureau physique. Une note en cours dans VS Code ou le Bloc-notes. Des annotations brèves en faisant une capture d'écran. L'objectif est d'avoir assez d'information pour reconstituer ce qu'on a trouvé, pas un rapport soigné.

Les captures d'écran doivent être annotées immédiatement avec une seule flèche de callout avant de passer à autre chose. L'annotation dit dans deux jours pourquoi on a pris cette capture. Sans elle, une capture d'un filtre dropdown cassé n'est qu'une capture.

Loom (ou n'importe quel enregistreur d'écran) vaut la peine pour tout ce qui implique une séquence d'étapes. Enregistrez les étapes, narrez ce que vous faites et pourquoi c'est inattendu, sauvegardez le lien dans vos notes. Un Loom de 90 secondes d'une reproduction vaut plus qu'un rapport de bug de 400 mots, et ça prend moins de temps à créer.

Après la session, relisez vos notes et décidez quels résultats méritent des rapports de bug formels. La plupart des sessions exploratoires produisent un mélange de bugs confirmés, de questions pour le développeur, d'observations comportementales, et de sujets à suivre. Le rapport formel vient après la session, pas pendant.

Ne laissez pas la documentation parfaite devenir l'ennemi d'une bonne exploration. Si vous passez plus de 30 secondes à documenter quelque chose pendant la session, vous interrompez le flux. Prenez une capture et une note d'une ligne, puis continuez.

Pourquoi l'IA ne peut pas faire ça

L'argument pour que l'IA remplace le test exploratoire va généralement comme suit : "L'IA peut générer des cas de test, apprendre des bugs passés, et explorer l'application de façon intelligente." Une partie de cela est déjà là. Des outils propulsés par l'IA parcourent les applications, génèrent des scripts de test, et signalent des régressions visuelles. C'est utile.

Ce n'est pas du test exploratoire pour autant.

Le test exploratoire dépend de l'intuition métier : la connaissance de la façon dont les utilisateurs se comportent réellement dans le contexte spécifique d'un produit spécifique. Un testeur qui a passé trois mois sur une plateforme e-commerce sait que les utilisateurs avec de grandes listes de souhaits se comportent différemment au paiement. Que le champ de code promo attire les tentatives d'injection. Que la validation d'adresse casse de façon spécifique pour les adresses non américaines que les développeurs centrés sur les États-Unis ratent systématiquement. Ces informations ne se trouvent dans aucun dataset d'entraînement sous une forme exploitable. C'est un contexte accumulé.

Plus fondamentalement, le test exploratoire dépend d'une curiosité portée par le sens. Quand on voit un dropdown lent, on se demande ce qui se passe pendant cette fenêtre de lenteur. On le fait parce qu'on comprend ce que l'utilisateur essaie de faire et pourquoi la latence crée un risque. Une IA voit une métrique de performance. Le testeur voit un mode de défaillance.

Les outils d'IA excellent à exécuter des chemins connus à grande échelle, à identifier des régressions par rapport à une baseline, et à faire remonter des anomalies dans les logs et les métriques. La question "de quoi devrais-je être curieux ici ?" ne peut pas être bien répondue par un modèle entraîné sur des cas passés. Il lui manque le contexte d'un système qu'il n'a jamais rencontré dans une situation qu'il n'a jamais vue.

Le travail du testeur exploratoire est précisément de trouver ce que personne n'a songé à spécifier. Ça nécessite de poser des questions que personne n'a songé à poser. Cela exige de comprendre le domaine, les utilisateurs et le produit assez profondément pour savoir quelles questions comptent. Ce n'est pas de l'automatisation. C'est de l'expertise.

Comment commencer dès lundi

Pas besoin d'un programme SBTM formel pour démarrer. Voici un point de départ pratique qui s'intègre dans un sprint normal.

Choisissez une fonctionnalité récemment modifiée ou livrée. Rédigez une charte en une phrase : "Explorer [fonctionnalité] en se concentrant sur [zone de préoccupation]." Passez 60 minutes dessus. Prenez des notes dans un document brouillon au fur et à mesure. À la fin, passez 10 minutes à relire vos notes et à créer les bugs que vous avez trouvés.

C'est une session exploratoire. Faites-le régulièrement (une ou deux par sprint) et vous commencerez à attraper des choses que votre suite d'automatisation n'aurait jamais détectées.

Quand vous rédigez des chartes, faites tourner votre focus. Une session sur les cas limites de données. La suivante sur l'interaction entre cette fonctionnalité et une fonctionnalité adjacente. La suivante sur ce qui se passe quand l'utilisateur se comporte de façon inattendue. La variété est le point.

Enfin : faites un debriefing en partageant vos notes de session avec votre équipe, même informellement. Un message rapide ("session exploratoire sur le flux d'édition en masse, deux bugs trouvés, la gestion des erreurs pour les échecs partiels n'est pas claire") rend visible un travail autrement invisible. Ça fait aussi du test exploratoire une pratique d'équipe plutôt qu'une habitude solitaire.

Le test exploratoire n'est pas un complément à une "vraie" stratégie de test. C'est la partie de votre stratégie qui attrape ce que tout le reste rate. Les équipes qui le pratiquent régulièrement livrent moins de régressions et détectent plus de bugs critiques avant la production. La compétence s'apprend, s'améliore, et elle vous appartient entièrement.

Ce qu'est réellement le test exploratoire

Pourquoi les tests scriptés et exploratoires résolvent des problèmes différents

Session-Based Test Management : structure sans rigidité

Les heuristiques qui guident l'exploration

Tours de test : trois qui portent leurs fruits immédiatement

Documenter les découvertes sans casser le flux

Pourquoi l'IA ne peut pas faire ça

Comment commencer dès lundi

Continue reading