NOM DE VOTRE ÉQUIPE :

📡 MESSAGE DU COMMANDEMENT TERRA-7

Agents,

Nous avons reçu votre signal de détresse. La situation est grave mais pas désespérée. Lisez attentivement ce briefing — votre survie en dépend.

📖 CHAPITRE 1 : VOTRE SITUATION

Nous sommes en 2087. Après que l'intelligence artificielle ait fait des progrès extraordinaires sur Terre, l'humanité a découvert comment voyager vers d'autres étoiles. Vous faites partie des premiers explorateurs envoyés pour découvrir de nouveaux mondes.

Malheureusement, un incident catastrophique s'est produit. Votre vaisseau principal est détruit. Vous êtes bloqués sur cette planète.

✨ BONNE NOUVELLE

Vous avez découvert les restes d'un ancien vaisseau abandonné par une civilisation disparue. Ce vaisseau peut être réparé !

Nous vous avons fourni un dictionnaire rassemblant le vocabulaire du Q-learning : les paramètres, les boutons, les messages et les concepts-clés dont vous aurez besoin.

⚠️ LE DÉFI

Le système de contrôle du vaisseau est endommagé. Un agente intelligente (une IA) était censé piloter le vaisseau, mais il a perdu toute sa mémoire.

Votre mission : ré-entraîner cet agent pour qu'il puisse reconstruire le vaisseau.

📖 CHAPITRE 2 : COMMENT L'AGENT APPREND

L'agente du vaisseau apprend comme un enfant : par essai et erreur.

Imaginez ceci :

Vous êtes dans un labyrinthe. Vous ne connaissez pas le chemin. Que faites-vous ?

Vous essayez un chemin
Si ça mène à une impasse → vous vous souvenez : "ce chemin est mauvais"
Si ça vous rapproche de la sortie → vous vous souvenez : "ce chemin est bon"
Petit à petit, vous apprenez le meilleur chemin

L'agente fait exactement la même chose ! Il essaie des actions, reçoit des retours (bons ou mauvais), et apprend petit à petit.

Les Puzzles d'Entraînement

Pour entraîner l'agente, vous allez utiliser des puzzles à glissement. Ce sont des puzzles où vous devez glisser des tuiles numérotées pour les remettre dans l'ordre.

🎯 L'OBJECTIF DE CHAQUE PUZZLE

Arranger les tuiles dans l'ordre : 1, 2, 3… avec l'espace vide en bas à droite.

Exemple pour un puzzle 2×2 :

1	2
3	_

📖 CHAPITRE 3 : LES TROIS RÉGLAGES MAGIQUES

Pour que l'agente apprenne bien, vous devez régler trois paramètres. Pensez à eux comme des "boutons de réglage" sur une machine.

LEARNING RATE — La Vitesse d'Apprentissage

Question : À quelle vitesse l'agente change-t-il d'avis ?

Valeur haute (ex: 0,8) → L'agente apprend vite mais peut oublier ce qu'il savait
Valeur basse (ex: 0,1) → L'agente apprend lentement mais de façon plus stable

Conseil : Commencez avec 0,5 (valeur moyenne)

DISCOUNT — L'Importance du Futur

Question : Est-ce que l'agente pense au futur ou seulement au présent ?

Valeur haute (ex: 0,99) → L'agente planifie à long terme (recommandé !)
Valeur basse (ex: 0,5) → L'agente ne pense qu'à l'instant présent

Conseil : Utilisez 0,9 ou plus pour les puzzles

EPSILON — L'Exploration vs L'Habitude

Question : Est-ce que l'agente essaie des nouvelles choses ou fait toujours pareil ?

Valeur haute (ex: 0,5) → L'agente explore beaucoup au hasard
Valeur basse (ex: 0,1) → L'agente utilise ce qu'il a déjà appris

Conseil : 0,3 pendant l'entraînement, puis 0,0 pour tester

📖 CHAPITRE 4 : LES RÈGLES DE LA MISSION

🚨 RÈGLE CRITIQUE — ACCÈS LIMITÉS

Le système de contrôle du vaisseau est instable. Vous ne pouvez pas l'utiliser sans limite.

Chaque équipe a droit à 3 TENTATIVES par point de contrôle.

Une tentative = vous réglez les paramètres (α, γ, ε), vous entraînez, vous testez.

Réfléchissez bien en équipe avant d'utiliser une tentative !

Les Points de Contrôle (Benchmarks)

Chaque mission contient plusieurs points de contrôle appelés B1, B2, B3, etc. Ce sont des puzzles de difficulté croissante.

Point de Contrôle	Difficulté	Mouvements Minimum
B1	⭐ Facile	Très peu
B2, B3…	⭐⭐ à ⭐⭐⭐⭐ Moyen à Difficile	De plus en plus
B final 🏆	Maximum ("Nombre de Dieu")	Le plus difficile possible

🏆 LE NOMBRE DE DIEU

C'est le nombre minimum de mouvements pour résoudre le puzzle le plus difficile possible.

Si votre agente atteint ce nombre, c'est qu'il est devenu parfait !

📖 CHAPITRE 5 : LES TROIS MISSIONS

Mission	Puzzle	Nombre de Dieu	Difficulté
Mission 1	2×2 (4 cases)	6 mouvements	⭐ Apprentissage
Mission 2	2×3 (6 cases)	21 mouvements	⭐⭐ Intermédiaire
Mission 3	3×3 (9 cases)	31 mouvements	⭐⭐⭐ Expert

📖 CHAPITRE 6 : PROCÉDURE PAS À PAS

Quand c'est votre tour d'accéder au vaisseau de commande :

PRÉPAREZ-VOUS EN ÉQUIPE

Avant d'aller à l'ordinateur, décidez ensemble :

Quelle valeur pour α (Learning Rate) ?
Quelle valeur pour γ (Discount) ?
Quelle valeur pour ε (Epsilon) ?
Combien d'épisodes d'entraînement ?

Notez ces valeurs sur votre fiche AVANT d'aller à l'ordinateur !

RÉGLEZ LES PARAMÈTRES

À l'ordinateur, entrez vos valeurs dans les champs correspondants.

ENTRAÎNEZ L'AGENT

Cliquez sur Train 100 ou Train 1000 pour faire apprendre l'agente.

Plus vous entraînez, plus l'agente apprend (mais ça prend du temps).

TESTEZ SUR UN BENCHMARK

Cliquez sur le benchmark (ex: B1) pour charger le puzzle.

Puis cliquez sur Solve pour voir combien de mouvements l'agente utilise.

NOTEZ VOS RÉSULTATS

Écrivez le nombre de mouvements sur votre fiche de score.

Retournez à votre place et analysez avec votre équipe.

"Le vaisseau attend. L'agente a besoin de vous.

Entraînez-le bien, et vous pourrez rentrer chez vous."

— Commandement Central Terra-7

📖 CHAPITRE 1 : VOTRE SITUATION

📖 CHAPITRE 2 : COMMENT L'AGENT APPREND

Imaginez ceci :

Les Puzzles d'Entraînement

📖 CHAPITRE 3 : LES TROIS RÉGLAGES MAGIQUES

📖 CHAPITRE 4 : LES RÈGLES DE LA MISSION