Agents,
Nous avons reçu votre signal de détresse. La situation est grave mais pas désespérée. Lisez attentivement ce briefing — votre survie en dépend.
Nous sommes en 2087. Après que l'intelligence artificielle ait fait des progrès extraordinaires sur Terre, l'humanité a découvert comment voyager vers d'autres étoiles. Vous faites partie des premiers explorateurs envoyés pour découvrir de nouveaux mondes.
Malheureusement, un incident catastrophique s'est produit. Votre vaisseau principal est détruit. Vous êtes bloqués sur cette planète.
Vous avez découvert les restes d'un ancien vaisseau abandonné par une civilisation disparue. Ce vaisseau peut être réparé !
Nous vous avons fourni un dictionnaire rassemblant le vocabulaire du Q-learning : les paramètres, les boutons, les messages et les concepts-clés dont vous aurez besoin.
Le système de contrôle du vaisseau est endommagé. Un agente intelligente (une IA) était censé piloter le vaisseau, mais il a perdu toute sa mémoire.
Votre mission : ré-entraîner cet agent pour qu'il puisse reconstruire le vaisseau.
L'agente du vaisseau apprend comme un enfant : par essai et erreur.
Vous êtes dans un labyrinthe. Vous ne connaissez pas le chemin. Que faites-vous ?
L'agente fait exactement la même chose ! Il essaie des actions, reçoit des retours (bons ou mauvais), et apprend petit à petit.
Pour entraîner l'agente, vous allez utiliser des puzzles à glissement. Ce sont des puzzles où vous devez glisser des tuiles numérotées pour les remettre dans l'ordre.
Arranger les tuiles dans l'ordre : 1, 2, 3… avec l'espace vide en bas à droite.
Exemple pour un puzzle 2×2 :
| 1 | 2 |
| 3 | _ |
Pour que l'agente apprenne bien, vous devez régler trois paramètres. Pensez à eux comme des "boutons de réglage" sur une machine.
Question : À quelle vitesse l'agente change-t-il d'avis ?
Conseil : Commencez avec 0,5 (valeur moyenne)
Question : Est-ce que l'agente pense au futur ou seulement au présent ?
Conseil : Utilisez 0,9 ou plus pour les puzzles
Question : Est-ce que l'agente essaie des nouvelles choses ou fait toujours pareil ?
Conseil : 0,3 pendant l'entraînement, puis 0,0 pour tester
Le système de contrôle du vaisseau est instable. Vous ne pouvez pas l'utiliser sans limite.
Chaque équipe a droit à 3 TENTATIVES par point de contrôle.
Une tentative = vous réglez les paramètres (α, γ, ε), vous entraînez, vous testez.
Réfléchissez bien en équipe avant d'utiliser une tentative !
Chaque mission contient plusieurs points de contrôle appelés B1, B2, B3, etc. Ce sont des puzzles de difficulté croissante.
| Point de Contrôle | Difficulté | Mouvements Minimum |
|---|---|---|
| B1 | ⭐ Facile | Très peu |
| B2, B3… | ⭐⭐ à ⭐⭐⭐⭐ Moyen à Difficile | De plus en plus |
| B final 🏆 | Maximum ("Nombre de Dieu") | Le plus difficile possible |
C'est le nombre minimum de mouvements pour résoudre le puzzle le plus difficile possible.
Si votre agente atteint ce nombre, c'est qu'il est devenu parfait !
| Mission | Puzzle | Nombre de Dieu | Difficulté |
|---|---|---|---|
| Mission 1 | 2×2 (4 cases) | 6 mouvements | ⭐ Apprentissage |
| Mission 2 | 2×3 (6 cases) | 21 mouvements | ⭐⭐ Intermédiaire |
| Mission 3 | 3×3 (9 cases) | 31 mouvements | ⭐⭐⭐ Expert |
Quand c'est votre tour d'accéder au vaisseau de commande :
Avant d'aller à l'ordinateur, décidez ensemble :
Notez ces valeurs sur votre fiche AVANT d'aller à l'ordinateur !
À l'ordinateur, entrez vos valeurs dans les champs correspondants.
Cliquez sur Train 100 ou Train 1000 pour faire apprendre l'agente.
Plus vous entraînez, plus l'agente apprend (mais ça prend du temps).
Cliquez sur le benchmark (ex: B1) pour charger le puzzle.
Puis cliquez sur Solve pour voir combien de mouvements l'agente utilise.
Écrivez le nombre de mouvements sur votre fiche de score.
Retournez à votre place et analysez avec votre équipe.
"Le vaisseau attend. L'agente a besoin de vous.
Entraînez-le bien, et vous pourrez rentrer chez vous."
— Commandement Central Terra-7