← Missions Retour au départ
AI Exhibits
Designed and developed by Dr. Erika Roldán Roa · MPI MiS · 2026

AI-Exhibits : Apprentissage par Renforcement (Q-learning)

Puzzle à Glissement 2×2 · États accessibles (composante de l'objectif) : 12
Mécanique s' = f(s,a). L'apprentissage modifie Q(s,a). Le comportement échantillonne depuis π(a|s).
Mission I. Épisode d'Entraînement

Jouer + Entraîner

Références Active : —

Chargez un état de départ fixe. Puis cliquez sur Résoudre pour évaluer l'agente actuel (glouton, sans apprentissage). Nous enregistrons votre meilleur nombre de coups par référence dans ce navigateur.

Coups minimum théoriques : B1 : 1 | B2 : 2 | B3 : 3 | B4 : 4 | B5 : 5 | B6 : 6 (Nombre de Dieu !)

Meilleurs scores
B1 : — | B2 : — | B3 : — | B4 : — | B5 : — | B6 : —
État sₜ
Actions légales 𝒜(sₜ)
Politique π(a|sₜ) (ε-glouton)
Dernier (sₜ,aₜ,r,sₜ₊₁)
Dernière mise à jour Q (numérique)
Longueur dernière résolution

Inspecter

Survolez les arêtes pour voir (s,a,s′,Q,R). La vue liste brille en vert pour l'état actuel.
Graphe (survolez les arêtes pour les détails)
objectif : | états :
Zoom 140% Disposition
actuel objectif largeur d'arête ∝ Q