RL × Puzzle à Glissement 2×2 (par Dr. Erika Roldán · MPI MiS

Mécanique s' = f(s,a). L'apprentissage modifie Q(s,a). Le comportement échantillonne depuis π(a|s).

Mission I. Épisode d'Entraînement

Jouer + Entraîner

Références Active : —

Chargez un état de départ fixe. Puis cliquez sur Résoudre pour évaluer l'agente actuel (glouton, sans apprentissage). Nous enregistrons votre meilleur nombre de coups par référence dans ce navigateur.

Coups minimum théoriques : B1 : 1 | B2 : 2 | B3 : 3 | B4 : 4 | B5 : 5 | B6 : 6 (Nombre de Dieu !)

Meilleurs scores

B1 : — | B2 : — | B3 : — | B4 : — | B5 : — | B6 : —

Épisodes / exécution ⓘ

Étapes max / épisode ⓘ

Alpha (taux d'apprentissage) ⓘ

Gamma (escompte) ⓘ

Epsilon (explorer) ⓘ

Vitesse (ms/tic) ⓘ

État sₜ

—

Actions légales 𝒜(sₜ)

—

Politique π(a|sₜ) (ε-glouton)

—

Dernier (sₜ,aₜ,r,sₜ₊₁)

—

Dernière mise à jour Q (numérique)

—

Longueur dernière résolution

—

Inspecter

Survolez les arêtes pour voir (s,a,s′,Q,R). La vue liste brille en vert pour l'état actuel.

Graphe (survolez les arêtes pour les détails)

objectif : | états :

Zoom 140% Disposition

actuel objectif largeur d'arête ∝ Q

AI-Exhibits : Apprentissage par Renforcement (Q-learning)

Jouer + Entraîner

Références Active : —

Inspecter

Superposition des récompenses

AI-Exhibits : Apprentissage par Renforcement (Q-learning)

Jouer + Entraîner

Références Active : —

Inspecter

Superposition des récompenses

AI-Exhibits : Apprentissage par Renforcement (Q-learning)

Références Active : —