Essayer une version basique de RL Lui donner la chaine de Markov des interactions passé. IL FAUT CRÉER un nouvel agent.