Analyse résultat

Pour chaque environnement, trouver une manière de qualifier les résultats.

En plus :

Faire des graphes pour mieux voir ce qui se passe.

Analyser les erreurs, es ce que le llm a compris ou pas le prompt dans les cas d'erreurs ?