Eine physikbasierte Simulations- und Trainingspipeline für humanoide Roboter zur zweibeinigen Fortbewegung mittels verstärkendem Lernen, die auf MuJoCo, Gymnasium und Stable-Baselines3 aufbaut. Sie läuft sowohl auf Apple Silicon als auch unter Linux und deckt alles ab, von klassischen Steuerungs-Baselines bis hin zu Deep-RL-Strategien, die das Gehen von Grund auf erlernen.
Die Fortbewegung von Humanoiden ist ein Testfeld für das Belohnungsdesign – und die meisten echten Erkenntnisse stammen aus Fehlschlägen. Dieses Projekt dokumentiert sie ehrlich: Strategien, die eher das Schummeln als das Gehen lernen, versteckte Normalisierungsfehler, die eine bereits funktionierende Strategie verdeckten, und ein negatives Ergebnis beim Einsatz von LLMs zur Iteration von Belohnungsfunktionen.
Tiefgehende Einblicke in die Entwicklung:
MuJoCo · Python · Gymnasium · Stable-Baselines3 (PPO / SAC / TD3) · NumPy