Persönliches ProjektN/ABerlin, Germany

RL für humanoide Fortbewegung in MuJoCo

Eine physikbasierte Simulations- und Trainingspipeline für humanoide Roboter zur zweibeinigen Fortbewegung mittels verstärkendem Lernen, die auf MuJoCo, Gymnasium und Stable-Baselines3 aufbaut. Sie läuft sowohl auf Apple Silicon als auch unter Linux und deckt alles ab, von klassischen Steuerungs-Baselines bis hin zu Deep-RL-Strategien, die das Gehen von Grund auf erlernen.

Funktionsweise

Klassische Steuerungs-Baselines: PD-gesteuerte Geh- und Laufbewegungen (ohne Lernen) zur Validierung des Modells und zur Erzeugung von Referenzbewegungen.
Deep-RL-Training: PPO-, SAC- und TD3-Strategien, die auf stabile Fortbewegung trainiert wurden, mit konfigurierbarer Belohnungsgestaltung hinsichtlich Fußkontakt, aufrechter Körperhaltung und Vorwärtsgeschwindigkeit.
Lernplan & minimale Motion-Capture-Daten: Stufenweise steigender Schwierigkeitsgrad und geringe Mengen an Motion-Capture-Daten, um eine Gangart aufzubauen, bevor die Geschwindigkeit optimiert wird.

Warum das Projekt interessant ist

Die Fortbewegung von Humanoiden ist ein Testfeld für das Belohnungsdesign – und die meisten echten Erkenntnisse stammen aus Fehlschlägen. Dieses Projekt dokumentiert sie ehrlich: Strategien, die eher das Schummeln als das Gehen lernen, versteckte Normalisierungsfehler, die eine bereits funktionierende Strategie verdeckten, und ein negatives Ergebnis beim Einsatz von LLMs zur Iteration von Belohnungsfunktionen.

Tiefgehende Einblicke in die Entwicklung:

Stack

MuJoCo · Python · Gymnasium · Stable-Baselines3 (PPO / SAC / TD3) · NumPy

Back to Portfolio

Follow Me