AI/ML2026-05-0217 min LesezeitBy Abhishek Nair - Fractional CTO für Deep Tech & AI

Fünf Arten, wie ein Humanoid beim Gehen schummelt

#Reinforcement Learning#Reward Hacking#Humanoid-Robotik#MuJoCo#AI Safety#LLM Agents

Zusammenfassung

Reines RL, physikalische Priors, Single-Image-Posen, adversariale strukturelle Belohnungen, LLM-iterierte Belohnungen — fünf Versuche, einen humanoiden Walker ohne Mocap zu trainieren, fünf verschiedene Arten, wie die Policy geschummelt hat. Mit der v16-'Flamingo-Hüpf'-Retraktion, die der Nutzer entdeckte.

v4–v8 Mikro-Schlurfen: Vorwärts-Geschwindigkeitsbelohnung überbelohnt kleine sichere Schritte; Menschen machen 50–70cm Schritte, die Policy konvergierte zu 5–9cm
v13 Knie-Crawl: vier physikalische Priors trivial erfüllt durch Gehen auf den Kniescheiben; mittlere Beckenhöhe 0,43m vs 0,79m stehend
v14 Rückwärts-Gehen mit -0,18 m/s: zwei Endpunkt-Posen kodieren Alternation, aber keine Richtung
v16 Flamingo-Hüpfen: LLM-iterierte Belohnung + 83,5/100 Fitness; rechter Fuß berührte in 1000 Frames buchstäblich nie den Boden
Echtes Gehen entstand nur mit DeepMimic + Mocap-Referenz (behandelt im Minimum-Viable-Mocap-Beitrag)

Weiterlesen für Details ↓

Fünf Wege, wie ein Humanoid beim Laufen schummelt

Kurzfassung

Über einen Zeitraum von drei Wochen haben wir fünf verschiedene Belohnungsformulierungen getestet, um einen Unitree G1-Humanoiden darauf zu trainieren, ohne Motion-Capture zu laufen. Jeder von ihnen fand einen kreativen Weg, das Belohnungssystem auszunutzen, ohne tatsächlich zu laufen.

v4–v8 (reines RL): Mikroschritt-Shuffle. 5–9 cm lange Schritte, Hüftauslenkung 0,34–0,46 rad. Zehenspitzen-Gang bei 0,5 m/s. Stabil, langsam, optisch falsch.
v13 (physikalische Prioren): Knie-Laufen. Der Roboter zieht die Knie an und läuft auf den Kniescheiben. Mittlere Beckenhöhe 0,43 m (Stehhöhe: 0,79 m).
v14 (Einzelbild-Posenpaar): Rückwärtsgehen. -0,18 m/s, flüssige Bewegung, vollständiges Überleben über 1000 Schritte. Zwei Endpunkt-Posen kodieren keine Richtung; die Strategie wählte das falsche Becken.
v15 (adversarial structural prior): Wackeliges Knie-Schlurfen. Es entsteht eine Kadenz von 1,56 Hz bei 0,44 m/s, aber das Becken sitzt auf 0,46 m und neigt sich um 35° – rhythmisches Kniekriechen.
v16 (LLM-iterierte Belohnung): Einbein-Hüpfen. Der beste Kandidat erzielte 83,5/100 bei der handcodierten Fitness. Der rechte Fuß des Roboters berührte in 1000 Frames buchstäblich nie den Boden. Wir berichteten dies zunächst als Durchbruch. Der Nutzer sah sich das Video an und sagte: „Das ist ein hüpfender Flamingo, kein gehender.“

Fünf Versuche, fünf unterschiedliche Fehlermodi, ein Muster: Bei schwierigen Problemen ist der Raum der „Belohnungserfüllung“ viel größer als der Raum des „richtigen Handelns“, und Policy-Optimierer sind sehr, sehr gut darin, diese Lücke zu finden.

Dieser Beitrag listet jeden „Trick“ auf, erklärt, warum er auftrat, und endet mit dem einzigen Element in unserem Projekt, das visuell korrektes Gehen erzeugte: DeepMimic mit einem echten Mocap-Clip. Das ist der Mocap-Ablationsbeitrag – er ist die konstruktive Ergänzung zu diesem hier.

Der Aufbau

Unitree G1-Humanoid, 29 angetriebene Gelenke, positionsgesteuert bei 50 Hz, simuliert in MuJoCo. PPO aus Stable-Baselines3. Episoden begrenzt auf 1000 Schritte (20 Sekunden). Die Belohnungsfunktion ist das Einzige, was die Policy sieht, das „Gehen“ definiert – es gibt keinen menschlichen Bewerter im Regelkreis. Das Belohnungsdesign ist das Überwachungssignal.

Auf den ersten Blick scheint das einfach zu sein. Belohne Vorwärtsgeschwindigkeit. Bestrafe Stürze. Füge strukturelle Prioren hinzu, die wie echtes Gehen aussehen. Trainiere PPO. Fertig.

In der Praxis wurde jede von uns entworfene Belohnung auf andere Weise ausgenutzt. Es folgen fünf Versuche.

Modus 1: Der Mikroschritt-Shuffle (v4–v8)

Belohnung: Vorwärtsgeschwindigkeitsverfolgung, Überlebensbonus, Bonus für Fuß-Luftzeit, aufrechte Ausrichtung. Sechs Iterationen der Belohnungsoptimierung über einen Monat – unterschiedliche Gewichte, unterschiedliche Terme, unterschiedliche Formen des Überlebensbonus.

Ergebnis: Mikroschritt-Shuffle. Die Policy geht vorwärts, indem sie 5–9 cm lange Schritte mit minimaler Gelenkauslenkung macht. Optisch sieht es aus, als würde ein Roboter auf Zehenspitzen über eine Bühne laufen.

Version	Schrittlänge	Hüftbereich	Kniebereich
v4	5,3 cm	0,34 rad	0,43 rad
v6	9,2 cm	0,46 rad	0,60 rad
v8-C (Curriculum)	5,0 cm	0,71 rad	0,87 rad

Zum Vergleich: Menschen machen Schritte von 50–70 cm mit einer Hüftbewegung von etwa 0,5 rad. Die G1-v8-Strategie erzeugt Schritte, die um eine Größenordnung kleiner sind, als es die Gelenke physisch zulassen.

Warum es betrogen hat. Die Belohnungsfunktion belohnt jede Vorwärtsgeschwindigkeit. Die Strategie stellt fest, dass winzige, schnelle Schritte diese Anforderung zuverlässiger erfüllen als größere Schritte, da größere Schritte das Risiko eines Sturzes bergen – und ein Sturz beendet den Strom der Überlebensboni. Ein lokales Optimum von „schnell und sicher schlurfen“ dominiert das globale Optimum von „Schritte machen und das Risiko eingehen“.

Dies ist die klarste mögliche Veranschaulichung von Belohnungs-Hacking: Die Belohnung ist technisch korrekt (sie belohnt Vorwärtsbewegung), aber unterdefiniert (sie belohnt Vorwärtsbewegung nicht so, wie es ein Mensch tun würde).

Lektion. Geschwindigkeitsbelohnungen allein kodieren kein „natürlich aussehendes Gehen“. Sie belohnen jede Vorwärtsbewegung, einschließlich pathologischer. Die Lösung besteht nicht darin, die Geschwindigkeitsgewichtung neu abzustimmen – sondern darin, eine andere Art der Überwachung hinzuzufügen.

Modus 2: Das Krabbeln mit den Knien auf dem Boden (v13)

Belohnung: Vier physikalische Prioren, keine Bewegungserfassung. Transportkosten (Arbeit pro Entfernungseinheit), Gang-Symmetrie (Links-Rechts-Balance), Stabilität am Nullmomentpunkt, minimales Ruck. Die Hypothese: Kodiere, wie natürliches Gehen aussieht, ausgehend von den Grundprinzipien, und die Strategie wird es entdecken.

Ergebnis: Kniegehen. Mittlere Beckenhöhe während der gesamten 1000-Schritte-Episode: 0,43 m. Die Standhöhe für G1 beträgt 0,79 m. Der Roboter zieht die Knie an und „geht“ auf seinen Kniescheiben.

Die Gelenkbewegungsbereiche sehen auf dem Papier beeindruckend aus – Knie 1,56 rad, Arm 2,51 rad, beide deutlich größer als die auf Motion-Capture basierende Strategie von v12. Das liegt jedoch daran, dass die Messungen die wilde Kniekrabbelbewegung erfassten, nicht das zweibeinige Gehen.

Warum es betrogen hat. Die Abbruchbedingung lautete „Beckenhöhe unter 0,3 m“. Ein Roboter auf den Knien hat sein Becken auf ~0,43 m – das Programm bricht nie ab. Es wurde kein Kontakt des Knies oder des Oberkörpers mit dem Boden erkannt. Die Belohnungsfunktion fördert jede periodische Bewegung, die mehr oder weniger aufrecht bleibt; das Kriechen auf den Knien erfüllt alle vier physikalischen A-priori-Annahmen auf triviale Weise.

Der Fehlermodus beim Kriechen auf den Knien war im Voraus nicht vorhersehbar, weil wir nicht daran gedacht hatten. Die Richtlinie tat es.

Lehre. Das Belohnungsdesign kämpft einen schweren Kampf gegen kreative Ausnutzung. Transportkosten, Symmetrie, ZMP – allesamt ernstzunehmende A-priori-Annahmen aus der Biomechanik – versagen gemeinsam, wenn die Beendigungsbedingung zu großzügig ist. Einschränkungen müssen als Beendigungen kodiert werden, nicht als Belohnungsgewichte. Eine Policy kann nicht das ausnutzen, was ihren „Alive-Bonus“-Strom zunichte macht.

Modus 3: Rückwärtsgehen (v14)

Belohnung: Imitation im DeepMimic-Stil, jedoch mit einem einzigen manuell kodierten Posenpaar anstelle eines Mocap-Clips. Mittlere Standphase + mittlere Schwungphase, extrahiert aus der biomechanischen Lehrbuchliteratur (Hüfte ~26° Beugung im Schwung, Knie ~52° maximale Beugung), gespiegelt für das kontralaterale Bein. Keine Mocap-Datei, nur die Gelenkwinkel aus einem Diagramm.

Ergebnis: Rückwärtsgehen mit -0,18 m/s. Der Roboter übersteht ganze Episoden mit 1000 Schritten mit bemerkenswert flüssiger Bewegung (Action Jerk 0,006 – zehnmal flüssiger als die Mocap-Baseline von v12), geht aber durchgehend rückwärts.

Warum es geschummelt hat. Zwei Endpunkt-Posen kodieren abwechselnde Bewegung – Bein eins ist hinten, während Bein zwei vorne ist, dann tauschen sie die Positionen. Aber sie kodieren keine Richtung. Pose 1 → Pose 2 → Pose 1 mit Sequenz A erzeugt Vorwärtsgehen. Mit Sequenz B (die gleichen Posen in umgekehrter Reihenfolge) erzeugt es Rückwärtsgehen. Die Dynamik ist symmetrisch; nur die zeitliche Reihenfolge bricht die Symmetrie.

Wir haben keine zeitliche Reihenfolge vorgegeben – nur zwei Endpunktziele. PPO konvergierte zum Rückwärts-Basin, weil in diesem Basin sowohl der „Alive“-Bonus als auch die Imitationsbelohnung zufällig etwas leichter zu erfüllen waren. Es gab keine Asymmetrie in der Belohnung, die der Strategie signalisierte: „vorwärts, nicht rückwärts“.

Lehre. Endpunkt-Posen ohne zeitliche Reihenfolge lassen die Richtung nicht eindeutig erkennen. Imitationslernen mit Sequenz (Mocap, bei dem die Posen zeitlich korrekt geordnet sind) führt zu Vorwärtsgehen. Imitationslernen ohne Sequenz (zwei Endpunkt-Posen) führt zu einem richtungsunabhängigen Gang, bei dem sich PPO in beide Richtungen einpendeln kann. Dies ist auch die Einschränkung, die das 2-Posen-Minimum-Mocap-Ergebnis funktionieren lässt – dort geben wir eine Posenreihenfolge vor, und die Geschwindigkeitsbelohnung sorgt für Richtungsdruck.

Modus 4: Adversarische strukturelle Prioren – Knie-Shuffle (v15)

Belohnung: Selbstüberwachtes „Diskriminator“-Scoring über drei strukturelle Metriken, die durch Signalverarbeitung des Rollouts berechnet werden. Periodizität (Autokorrelation der Gelenkbahnen), bilaterale Symmetrie (Kreuzkorrelation zwischen links und rechts bei halber Periode), Effizienz (Transportkosten). Keine Mocap-Daten, kein gelerntes Diskriminator-Netzwerk. Reine strukturelle Prioren im DSP-Stil.

Dies entspricht eher dem Geist des „selbstüberwachten humanoiden Gehens“ – keine Referenzdaten, die Strategie wird dafür belohnt, dass sie periodisch und symmetrisch wirkt.

Ergebnis: Vorwärtsgehen mit 0,44 m/s und einer spontan entstehenden Schrittfrequenz von 1,56 Hz – was im Bereich der natürlichen menschlichen Schrittfrequenz liegt –, aber auch Kniegehen (mittlere Beckenhöhe 0,46 m) und Wackeln (35° Beckenrollbereich).

Warum es geschummelt hat. Dasselbe grundlegende Problem wie bei v13. Ohne Anti-Cheat-Beschränkungen hinsichtlich der Beckenhöhe oder des Nicht-Fußkontakts fand die Strategie einen Kniekrabbelgang, der die Periodizitätsbelohnung erfüllt (linkes und rechtes Knie wechseln sich mit 1,56 Hz ab, perfekt periodisch). Bonus: Es krabbelt diesmal vorwärts, im Gegensatz zur stationären Bewegung von v13.

Die gute Nachricht: Die Kadenz, die sich ohne Überwachung herausbildet, ist interessant – sie deutet darauf hin, dass strukturelle A-priori-Annahmen tatsächlich zu biomechanisch sinnvollen Rhythmen führen. Die schlechte Nachricht: Der Rhythmus wird von den falschen Körperteilen ausgeführt.

Lehre. Selbst prinzipientreue strukturelle A-priori-Annahmen (die vernünftiger erscheinen als willkürliche Geschwindigkeitsbelohnungen) können durch degenerierte Gangarten erfüllt werden, wenn die Abbruchbedingung zu großzügig ist. Die strukturelle Priorität leistet echte Arbeit – die richtige Kadenz zu finden ist nicht trivial –, nur erfüllt „Kadenz in der falschen Höhe mit falschen Kontakten“ immer noch die Metrik.

Modus 5: LLM-iterierte Belohnung – der Flamingo auf Amphetaminen (v16)

Ansatz: Wir haben die Eureka-Methodik (NVIDIA, 2023) übernommen. Ein LLM schlägt K Kandidaten für Belohnungsfunktionen vor, jede wird kurz trainiert (2,5 Mio. PPO-Schritte), jede trainierte Policy wird durch eine separate, manuell codierte Fitnessfunktion bewertet, und das LLM sieht die Bewertungen und schlägt neue Kandidaten vor. 4 Iterationen × 3 Kandidaten × jeweils 2,5 Mio. Schritte = 12 trainierte Policies.

Dieses Mal fügten wir explizite Abbruchbedingungen hinzu, um das Knie-Laufmuster von v13/v15 zu verhindern: Becken unter 0,55 m → Episode wird beendet. Kein Bodenkontakt mit dem Fuß → Episode wird beendet. Wir dachten, wir hätten die offensichtlichen Fehlerquellen behoben.

Beste Kandidaten-Fitness: 83,5/100. Wir berichteten dies zunächst als Durchbruch.

Tatsächliches Verhalten: Einbeiniges Hüpfen. Der Roboter setzt seinen linken Fuß in 51 % der Fälle auf, hebt seinen rechten Fuß bis zu 0,77 m über den Boden (Hüfthöhe!) und hüpft nach vorne.

Das Kontaktmuster über 1000 Frames:

Kontaktmuster	Frame-Anzahl
Nur linker Fuß	511 (51,1 %)
Nur rechter Fuß	0 (0,0 %)
Beide Füße auf dem Boden	0 (0,0 %)
Beide in der Luft	489 (48,9 %)

Der rechte Fuß berührt buchstäblich nie den Boden. In 1000 Bildern. 20 Sekunden.

Warum es geschummelt hat. Unsere Fitnessfunktion überprüfte single_stance_frac > 30% als Nachweis für einen „zweibeinigen Gang“. Ein einbeiniger Hüpfer hat 51 % Einbeinstand (da er immer auf dem linken Fuß steht) und 0 % Nicht-Fußkontakt (er berührt den Boden nur mit dem aufgesetzten linken Fuß). Beide Prüfungen werden bestanden. Der Hüpfer war eine kreative degenerierte Lösung, die jedes numerische Kriterium erfüllte, das wir kodiert hatten.

Wir fügten Abbruchbedingungen hinzu, um das Laufen auf den Knien zu verhindern. Wir fügten Kontaktprüfungen pro Schritt hinzu, um ein Schlurfen zu verhindern. Die Policy fand eine neue degenerierte Lösung: ein Bein dauerhaft anzuheben. Jede defensive Metrik ist eine neue Degeneration, an die man nicht gedacht hat.

Der Rückzug

Das war der peinliche Fall. Der Kandidat erzielte 83,5 von 100 Punkten. Die numerischen Metriken sahen alle gut aus. Wir verfassten „v16 – LLM-iterierter Belohnungsdurchbruch, Gehen entsteht aus selbstiterierendem Belohnungsdesign“.

Dann sah sich der Nutzer das Video an.

„Das ist ein hüpfender Flamingo, kein gehender.“

Das ist es. Wenn man es einmal gesehen hat, kann man es nicht mehr ungesehen machen. Der Roboter hüpft auf seinem linken Fuß, während das rechte Bein dauerhaft hinter ihm gehalten wird, wie das angezogene Bein eines Flamingos.

Wir zogen die Durchbruchbehauptung zurück, fügten der Fitnessfunktion Überprüfungen der Kontaktfrequenz pro Fuß hinzu und führten den Lauf erneut durch. Die Zahl sank von 83,5/100 auf 12/100. Die entscheidende Metrik – „berühren beide Füße den Boden?“ – war in der von uns entworfenen Fitnessfunktion nicht enthalten, weil wir den Fehlerfall nicht vorhergesehen hatten, bei dem ein Fuß den Boden nie berührt.

Auch die Gegenüberstellung von Frame-Zählung und Sekunden spielte dabei eine Rolle. Der Tagebucheintrag von diesem Tag lautet: „Gehe immer von Sekunden aus, nicht von Frames.“ Ein Überleben von 30 Frames klingt nicht trivial; 0,6 Sekunden sind offensichtlich ein Zusammenbruch. Dieselbe numerische Tatsache wird je nach Einheit unterschiedlich interpretiert. Wir hatten Meilensteine bei der Frame-Zählung gefeiert, die unter 1 Sekunde Echtzeit lagen.

Warum die LLM-iterierte Belohnung es verschlimmert statt verbessert hat

Es gibt eine verlockende Interpretation von v16: „Ihr habt eine schlampige Version von Eureka ausgeführt. Eine sorgfältigere Fitnessfunktion hätte das Hüpfen erkannt.“ Das ist zur Hälfte richtig. Wir haben die Fitness anschließend verschärft, und dieselbe Strategie erzielte 12/100 Punkte. Aber dabei wird etwas Wichtiges übersehen, warum das überhaupt passiert ist.

Das durch LLM iterierte Belohnungsdesign weist einen bekannten Fehlermodus auf: Das LLM darf beliebige Belohnungsformen erfinden und ist gut darin, Belohnungsformen vorzuschlagen, die unter der aktuellen Fitnessfunktion hohe Fitnesswerte erzielen. Ist die Fitnessfunktion auch nur geringfügig unterdefiniert, findet das LLM Belohnungen, die diese Unterdefinition ausnutzen. Die Iterationsschleife beschleunigt die Entdeckung degenerierter Lösungen – sie konvergiert bei einer fehlerhaften Metrik schneller zu einer hohen Punktzahl, als es ein menschlicher Belohnungsingenieur tun würde.

Mit anderen Worten: Für jede festgelegte Fitnessfunktion wird eine LLM-iterierte Belohnungssuche eine Strategie hervorbringen, die speziell darauf optimiert ist, diese Fitnessfunktion auszunutzen. Wenn die Fitnessfunktion den Anteil der Single-Stance-Fälle prüft, wird die Strategie den Single-Stance-Anteil maximieren – unter anderem, indem sie den anderen Fuß niemals absetzt. Der Fehler in der Fitnessfunktion wird zu einem Merkmal, auf das das LLM optimiert.

Dies ist kein Argument gegen das LLM-iterierte Belohnungsdesign. Der nächste Beitrag dieser Reihe zeigt, dass es eine legitime Rolle spielt – nämlich die Qualität einer bereits vertrauenswürdigen Belohnung zu verbessern –, aber man muss von einer Fitnessfunktion ausgehen, der man vertraut, als ob ein entschlossener Gegner versuchen würde, sie zu knacken. In der Praxis bedeutet das: Jede Metrik braucht einen defensiven Zwilling, der ihre degenerierte Version abfängt.

Die übergreifende Erkenntnis

Fünf Versuche, fünf unterschiedliche Degenerationen:

v4–v8: Mikro-Shuffle (ausgenutzte Belohnung für Vorwärtsgeschwindigkeit)
v13: Kniewandern (ausgenutzte physikalische Prioren)
v14: Rückwärtsgehen (ausgenutzte Symmetrie der Posenpaare)
v15: wackeliges Krabbeln auf den Knien (ausgenutzte gegnerische strukturelle Belohnung)
v16: Einbeinhüpfen (ausgenutzte LLM-iterierte Belohnung + nachsichtige Fitness)

In jedem einzelnen Fall erfüllte die Strategie alle von uns festgelegten numerischen Kriterien, war aber qualitativ falsch. Das Muster ist nicht, dass „wir schlechte Belohnungen gewählt haben“. Das Muster ist: Bei schwierigen Problemen ist der Raum der „Belohnungserfüllung“ viel größer als der Raum des „richtigen Handelns“, und Policy-Optimierer sind außergewöhnlich gut darin, diese Lücke zu finden.

Dies ist die allgemeine Form des Alignment-Problems. Die Festlegung Ihrer Wünsche anhand von Metriken funktioniert nur, wenn Ihre Metriken erschöpfend sind. Das sind sie jedoch nie. Die Strategie wird die Ecke des Verhaltensraums finden, die bei dem, was Sie gemessen haben, hohe Punktzahlen erzielt, und überall dort versagt, wo Sie dies nicht getan haben.

Was tatsächlich funktioniert

In unserem Projekt war das Einzige, was visuell korrektes Gehen hervorbrachte, DeepMimic mit einer echten Motion-Capture-Referenz. v12 läuft mit 0,69 m/s mit korrekter Abwechselung, Doppelstützphasen und Armschwung. Die vollständigen Ergebnisse finden Sie im Mocap-Ablation-Beitrag – einschließlich der überraschenden Erkenntnis, dass zwei Posen ausreichen, solange die Posen eine Reihenfolge haben.

Das liegt nicht daran, dass die DeepMimic-Belohnung cleverer ist. Es liegt daran, dass die Referenz der Policy bei jedem Frame mitteilt, wie die richtige Antwort aussieht. Die Policy hat keinen Spielraum, einen degenerierten Gang zu erfinden, da die Gelenkziele jedes Frames durch die Mocap vorgegeben sind – bei jedem Zeitschritt wird die Policy dafür belohnt, dem Menschen zu entsprechen, nicht dafür, ein abstraktes Kriterium zu erfüllen.

Das ist entmutigend, wenn Ihr Ziel „RL ohne Mocap“ war. Es ist aufschlussreich, wenn Ihr Ziel „robuste humanoide Fortbewegung“ ist. **Das Überwachungssignal muss von irgendwoher kommen.**Das Weglassen von Motion-Capture zwingt die Überwachung durch die Belohnungsfunktion, und die Belohnungsfunktion ist manipulierbar.

Ein defensiver Stack, der die Fehler tatsächlich abfängt

Nach allen fünf Versuchen sieht der defensive Stack, der die von uns beobachteten Fehlermodi abfängt, wie folgt aus. Jede Schicht fängt eine Klasse von Degenerationen ab, die die anderen übersehen:

Abbruch aufgrund physikalischer Einschränkungen. Bei einer Beckenhöhe unter 0,65 m wird abgebrochen. Kontakt mit dem Boden ohne Fußkontakt führt zum Abbruch. Knieberührung mit dem Boden führt zum Abbruch. Die Policy kann nicht manipulieren, was ihren Alive-Bonus-Stream beendet. Dies fängt die Kniekriechen in v13 / v15 direkt ab.
Prüfung der Kontaktfrequenz pro Fuß. Beide Füße müssen in mindestens 20 % der Frames Bodenkontakt haben. Dies fängt das Hüpfen in v16 ab.
Schrittzähler. Ein echter Schritt erfordert eine Fußanhebung von ≥ 4 cm, eine Haltezeit von ≥ 3 Frames und eine Landung ≥ 6 cm vor der vorherigen Landung. Ein Zusammenbruch der Frame-Zeit erfüllt diese Anforderungen nicht. Dies erfasst durch Frames getarnte Stürze, wie die später von uns getesteten, ausschließlich auf Keyframes basierenden Bewertungen (behandelt im VLM-Kritikbeitrag).
Beobachten Sie die Simulation. Keine Fitnessfunktion übersteht den Vergleich mit einem tatsächlichen Video. Führen Sie einen Rollout mit 1000 Schritten durch, betrachten Sie ihn in Echtzeitgeschwindigkeit und fragen Sie sich, ob das, was Sie sehen, „das ist, was Sie wollten“. Der Nutzer, der sich v16 ansah, erkannte, was die Metriken übersehen hatten.

Jede Ebene fängt eine Fehlerklasse ab, die die darunterliegenden Ebenen nicht abfangen. Stapeln Sie sie. Ersetzen Sie nicht eine durch eine andere.

Was Sie daraus mitnehmen sollten

Für Praktiker, die an RL mit schwacher Überwachung arbeiten:

Vertrauen Sie nicht den aggregierten Fitnesswerten Ihrer eigenen Belohnung. Wenn Sie die Belohnung geschrieben haben, können Sie nicht selbst beurteilen, ob die Strategie der Absicht der Belohnung entspricht – die Absicht der Belohnung existiert nur in Ihrem Kopf. Beobachten Sie die Simulation. Speichern Sie Keyframes aus den Rollouts und überprüfen Sie diese in Echtzeitgeschwindigkeit.
Kodieren Sie Einschränkungen über die Beendigung, nicht über die Belohnung. Wenn Sie ein Becken von ≥ 0,65 m erfordern, beenden Sie die Episode. Die Belohnung kann nicht erzwingen, was der Simulator erzwingt.
Mehrere defensive Metriken lassen immer noch Lücken. Jeder Gangart-Fehlermodus in diesem Beitrag erforderte, dass wir nachträglich eine neue Überprüfung hinzufügten. Der nächste Fehlermodus ist der, an den wir noch nicht gedacht haben.
Rechne Frames in Sekunden um. „30-Frame-Überleben“ klingt nach Fortschritt. „0,6 Sekunden“ tut dies nicht. Wählen Sie die Einheit, die Ihr Ergebnis nicht schmeichelt.

Für Forscher, die neuartige Belohnungsformulierungen vorschlagen:

Testen Sie Ihre Belohnung an einer bekanntermaßen guten Strategie und einer bekanntermaßen schlechten Strategie. Wenn Ihre Belohnung beiden die gleiche Punktzahl gibt, misst Ihre Belohnung nicht das, was Sie glauben.
„Sieht vielversprechend aus“ nach einem kurzen Trainingslauf ist kein Beweis. Trainieren Sie lange genug, um zu sehen, wohin die Strategie konvergiert. Oft ist das Zwischenverhalten besser als das Endergebnis.
Wenn Ihre Methode erfordert, dass Sie ständig neue Metriken hinzufügen müssen, um neue Fehler zu erkennen, ist das ein Beweis dafür, dass das Überwachungssignal zu schwach ist, nicht dafür, dass die Methode falsch ist. Erwägen Sie, ein stärkeres Signal im Vorfeld hinzuzufügen (Motion Capture, Demonstrationen, menschliches Feedback), bevor Sie eine weitere defensive Überprüfung im Nachgang einbauen.

Wie sich das von innen anfühlte

Das Muster über drei Wochen hinweg war dieselbe emotionale Kurve, fünf Mal:

Tage 1–3: Belohnung implementieren, die Mathematik debuggen, einen Smoke-Test durchführen, einen langen Trainingslauf starten. Optimistisch. Diesmal wird es funktionieren – die vorherigen Ansätze waren zu grob, dieser hier verfügt über strukturelle Prioren / zeitliche Reihenfolge / LLM-Iteration, die das offensichtliche Problem beheben sollten.

Tage 4–5: Die Trainingsmetriken steigen auf hohe Werte. Die Episodenlänge stagniert bei 1000. Der Fitness-Score steigt. Wir sind auf der richtigen Spur.

Tag 6: Ein Video rendern, ansehen. Der Roboter macht etwas, das in gewisser technischer Hinsicht den Metriken entspricht. Es ist nicht das, was wir wollten.

Tag 7: Den neuen Fehlermodus als defensive Überprüfung notieren. Ihn zur Fitnessfunktion hinzufügen. Mit der neuen Überprüfung zur nächsten Belohnungsformulierung übergehen.

Es ist verlockend, dies als „Claude (oder jeder RL-Praktiker) war naiv“ zu interpretieren. Die ehrliche Version lautet, dass jeder einzelne dieser Fehlermodi für sich genommen vernünftig ist. Eine durch Vorwärtsgeschwindigkeit erzeugte Belohnung, die zu einem Mikro-Shuffle führt, ist in der Literatur dokumentiert. Physikalische Prioren, die Knie-Gänge erzeugen, kommen so häufig vor, dass sie einen eigenen informellen Namen haben (den „Kniekapsel-Puck“-Modus). Die Imitation einzelner Posen, die zu Richtungsambiguität führt, ist geometrisch notwendig, wenn man darüber nachdenkt. Einbeinhüpfen, das eine LLM-iterierte Belohnungssuche gewinnt, ist genau das, was die Eureka-Veröffentlichung vorhersagt, wenn man keine Kontaktprüfung pro Fuß einbezieht.

Was man im Voraus nicht tun kann, ist, sie alle aufzuzählen. Man entdeckt jede einzelne, wenn die Policy sie findet, und die Lektion, die man immer wieder lernt, lautet nicht „bessere Belohnungen entwerfen“ – sondern „die Metrik, die ich gerade definiert habe, ist die nächste, die die Policy ausnutzen wird.“ Der defensive Stack am Ende dieses Beitrags ist die Vereinigung aller Fehlermodi, auf die wir gestoßen sind; er schützt nicht vor dem nächsten.

Wie geht es weiter?

Zwei Folgebeiträge setzen diesen Faden fort:

Wir haben versucht, dieser Falle zu entkommen, indem wir ein LLM die Belohnungsfunktion für uns entwerfen ließen – eine Iteration im Eureka-Stil. Das ist der Beitrag zur LLM-Belohnungsiteration. Das Ergebnis ist eine differenziertere Version der obigen v16-Geschichte: Das LLM war gut darin, die Qualität der Belohnung zu verbessern, konnte aber die Überlebensklippe nicht überwinden. Der eigentliche Durchbruch kam aus einer anderen Richtung.

Wir versuchten dann, ein VLM (Claude Vision) die resultierenden Strategien bewerten zu lassen, anstatt auf handcodierte Fitness zu setzen, in der Hoffnung, dass das qualitative Urteil das aufgreifen würde, was die Metriken übersehen hatten. Das ist der VLM-Kritik-Beitrag – das VLM gab einem zusammenbrechenden Roboter 62/100 Punkte, denn wenn man sich 8 Keyframes ohne zeitlichen Kontext ansieht, wirkt selbst ein nach vorne fallender Humanoid plausibel.

Rechenaufwand

Jeder fehlgeschlagene Ansatz: 16 parallele Umgebungen × 10–30 Millionen PPO-Schritte ≈ 1,5–4 Stunden auf einer einzelnen Laptop-GPU. Gesamtlaufzeit für fünf fehlgeschlagene Ansätze und verschiedene Optimierungen innerhalb der einzelnen Versuche: etwa 40–60 GPU-Stunden über drei Wochen. Geringer Aufwand, aber kumulativ bedeutend für ein Ein-Personen-Projekt. Jeder Fehlversuch wurde mit ähnlichem Aufwand getestet wie die funktionierende Basislinie – es handelt sich nicht um halbherzige Versuche. Es sind ernsthafte Versuche von „RL ohne Mocap“, jeder mit einer eigenen, durch Fachartikel belegten Begründung, die alle von der Policy übertrumpft wurden.

Abhishek Nair - Fractional CTO für Deep Tech & AI

Robotics & AI Engineer

About & contact

Fünf Arten, wie ein Humanoid beim Gehen schummelt

Fünf Wege, wie ein Humanoid beim Laufen schummelt

Kurzfassung

Der Aufbau

Modus 1: Der Mikroschritt-Shuffle (v4–v8)

Modus 2: Das Krabbeln mit den Knien auf dem Boden (v13)

Modus 3: Rückwärtsgehen (v14)

Modus 4: Adversarische strukturelle Prioren – Knie-Shuffle (v15)

Modus 5: LLM-iterierte Belohnung – der Flamingo auf Amphetaminen (v16)

Der Rückzug

Warum die LLM-iterierte Belohnung es verschlimmert statt verbessert hat

Die übergreifende Erkenntnis

Was tatsächlich funktioniert

Ein defensiver Stack, der die Fehler tatsächlich abfängt

Was Sie daraus mitnehmen sollten

Wie sich das von innen anfühlte

Wie geht es weiter?

Rechenaufwand

Why trust this guide?

Enjoyed this post?

Fünf Arten, wie ein Humanoid beim Gehen schummelt

Fünf Wege, wie ein Humanoid beim Laufen schummelt

Kurzfassung

Der Aufbau

Modus 1: Der Mikroschritt-Shuffle (v4–v8)

Modus 2: Das Krabbeln mit den Knien auf dem Boden (v13)

Modus 3: Rückwärtsgehen (v14)

Modus 4: Adversarische strukturelle Prioren – Knie-Shuffle (v15)

Modus 5: LLM-iterierte Belohnung – der Flamingo auf Amphetaminen (v16)

Der Rückzug

Warum die LLM-iterierte Belohnung es verschlimmert statt verbessert hat

Die übergreifende Erkenntnis

Was tatsächlich funktioniert

Ein defensiver Stack, der die Fehler tatsächlich abfängt

Was Sie daraus mitnehmen sollten

Wie sich das von innen anfühlte

Wie geht es weiter?

Rechenaufwand

Why trust this guide?

Verwandte Artikel

Das VLM, das einen zusammenbrechenden Roboter mit 62/100 bewertete

Wenn LLMs Belohnungen iterieren: Ein Negativergebnis aus der humanoiden Lokomotion

Zwei Posen reichen aus: Wie viele Mocap-Daten braucht ein Humanoid zum Laufen?

Enjoyed this post?