Das VLM, das einen zusammenbrechenden Roboter mit 62/100 bewertete
Nachdem Metriken weiterhin degenerierte Gänge übersahen und LLM-iterierte Belohnungen an der Überlebensklippe scheiterten, haben wir ein Vision-Language-Modell als Fitness-Scorer ausprobiert. Das VLM war strenger als Metriken und lieferte umsetzbare Fehlerbeschreibungen — und es bewertete einen zusammenbrechenden Roboter mit 62/100. Eine Fallstudie zur ehrlichen Bewertung, plus dem vierschichtigen Evaluierungsstack, auf den wir uns geeinigt haben.