Wolfram Burgard von der TU Nürnberg erklärt, wie Vision-Language-Action-Modelle Robotern helfen, ihre Umgebung zu verstehen – und warum das so schwierig ist.