In einer überraschenden Wendung hat Yann LeCun, der Chefwissenschaftler von Meta, generative KI-Modelle als “Sackgasse” bezeichnet. Während viele Unternehmen auf generative Ansätze wie ChatGPT oder Bildgeneratoren setzen, verfolgt Meta mit dem neuen Modell V-JEPA 2 einen fundamental anderen Ansatz. LeCun argumentiert, dass generative KI zwar beeindruckende Ergebnisse liefern könne, jedoch nicht in der Lage sei, ein tiefes Verständnis der physikalischen Welt zu entwickeln. Stattdessen setzt Meta auf die sogenannte “Joint Embedding Predictive Architecture” (JEPA), die es V-JEPA 2 ermöglicht, physikalische Zusammenhänge zu verstehen und vorherzusagen.

V-JEPA 2 ist ein selbstüberwachtes Videomodell mit 1,2 Milliarden Parametern, das speziell darauf ausgelegt ist, Bewegungen und Interaktionen in der realen Welt zu analysieren. Im Gegensatz zu generativen Modellen, die versuchen, zukünftige Frames auf Pixelebene vorherzusagen, arbeitet V-JEPA 2 in einem repräsentativen Raum. Dies ermöglicht es dem Modell, präzise Vorhersagen zu treffen, ohne dabei von der Unsicherheit hochdimensionaler Daten überwältigt zu werden. Laut Meta kann V-JEPA 2 Roboter steuern, ohne dass zusätzliches Training erforderlich ist, und erreicht dabei State-of-the-Art-Ergebnisse in der Bewegungserkennung und Aktionsvorhersage.

LeCun betonte, dass die Skalierung generativer Modelle nicht der richtige Weg sei, um maschinelle Intelligenz voranzutreiben. Stattdessen sieht er in Modellen wie V-JEPA 2 die Zukunft der KI-Entwicklung. Diese sollen nicht nur physikalische Prinzipien verstehen, sondern auch langfristige Prognosen ermöglichen und sich flexibel an neue Aufgaben anpassen. Meta plant, die Fähigkeiten von V-JEPA 2 weiter auszubauen, um umfassende Weltmodelle für autonome Systeme zu schaffen.

Quellen