Les modèles d'IA qui interagissent avec le monde physique ont besoin de données sur la façon dont les choses bougent et existent dans l'espace, mais contrairement aux modèles de langage, il n'y a pas de pile pratique de textes Internet à gratter. Entrez Origin Lab, qui a levé 8 millions de dollars en financement d'amorçage mené par Lightspeed Ventures, avec la participation de SV Angel, Eniac, Seven Stars et FPV, plus des chèques d'anges de Kevin Lin, co-fondateur de Twitch, et Kyle Vogt, fondateur de Cruise.

Le pitch de la startup est simple : les entreprises de jeux vidéo ont des tonnes d'actifs numériques déjà optimisés pour la physique et le mouvement, et les labos d'IA comme l'AMI Labs de Yann LeCun ou le World Labs de Fei-Fei Li adoreraient acheter ces données. Origin Lab agit comme intermédiaire, convertissant les actifs de jeux en données d'entraînement utilisables - que ce soit un simple rendu ou l'automatisation d'heures de séquences de jeu.

"Les systèmes d'IA en cours de construction ont besoin de comprendre comment le monde physique fonctionne et comment les choses bougent," a déclaré la co-CEO Anne-Margot Rodde à TechCrunch. "Ces données vivent essentiellement dans les jeux vidéo." Les autres co-fondateurs de l'entreprise sont Antoine Gargot et Colin Carrier.

L'idée n'est pas nouvelle - les labos convoitent depuis longtemps les séquences de jeux vidéo, mais les problèmes de licence et de qualité des données ont été des obstacles. En décembre 2024, le modèle vidéo Sora d'OpenAI a provoqué un petit scandale en régurgitant apparemment des séquences de jeux populaires et de streams Twitch, probablement parce qu'il avait été entraîné dessus. Amazon a également été ouvert sur son souhait d'utiliser des séquences Twitch pour l'entraînement de modèles.

La levée de 8 millions d'Origin signale un marché croissant pour les fournisseurs de données aux grands labos d'IA. Faraz Fatemi, partenaire de Lightspeed qui a mené l'investissement, a noté que des entreprises comme Scale AI ont montré à quel point les revenus peuvent grimper pour les vendeurs de données servant des labos bien capitalisés. "Le goulot d'étranglement pour eux tous, c'est les données," a-t-il dit.