Los modelos de IA que interactúan con el mundo físico necesitan datos sobre cómo se mueven y existen las cosas en el espacio, pero a diferencia de los modelos de lenguaje, no hay un montón de texto de internet para raspar. Entra Origin Lab, que ha recaudado 8 millones de dólares en financiación inicial liderada por Lightspeed Ventures, con participación de SV Angel, Eniac, Seven Stars y FPV, más cheques ángel del cofundador de Twitch, Kevin Lin, y del fundador de Cruise, Kyle Vogt.

La propuesta de la startup es sencilla: las empresas de videojuegos tienen toneladas de activos digitales ya optimizados para física y movimiento, y laboratorios de IA como AMI Labs de Yann LeCun o World Labs de Fei-Fei Li encantados comprarían esos datos. Origin Lab actúa como intermediario, convirtiendo activos de juegos en datos de entrenamiento utilizables, ya sea una simple ejecución de renderizado o automatizando horas de metraje de gameplay.

"Los sistemas de IA que se están construyendo ahora necesitan entender cómo funciona el mundo físico y cómo se mueven las cosas", dijo a TechCrunch la co-CEO Anne-Margot Rodde. "Esa datos esencialmente viven en los videojuegos". Los otros cofundadores de la empresa son Antoine Gargot y Colin Carrier.

La idea no es nueva: los laboratorios llevan tiempo echando el ojo a metraje de videojuegos, pero los problemas de licencias y calidad de datos han sido obstáculos. En diciembre de 2024, el modelo de video Sora de OpenAI causó un pequeño escándalo al regurgitar aparentemente metraje de juegos populares y streams de Twitch, presumiblemente porque había sido entrenado con ellos. Amazon también ha sido abierto sobre querer usar metraje de Twitch para entrenar modelos.

La recaudación de 8 millones de Origin señala un mercado creciente para proveedores de datos a grandes laboratorios de IA. Faraz Fatemi, socio de Lightspeed que lideró la inversión, señaló que empresas como Scale AI han mostrado cómo los ingresos pueden escalar bruscamente para vendedores de datos que sirven a laboratorios bien capitalizados. "El cuello de botella para todos ellos son los datos", dijo.