Modelos de IA que interagem com o mundo físico precisam de dados sobre como as coisas se movem e existem no espaço, mas, ao contrário dos modelos de linguagem, não há uma pilha conveniente de texto da internet para raspar. Entre em cena a Origin Lab, que levantou US$ 8 milhões em financiamento inicial liderado pela Lightspeed Ventures, com participação da SV Angel, Eniac, Seven Stars e FPV, além de cheques anjos do cofundador do Twitch, Kevin Lin, e do fundador da Cruise, Kyle Vogt.

A proposta da startup é direta: empresas de videogame têm toneladas de ativos digitais já otimizados para física e movimento, e laboratórios de IA como o AMI Labs de Yann LeCun ou o World Labs de Fei-Fei Li adorariam comprar esses dados. A Origin Lab atua como intermediária, convertendo ativos de jogos em dados de treinamento utilizáveis - seja uma simples renderização ou automatizando horas de filmagens de gameplay.

"Os sistemas de IA que estão sendo construídos agora precisam entender como o mundo físico funciona e como as coisas se movem", disse a co-CEO Anne-Margot Rodde ao TechCrunch. "Esses dados essencialmente vivem em videogames." Os outros cofundadores da empresa são Antoine Gargot e Colin Carrier.

A ideia não é nova - laboratórios há muito tempo estão de olho em filmagens de videogames, mas questões de licenciamento e qualidade de dados têm sido obstáculos. Em dezembro de 2024, o modelo de vídeo Sora da OpenAI causou um pequeno escândalo ao aparentemente regurgitar filmagens de jogos populares e streams do Twitch, presumivelmente porque foi treinado neles. A Amazon também tem sido aberta sobre querer usar filmagens do Twitch para treinamento de modelos.

Os US$ 8 milhões levantados pela Origin sinalizam um mercado crescente para fornecedores de dados para grandes laboratórios de IA. Faraz Fatemi, sócio da Lightspeed que liderou o investimento, observou que empresas como a Scale AI mostraram como a receita pode escalar acentuadamente para fornecedores de dados que atendem laboratórios bem capitalizados. "O gargalo para todos eles são os dados", disse ele.