I modelli di IA che interagiscono con il mondo fisico hanno bisogno di dati su come le cose si muovono e esistono nello spazio, ma a differenza dei modelli linguistici, non c'è un comodo mucchio di testo da raschiare da Internet. Entra in scena Origin Lab, che ha raccolto 8 milioni di dollari in finanziamenti seed guidati da Lightspeed Ventures, con la partecipazione di SV Angel, Eniac, Seven Stars e FPV, più assegni angelici dal co-fondatore di Twitch Kevin Lin e dal fondatore di Cruise Kyle Vogt.
La proposta della startup è semplice: le aziende di videogiochi hanno tonnellate di asset digitali già ottimizzati per la fisica e il movimento, e laboratori di IA come AMI Labs di Yann LeCun o World Labs di Fei-Fei Li adorerebbero comprare quei dati. Origin Lab funge da intermediario, convertendo gli asset dei giochi in dati di addestramento utilizzabili - che si tratti di un semplice rendering o dell'automazione di ore di filmati di gameplay.
"I sistemi di IA che vengono costruiti ora devono capire come funziona il mondo fisico e come si muovono le cose," ha detto la co-CEO Anne-Margot Rodde a TechCrunch. "Quei dati vivono essenzialmente nei videogiochi." Gli altri co-fondatori dell'azienda sono Antoine Gargot e Colin Carrier.
L'idea non è nuova - i laboratori hanno a lungo guardato ai filmati dei videogiochi, ma le questioni di licenze e qualità dei dati sono state ostacoli. Nel dicembre 2024, il modello video Sora di OpenAI ha causato un piccolo scandalo apparentemente rigurgitando filmati di giochi popolari e stream di Twitch, presumibilmente perché era stato addestrato su di essi. Anche Amazon è stata aperta riguardo al voler utilizzare filmati di Twitch per l'addestramento dei modelli.
La raccolta di 8 milioni di Origin segnala un mercato in crescita per i fornitori di dati ai grandi laboratori di IA. Faraz Fatemi, partner di Lightspeed che ha guidato l'investimento, ha notato che aziende come Scale AI hanno mostrato quanto nettamente i ricavi possano scalare per i venditori di dati che servono laboratori ben finanziati. "Il collo di bottiglia per tutti loro sono i dati," ha detto.