La startup con sede en San Francisco, Goodfire, ha lanzado una herramienta llamada Silico que permite a investigadores e ingenieros asomarse al interior de un modelo de IA y ajustar sus parámetros (las configuraciones que determinan el comportamiento del modelo) durante el entrenamiento. Esto podría dar a los creadores de modelos un control más detallado sobre cómo se construye esta tecnología de lo que antes se creía posible, siempre y cuando no les importe ensuciarse un poco las manos.
Goodfire afirma que Silico es la primera herramienta comercial de su tipo que ayuda a los desarrolladores a depurar todas las etapas del proceso de desarrollo, desde la construcción de un conjunto de datos hasta el entrenamiento de un modelo. La empresa dice que su misión es hacer que construir modelos de IA sea menos como alquimia y más como ciencia. Claro, los LLM como ChatGPT y Gemini pueden hacer cosas increíbles. Pero nadie sabe exactamente cómo o por qué funcionan, y eso puede dificultar la corrección de sus fallos o el bloqueo de comportamientos no deseados.
“Vimos esta brecha cada vez mayor entre lo bien que se entendían los modelos y lo ampliamente que se estaban implementando”, dice Eric Ho, CEO de Goodfire, en una charla exclusiva con MIT Technology Review antes del lanzamiento de Silico. “Creo que el sentimiento dominante en todos los grandes laboratorios de frontera hoy es que solo necesitas más escala, más cómputo, más datos, y entonces obtienes AGI [inteligencia general artificial] y nada más importa. Y nosotros decimos que no, que hay una mejor manera”.
Goodfire es una de las pocas empresas, incluyendo a los líderes de la industria Anthropic, OpenAI y Google DeepMind, que están pioneros en una técnica conocida como interpretabilidad mecanicista, que busca entender lo que sucede dentro de un modelo de IA cuando realiza una tarea, mapeando sus neuronas y las vías entre ellas. (MIT Technology Review eligió la interpretabilidad mecanicista como una de sus 10 Tecnologías Revolucionarias de 2026, así que ya saben que es legítima). Goodfire quiere usar este enfoque no solo para auditar modelos (es decir, estudiar aquellos que ya han sido entrenados), sino para ayudar a diseñarlos desde el principio.
“Queremos eliminar el ensayo y error y convertir el entrenamiento de modelos en ingeniería de precisión”, dice Ho. “Y eso significa exponer las perillas y diales para que puedas usarlos durante el proceso de entrenamiento”. Goodfire ya ha utilizado sus técnicas y herramientas para ajustar los comportamientos de los LLM, por ejemplo, reduciendo el número de alucinaciones que producen. Con Silico, la empresa ahora está empaquetando muchas de esas técnicas internas y enviándolas como producto.
La herramienta utiliza agentes para automatizar gran parte del trabajo complejo. “Los agentes ahora son lo suficientemente fuertes como para hacer gran parte del trabajo de interpretabilidad que hacíamos con humanos”, dice Ho. “Esa era la brecha que necesitaba ser superada antes de que esto fuera realmente una plataforma viable que los clientes pudieran usar por sí mismos”.
Leonard Bereska, investigador de la Universidad de Ámsterdam que ha trabajado en interpretabilidad mecanicista, cree que Silico parece una herramienta útil. Pero se opone a las aspiraciones más elevadas de Goodfire. “En realidad, están añadiendo precisión a la alquimia”, dice. “Llamarlo ingeniería lo hace sonar más fundamentado de lo que es”.
Silico te permite acercarte a partes específicas de un modelo entrenado, como neuronas individuales o grupos de neuronas, y ejecutar experimentos para ver qué hacen esas neuronas. (Suponiendo que tengas acceso al funcionamiento interno del modelo. La mayoría de la gente no podrá usar Silico para hurgar dentro de ChatGPT o Gemini, pero puedes usarlo para mirar los parámetros dentro de muchos modelos de código abierto). Luego puedes verificar qué entradas hacen que diferentes neuronas se activen, y rastrear vías aguas arriba y aguas abajo de una neurona para ver cómo otras neuronas la afectan y cómo ella afecta a otras neuronas a su vez.
Por ejemplo, Goodfire encontró una neurona dentro del modelo de código abierto Qwen 3 que estaba asociada con el llamado problema del tranvía. Activar esta neurona cambió las respuestas del modelo, haciendo que enmarcara sus salidas como dilemas morales explícitos. “Cuando esta neurona está activa, ocurren todo tipo de cosas extrañas”, dice Ho. Identificar la fuente de comportamientos extraños