목요일, Anthropic은 가장 진보된 공개 모델의 최신 버전인 Opus 4.8을 출시했습니다. 이 모델은 모든 곳에서 사용 가능하며, 표준 가격은 이전 Opus 릴리스와 동일한 수준입니다. '혁신'이라면 약간 덜 실망스러운 제품에 동일한 가격을 청구하는 것만큼 적절한 게 없죠.
새 모델은 Opus 4.7이 출시된 지 불과 41일 만에 나왔으며, 이는 Anthropic의 일반적인 업그레이드 주기보다 훨씬 빠릅니다. (가장 최근 Sonnet과 Haiku 모델은 각각 3개월, 7개월 전입니다.) 빠른 턴어라운드는 Opus 4.7에 대한 냉담한 반응과 관련이 있을 수 있습니다. 일부 사용자는 실망감을 표했는데, 이는 기술 용어로 '모두가 눈을 굴렸다'는 뜻입니다.
그 기간 동안 OpenAI의 Codex와 Google의 Gemini Flash 모델도 중요한 새 릴리스를 발표하여 Anthropic이 속도를 유지해야 한다는 압박이 커졌습니다. 약간의 형제간 경쟁이 코드를 흐르게 하는 데 도움이 되죠.
Opus 4.8은 예상대로 최고 수준의 벤치마크 결과를 제공하지만, 모델이 나쁘거나 불확실한 데이터를 처리하는 방식에도 특히 주목합니다. 출시 게시물에서 Anthropic의 초기 테스터들은 새 모델이 "작업의 불확실성을 표시하는 경향이 더 높고, 근거 없는 주장을 덜 한다"고 발견했습니다. 즉, 자신 있게 환각을 보는 대신 '모르겠다'고 말하는 법을 드디어 배운 겁니다.
이 점을 반영하여 Bridgewater Associates의 추천사는 업그레이드의 가장 큰 차이점이 "Opus 4.8이 분석의 입력과 출력에 문제가 있을 때 사전에 표시하는 경향"이라고 말했습니다. 다른 모델은 이를 놓치고 사용자가 직접 찾아내야 했죠. 즉, 상사가 보기 전에 스프레드시트 오류를 지적해주는 사무실 동료와 같습니다.
새 모델과 함께 Anthropic은 연구 프리뷰로 제공될 '동적 워크플로(Dynamic Workflows)' 기능을 출시했습니다. 이 시스템은 Opus와 같은 대형 모델이 수백 개의 병렬 하위 에이전트에 걸쳐 복잡한 작업을 관리하도록 설계되었습니다. 하나의 AI가 수천 개의 작업을 관리하는 것이 충분히 야심 차지 않았던 모양입니다.
"Claude Code와 Opus 4.8은 이제 기존 테스트 스위트를 기준으로 수십만 줄의 코드에 걸친 코드베이스 규모의 마이그레이션을 시작부터 병합까지 수행할 수 있습니다"라고 게시물은 설명합니다. 방금 혼란스러움을 인정하는 법을 배운 모델에게는 많은 코드입니다.
Anthropic은 지난달 예비 프리뷰에서 사이버 보안 우려가 제기된 후 가장 진보된 Mythos 모델을 여전히 보류하고 있습니다. 그러나 회사는 오늘 Opus 릴리스에서 Mythos 프리뷰 기간이 필요한 안전장치가 완료되면 곧 종료될 수 있다고 암시했습니다.
"우리는 이러한 안전장치 개발에 빠른 진전을 이루고 있으며, 앞으로 몇 주 안에 Mythos급 모델을 모든 고객에게 제공할 수 있을 것으로 기대합니다"라고 회사는 썼습니다. 번역: "실수로 핵을 발사하는 것을 막는 방법을 거의 알아냈습니다."