관리 클리셰 중에 '측정되는 것이 관리된다'는 말이 있습니다. 소프트웨어 엔지니어들은 수십 년간 '코드 라인 수'라는 고전적인 지표부터 시작해 자신들을 어떻게 측정할지 논쟁해 왔습니다. 이제 Claude Code, Cursor, Codex 같은 AI 코딩 에이전트가 저장소를 역사상 가장 많은 코드로 채우면서, 관리자들은 도대체 무엇을 세어야 할지 고민에 빠졌습니다. 기묘한 새로운 지위 게임에서, 거대한 '토큰 예산'(개발자가 허가받은 AI 처리 능력 소모량)이 실리콘밸리에서 명예의 배지가 되었는데, 이는 생산성에 대해 생각하는 방식으로는 심각하게 이상합니다. 출력을 중시한다면 입력을 측정하는 건 별 의미가 없습니다. 당신의 목표가 단순히 AI 도입을 장려하거나, 편리하게도 더 많은 토큰을 판매하는 게 아니라면 말이죠.
새로운 '개발자 생산성 통찰' 기업들이 이 과대광고를 꿰뚫는 데이터를 제공하고 있습니다. 그들은 AI 도구를 사용하는 개발자들이 훨씬 더 많은 '승인된' 코드를 생성하지만, 그 '승인된' 코드를 수정하기 위해 훨씬 더 자주 돌아와야 한다는 사실을 발견했으며, 이는 생산성 급증 주장을 심각하게 훼손합니다. Waydev의 CEO이자 창립자인 Alex Circei는 이러한 역학을 추적하는 인텔리전스 레이어를 구축 중입니다. 그의 회사는 10,000명 이상의 소프트웨어 엔지니어를 고용한 50개의 다른 고객사와 협력하고 있습니다. 그는 엔지니어링 관리자들이 초기 AI 코드 승인율을 80%에서 90%로 보지만, 그 뒤따르는 혼란을 놓치며, 이로 인해 실제 세계의 지속적인 승인율이 생성된 코드의 단 10%에서 30% 사이로 떨어진다고 지적합니다.
이러한 도구들의 부상은 2017년 개발자 분석을 제공하기 위해 설립된 Waydev가 지난 6개월 동안 플랫폼을 완전히 재작업하게 만들었습니다. 이 회사는 이제 AI 에이전트가 생성한 메타데이터를 추적하는 새로운 도구를 출시하며, 관리자들에게 AI 도입과 실제 효능에 대한 통찰력을 제공하기 위해 코드의 품질과 비용에 대한 분석을 제공하고 있습니다. 분석 회사들이 해결할 문제를 찾는 데 이해관계가 있긴 하지만, 대규모 조직들이 여전히 AI 도구 사용을 어설프게 다루고 있다는 증거가 쌓여가고 있습니다. 주요 기업들도 주목하고 있습니다. Atlassian은 지난해 다른 엔지니어링 인텔리전스 스타트업 DX를 10억 달러에 인수해 고객들이 코딩 에이전트에 대한 투자 수익률을 이해하도록 돕고 있습니다.
전 산업의 데이터는 일관적이고 약간 우울한 이야기를 전합니다: 더 많은 코드가 작성되고 있지만, 불균형적으로 많은 양이 오래가지 못하고 있습니다. GitClear는 1월에 보고서를 발표하며 AI 도구가 생산성을 증가시켰지만, 그 데이터는 '일반적인 AI 사용자가 비 AI 동료들보다 평균 9.4배 더 높은 코드 혼란을 보였다'는 것을 발견했습니다. 이는 도구가 제공한 생산성 증가의 두 배 이상입니다. Faros AI는 2026년 3월 보고서를 위해 2년간의 고객 데이터를 바탕으로, 코드 혼란(추가된 라인 대 삭제된 라인)이 높은 AI 도입 하에서 놀라운 861% 증가했다는 것을 발견했습니다.
AI 통합 엔지니어링을 위한 인텔리전스 플랫폼인 Jellyfish는 2026년 1분기에 7,548명의 엔지니어에 대한 데이터를 수집했습니다. 그들의 발견은 특히 의미심장했습니다: 가장 큰 토큰 예산을 가진 엔지니어들이 가장 많은 풀 리퀘스트를 생성했지만, 생산성 향상은 규모에 맞지 않았습니다. 그들은 토큰 비용의 열 배로 두 배의 처리량을 달성했습니다. 다시 말해, 이 도구들은 가치가 아닌 양을 생성하고 있습니다. 이러한 통계는 코드 리뷰와 기술 부채가 쌓여가고 있다고 보고하는 개발자들에게 사실로 들립니다. 그들은 경이로운 속도로 코드를 생성할 수 있는 새로운 자유를 누리면서도 말이죠.