2월, 이 기자는 런던에서 열린 반(反)AI 행진에서 전단지를 하나 주웠다. 거기에는 '사우스 파크'의 팬티 도깨비들을 의도적으로 오마주한 것일 수도 있고 아닐 수도 있는 문구가 적혀 있었다: "1단계: 디지털 초지능 키우기. 2단계: ? 3단계: ?" 시위를 공동 주최한 활동가 그룹 Pause AI가 제작한 이 전단지는 "2단계가 도대체 뭔지 알 때까지 AI를 멈춰라"는 호소로 끝을 맺었다.

모르는 사람들을 위해 설명하자면, 이는 1998년 '사우스 파크' 에피소드에서 케니, 카일, 카트먼, 스탠이 "1단계: 팬티 모으기. 2단계: ? 3단계: 이익"이라는 사업 계획을 가진 도깨비들을 발견하는 장면을 가리킨다. 그 이후로 이 밈은 스타트업 전략부터 일론 머스크의 화성 임무 자금 조달 계획까지 모든 것을 풍자하는 데 사용되어 왔다. 지금 이 순간, 이 밈은 AI의 현 상태를 완벽하게 포착한다: 기업들은 기술을 구축했고(1단계), 변화를 약속했다(3단계). 그러나 그 사이를 어떻게 채울지는 여전히 거대한 물음표다.

Pause AI는 2단계가 반드시 규제를 포함해야 한다고 믿지만, 정확히 어떤 모습이고 누가 집행할지는 논쟁 중이다. 한편 AI 지지자들은 3단계가 구원이라고 확신하며 중간 부분을 완전히 건너뛰는 경향이 있다. OpenAI의 수석 과학자 야쿠프 파초키는 AI를 "경제적으로 변혁을 가져올 기술"이라고 묘사했으며, 밝은 언덕이 바로 저 너머에 있는 것처럼 보인다. 하지만 모두가 다른 길을 가고 있으며, 누가 성공할지는 아무도 모른다.

미래에 대한 모든 거창한 주장에는 냉정한 현실 확인이 따른다. 최근 두 연구를 고려해 보자. 하나는 Anthropic이 LLM이 가장 큰 영향을 미칠 직업을 예측한 것으로, 관리자, 건축가, 미디어 관계자는 변화에 대비해야 하고, 관리인, 건설 노동자, 접객업 종사자는 그렇지 않다. 하지만 이러한 예측은 실제로 LLM이 직장에서 어떻게 수행되는지가 아니라 LLM이 잘하는 것처럼 보이는 것에 기반한 추측에 불과하다.

2월에 AI 채용 스타트업 Mercor의 연구자들이 수행한 또 다른 연구에서는 OpenAI, Anthropic, Google DeepMind의 최고 모델로 구동되는 여러 AI 에이전트를 인간 은행가, 컨설턴트, 변호사가 일상적으로 수행하는 480개의 직장 업무에 대해 테스트했다. 모든 에이전트는 대부분의 임무를 완료하는 데 실패했다.

왜 이렇게 의견이 분분할까? 우선, 누가 주장을 하고 왜 그런지 고려해 보자. Anthropic은 이해관계가 있다. 곧 큰 일이 일어날 것이라고 말하는 사람들은 대부분 AI 코딩 도구가 얼마나 빠르게 개선되고 있는지에 근거한다. 하지만 모든 작업이 코딩으로 해결될 수 있는 것은 아니다. 다른 연구들은 LLM이 전략적 판단에 약하다는 것을 발견했다.

더 중요한 것은, 도구가 클린룸에 투입되지 않는다는 점이다. 사람과 기존 워크플로우로 오염된 장소에서 작동해야 하며, 때로는 AI를 추가하면 상황이 더 악화되기도 한다. 물론, 이러한 워크플로우를 찢어버리고 새로운 기술에 맞춰 재구성해야 할 수도 있지만, 그렇게 하려면 시간과 용기가 필요하다.

그 큰 구멍? 바로 2단계가 있어야 할 자리다. 앞으로 무슨 일이 일어날지, 어떻게 일어날지에 대한 합의 부재는 정보의 진공 상태를 만들고, 그 자리를 증거는 무시한 채 가장 최근의 터무니없는 주장이 채운다. 우리는 실제 이해와 너무 동떨어져 있어서 단 하나의 소셜 미디어 게시물이 시장을 흔들 수 있다.

우리는 더 적은 추측과 더 많은 증거가 필요하다. 이를 위해서는 모델 제작자의 투명성, 연구자와 기업 간의 조정, 현실 세계에서 이 기술을 평가할 새로운 방법이 필요하다. 기술 산업, 그리고 그와 함께 세계 경제는 AI가 변혁적일 것이라는 약속에 달려 있다. 하지만 아직 확실한 내기는 아니다. 다음에 대담한 주장을 들으면 기억하라: 대부분의 기업은 여전히 자신의 팬티로 무엇을 할지 고민 중이다.