챗봇에게 레시피를 물어보고 화학무기 제조법을 받아본 사람이라면 누구도 놀라지 않을 소식입니다. 새로운 연구에 따르면, AI와의 장기적이고 깊은 상호작용은 잘못된 정보를 얻거나 망상에 빠지거나 더 나쁜 상황에 처할 수 있는 훌륭한 방법입니다. OpenAI의 ChatGPT나 Perplexity 같은 인기 도구를 포함한 이 기술은 아직 정교한 추론, 논리, 심층 분석을 처리할 준비가 되어 있지 않습니다. 위대한 철학자 소크라테스가 말했을 법한 표현을 빌리자면, 잠재적으로 위험한 결과를 초래하는 대화의 토끼굴에 빠지지 않으려면, AI를 많이 쓰되 나쁘게 쓰기보다는 조금 쓰되 잘 쓰는 게 낫습니다.

이 현명한 조언은 스탠포드 대학교 인간중심 AI 그룹의 '연간 AI 지수 2026' 보고서 최신 결과에서 더욱 강조됩니다. 데이터에 따르면, 소위 에이전트 AI는 제한적이고 명확히 정의된 작업, 특히 일상적인 온라인 프로세스와 관련된 작업에서 놀라울 정도로 능숙해지고 있습니다. GAIA, OSWorld, WebArena라는 세 가지 핵심 벤치마크에서 AI 에이전트들은 데이터베이스 열기, 정책 규칙 적용하기, 고객 기록 업데이트하기 같은 다단계 작업에서 인간 수준의 성능에 근접하고 있습니다.

숫자는 빠르지만 불균형한 진전을 보여줍니다. GAIA 테스트에서 AI 정확도는 1년 전 20%에서 74.5%로 급증했지만, 여전히 인간 벤치마크인 92%에는 못 미칩니다. OSWorld에서는 Anthropic의 Claude Opus 4.5 모델이 작업의 66.3%를 해결하며, 컴퓨터 공학 학생들이 해결한 72%와 불과 6%포인트 차이를 보입니다. WebArena에서는 모델들이 이제 인간 기준 정확도 78.2%와 4%포인트 이내로 접근하고 있습니다. 웹 브라우저 조작이나 자연어 프롬프트를 통한 데이터베이스 쿼리는 AI가 처리하기 쉬운 시나리오 중 하나이니, 이는 당연한 일입니다.

그러나 편집장 Sha Sajadieh가 이끄는 스탠포드 학자들이 더 깊은 종류의 작업을 파헤쳤을 때, 상황은 훨씬 덜 고무적이었습니다. 연구에 따르면 모델들은 단순한 조회 작업은 잘 처리하지만, 복잡하고 다면적인 분석을 수행하라는 요청을 받으면 심각하게 어려움을 겪습니다. 이는 중요한 경고입니다: 명확히 정의된 작업이라도 항상 봇의 출력을 확인해야 합니다. 평균 벤치마크 점수는 여전히 인간 능력에 미치지 못하며, 실제 성능은 더욱 신뢰할 수 없을 가능성이 높기 때문입니다.