마이크로소프트 AI CEO 무스타파 술레이만은 최근 MIT 테크놀로지 리뷰에서 컴퓨팅이 "거의 인간 수준의 에이전트" 문턱에 도달했다고 선언했다. 대단한 소식이다. 단, 이들이 실수로 개인 의료 기록을 낯선 사람에게 이메일로 보내지 않도록 하는 방법을 알아낼 수 있다면 말이다.
데이터브릭스의 'AI 에이전트 현황' 보고서에 따르면, 조직의 19%만이 AI 에이전트를 배포했으며, 그마저도 대부분 제한적으로 사용 중이다. 데이터브릭스 AI 책임자 크레이그 와일리는 ZDNET에 CFO들이 세 가지를 우려한다고 말했다: 통제, 품질, 비용. 기본적으로 십대 자식에 대한 걱정과 같지만, 데이터 유출이 더 많다는 점이 다르다.
와일리의 첫 번째 모범 사례는 거버넌스, 특히 에이전트가 접근할 수 있는 데이터를 통제하는 것이다. 그는 여성 건강 앱 Flow를 예로 들었다. 이 앱은 7500만 사용자를 보유하고 있으며, 한 사람의 배란 차트를 다른 사람의 것과 혼동할까 봐 두려워한다. "앱 사용자가 다른 사용자의 정보가 포함된 응답을 받는 것은 마지막으로 원하는 일이다"라고 와일리는 말했다. 데이터 유출 헤드라인을 본 적이 없는 사람의 과소평가다.
자산 운용사 프랭클린 템플턴은 포트폴리오 보고서에서 비슷한 문제에 직면한다. 아무도 재정 고문으로부터 "고객님, 여기 다른 사람의 순자산입니다"로 시작하는 이메일을 받고 싶어 하지 않는다. 와일리는 데이터 분할이 "결정론적으로 강제"되어야 하며, 단순히 프롬프트에 제안되어서는 안 된다고 강조한다. AI는 산만한 인턴처럼 가장 저항이 적은 길을 택할 것이기 때문이다.
두 번째 관행은 평가다. Flow 개발자가 정확성을 보장해야 했을 때, 프로그래머에게 결과를 판단하도록 요청하지 않고 실제 의사에게 물었다. "소프트웨어 프로그래머는 오케스트레이션 시스템을 작성하지만, '이 응답에는 추가 맥락이나 설명이 필요하다'고 말하는 것은 의사였다"라고 와일리는 설명했다. 평가는 지속적으로 이루어져야 하며, 최종 답변뿐만 아니라 에이전트 사고의 모든 중간 단계를 확인해야 한다. 이를 수행하는 회사는 에이전트를 프로덕션에 투입할 가능성이 6배 더 높다. 이는 평가의 증거이거나 다른 모든 회사에 대한 가혹한 비판이다.
세 번째 우려인 비용은 기본적으로 처음 두 가지를 올바르게 수행한 대가다. "이 두 가지를 할 수 있다면, 솔직히 나머지는 구현 세부 사항일 뿐이다"라고 와일리는 말했다. 그러나 비용은 사전에 고려되어야 한다: "이것이 오늘날 합리적인 비용 범위 내에서 해결할 수 있는 문제인가? 해결할 수 있다고 가정할 때, 실제로 회사에 영향을 미칠 것인가?"
와일리는 작게 시작하라고 조언한다. 편의점 체인 7-Eleven은 서비스 기술자를 위한 '슈퍼 어시스턴트'를 구축하여 장비에 대한 방대한 문서에 접근할 수 있게 했고, "이 문제를 전에 본 적 있나요?"라고 동료에게 전화할 필요를 줄였다. 결과: 첫 수리 성공률 25% 증가, 수리 시간 40% 감소. 베일러 대학교는 에이전트를 사용하여 잠재 학생과의 통화 녹음을 검토하고, 인간 메모 작성자가 놓치는 의사 결정 요소를 분석한다.
프랭클린 템플턴의 투자 포트폴리오 분석 자동화는 1500만 달러 이상의 신제품 기회를 식별했다. 아마도 인간이 너무 바빠서 보지 못한 고객 포트폴리오의 격차를 발견한 덕분일 것이다.
와일리는 현재 에이전트 AI의 상태를 "웹의 2001년과 같다. 회사들이 웹 페이지에 투자하지만 아직 이 모든 것의 목적을 이해하지 못한다"고 비유한다. 핵심은 먼저 데이터를 정리하는 것이다. "데이터 상태가 좋다면 오늘 오후에 에이전트 시스템을 구축하고 배포할 수 있다. 데이터 상태가 나쁘다면, 진짜 문제는 데이터를 정리하는 데 얼마나 오래 걸리느냐다"라고 와일리는 말했다.
따라서 거의 인간 수준의 에이전트로 가는 길은 깨끗한 데이터, 엄격한 평가, 그리고 AI가 실수로 가장 깊은 비밀을 낯선 사람에게 누설하지 않기를 바라는 영원한 희망으로 포장되어 있다. 미래에 오신 것을 환영합니다.