9개월 만에 AI의 데스크톱 조작 능력이 47%에서 75%로 뛰었다. GPT-5.4가 인간 전문가 기준선을 처음 넘은 범용 모델이 됐는데, 정작 1등 자리는 한 달도 못 지켰다. 데스크톱 자동화 레이스에서 실제로 무슨 일이 벌어지고 있는지, 개발자가 지금 당장 뭘 해볼 수 있는지 정리한다.

47에서 75까지, 9개월의 궤적

OSWorld-V는 AI에게 진짜 데스크톱 환경을 던져주는 벤치마크다. 브라우저 열기, 파일 정리, 폼 입력, 앱 간 데이터 복사 — 369개 태스크를 실제 OS 위에서 수행해야 한다. 시뮬레이션이 아니다. 스크린샷을 보고 마우스와 키보드를 직접 조작하는 방식이다.

GPT-5.2가 47.3%로 시작했다. GPT-5.3 Codex가 64%까지 끌어올렸고, 올해 3월 5일 출시된 GPT-5.4가 75%를 찍었다. 인간 전문가 기준선이 72.4%니까, 범용 모델 중에서는 처음으로 그 선을 넘은 거다. 9개월 만에 28포인트 상승. 이 속도 자체가 이야기의 핵심이다.

그런데 진짜 점수판을 보면

GPT-5.4가 헤드라인을 장식하는 동안, 전문 에이전트들이 조용히 더 높은 점수를 쌓고 있었다.

모델 OSWorld-V 유형
Coasty 82.0% 전문 에이전트
Holo3-122B 78.9% 오픈웨이트 MoE
OSAgent 76.3% 전문 에이전트
GPT-5.4 75.0% 범용 모델
Opus 4.6 72.7% 범용 모델
Sonnet 4.6 72.5% 범용 모델
인간 전문가 72.4% 기준선

범용 모델 세 개가 72-75% 구간에 뭉쳐 있고, 컴퓨터 조작 특화 에이전트들이 그 위에 서 있다. 이 간극은 우연이 아니다. UI 요소 인식, 실패 시 복구, 멀티앱 상태 추적 같은 건 범용 지능과 별개의 전문 능력이라는 뜻이다. 벤치마크를 하나 더 높인다고 해결되는 종류의 문제가 아니다.

Holo3가 특히 눈에 띈다. 122B 파라미터 MoE 구조인데 오픈웨이트다. 셀프호스팅해서 내부 도구 자동화에 바로 붙일 수 있다는 뜻이니까.

개발자가 지금 쓸 수 있는 것

API 쪽은 놀라울 정도로 단순하다. 기존 Chat Completions 엔드포인트에 tools 배열 안에 {"type": "computer_use"}를 하나 추가하면 끝이다. 별도 SDK도, 복잡한 인증 흐름도 없다. 스크린샷을 넣으면 모델이 "좌표 (412, 230) 클릭", "텍스트 입력: hello" 같은 구조화된 액션을 돌려준다.

가격은 입력 2.50, 출력 15.00(1M 토큰당)으로 일반 호출과 동일하다. 함정은 272K 토큰 이후 입력 가격이 두 배로 뛴다는 건데, 스크린샷이 토큰을 많이 먹기 때문에 반복적인 데스크톱 작업을 돌리다 보면 금방 그 경계에 닿는다. 10스텝짜리 워크플로우에서 스텝마다 스크린샷을 넘기면 대략 $0.3-0.8 정도 나온다. RPA 비용과 비교하면 싸다고 할 수 있는데, 하루 수천 건을 돌리면 이야기가 달라진다.

Claude 진영도 가만있지 않는다. Opus 4.6이 72.7%로 GPT-5.4와 2.3포인트 차이밖에 안 나고, Claude의 컴퓨터 사용 API는 더 일찍 출시돼서 생태계가 성숙한 편이다. 이미 프로덕션에서 컴퓨터 사용 에이전트를 운용하는 팀 상당수가 Claude 기반이라는 점도 고려할 요소다.

솔직히 아직 안 되는 것들

"인간을 넘었다"는 헤드라인엔 맥락이 빠져 있다. OSWorld-V의 인간 기준선 72.4%는 통제된 환경에서 태스크를 처음 보고 수행하는 평균 테스터의 점수다. 10년 경력 시스템 관리자가 아니다. 자기 워크플로우를 손에 익을 정도로 반복한 실무자의 점수는 당연히 훨씬 높다.

실무에서 진짜 걸리는 부분은 세 가지다.

미스클릭과 UI 오인식. OpenAI 공식 문서에도 "supervision is required"라고 명시되어 있다. 비슷하게 생긴 버튼 두 개 중 엉뚱한 걸 누르거나, 동적으로 뜨는 팝업을 잘못 해석하는 사례가 꾸준히 보고된다. 사내 관리 도구에서는 괜찮지만, 결제 화면이나 프로덕션 인프라 콘솔에서는 치명적일 수 있다.

반복 루프. 특정 UI 패턴에서 같은 동작을 반복하다 빠져나오지 못하는 경우가 있다. 로딩 스피너를 "완료"로 오인하고 다음 스텝을 시도하다가 실패, 다시 시도, 또 실패 — 이런 루프다. 에러 복구 능력이 전문 에이전트와 범용 모델의 점수 차를 만드는 핵심 변수다. Coasty가 82%를 찍는 이유가 여기에 있다.

토큰 소비 속도. 1M 컨텍스트 윈도우가 있어도, 스크린샷 기반 대화를 20턴만 주고받으면 절반 이상 차버린다. 긴 워크플로우에서는 중간중간 컨텍스트를 요약하거나 잘라내는 전략이 필수인데, 그 과정에서 이전 상태 정보를 잃으면 미스클릭 확률이 올라간다. 닭이 먼저냐 달걀이 먼저냐.

지금 당장 해볼 만한 건

무감독 데스크톱 자동화를 프로덕션에 넣기엔 이르다. 하지만 9개월에 28포인트라는 속도가 유지된다면 연말쯤 판이 꽤 달라진다. 지금 시도할 거라면 — 실패해도 괜찮은 내부 도구 워크플로우(테스트 환경 세팅, 반복적인 대시보드 스크린샷 수집, 사내 앱 데이터 마이그레이션)에서 프로토타이핑하는 게 맞다. GPT-5.4든 Opus 4.6이든 범용 모델로 충분하고, 정밀도가 필요해지면 Holo3를 셀프호스팅하는 옵션이 있다.