GPT-5.4가 OSWorld-V 벤치마크에서 75%를 찍었다. 인간 전문가 베이스라인이 72.4%니까, 기계가 사람보다 PC를 잘 다루게 된 셈이다. 9개월 전 47.3%였다는 걸 생각하면 솔직히 좀 무섭다.

9개월 만의 역전

OSWorld는 실제 운영체제 위에서 화면을 보고 마우스·키보드를 조작하며 작업 수행 능력을 측정한다. 파일 관리부터 멀티앱 워크플로우까지 포함된 실전 평가다. 단순히 "버튼을 클릭해라" 수준이 아니라, 여러 앱을 오가며 복합적인 목표를 달성하는 시나리오가 대부분이다. 예를 들어 "이메일에서 첨부파일을 다운받아 스프레드시트로 열고, 특정 열을 정렬한 뒤 스크린샷을 찍어라" 같은 과제다.

  • GPT-5.2: 47.3%

  • GPT-5.3 Codex: 64%

  • GPT-5.4: 75% (인간 72.4% 돌파)

Claude Opus 4.6도 72.5~72.7%까지 올라왔지만, 2.5포인트 차이로 OpenAI 쪽이 앞선다. 흥미로운 점은 두 모델의 실패 패턴이 다르다는 거다. OpenAI 모델은 UI 요소 인식에서 강하지만 다단계 추론에서 가끔 길을 잃고, Anthropic 모델은 반대로 계획 수립은 정교하지만 작은 팝업이나 모달 창을 놓치는 경향이 있다. 벤치마크 점수만 보면 2.5포인트 차이지만, 실제 사용 시나리오에서는 어떤 유형의 실패를 감수할 수 있느냐에 따라 선택이 달라질 수 있다.

screenshot-action 루프

핵심 동작은 단순하다. 화면 캡처 → API 전송 → 구조화된 액션 반환 → 실행 → 반복. 비용은 이미지 1020장 기준 $0.100.50이고, Tier 1 액세스면 바로 쓸 수 있다.

실전에서 부딪히는 변수들

코드로 보면 깔끔하지만 실제로 돌려보면 까다로운 부분이 많다. 캡처 해상도가 높으면 토큰이 폭증하고, 낮추면 작은 UI 요소를 놓친다. 1024×768이 현재 권장값인데, HiDPI 모니터에선 거의 모자란다.

한 액션이 실패했을 때 — 가령 클릭 좌표가 살짝 빗나갔을 때 — 모델이 다음 캡처에서 오류를 인지하고 복구하는 경우도 있고, 아무 일 없었다는 듯 다음 스텝으로 넘어가는 경우도 있다. 이 비결정적 복구 행동이 자동화 파이프라인에선 가장 까다로운 변수다.

가장 즉시 효과를 볼 수 있는 영역은 E2E 테스트다. Selenium이나 Playwright를 설정하려면 셀렉터를 하나하나 지정하고, UI가 바뀔 때마다 깨지는 테스트를 고쳐야 한다. computer use 기반 테스트는 사람처럼 화면을 보고 판단하니까 버튼 텍스트가 바뀌거나 레이아웃이 살짝 달라져도 적응한다. 물론 100% 신뢰할 수준은 아니라서 기존 테스트를 완전히 대체하기보다는 탐색적 테스트나 스모크 테스트 용도로 보완하는 게 현실적이다.

레거시 시스템 자동화도 유망하다. API가 없는 사내 ERP, 10년 된 자바 애플릿 기반 관리 콘솔처럼 자동화 방법이 마땅치 않았던 시스템을 화면 조작으로 처리할 수 있다. RPA 솔루션이 이미 이 영역에 있지만, LLM 기반 접근은 시나리오 변경에 훨씬 유연하다는 차이가 있다.

반복 데이터 수집도 쓸 만하다. 크롤러를 짜기 귀찮은 사이트 — JavaScript 렌더링이 복잡하거나 로그인이 필요한 경우 — 에 에이전트를 붙여서 사람처럼 탐색하고 데이터를 뽑는 방식이다.

근데 세차장은 걸어간다

여기가 진짜 포인트다. 프론티어 모델 블라인드 테스트에서 "100미터 앞 세차장에 어떻게 갈까?"를 던졌더니, OpenAI의 최신 모델만 유일하게 걸어가라는 에세이를 쏟아냈다. 나머지는 전부 "차를 가져가야 세차를 하지"라고 답했다.

화면 조작에선 전문가를 이기면서 초등학생도 맞힐 상식을 틀린다. 테스트를 진행한 저자 표현이 정확하다 — "모델들은 능력에서 수렴하고 철학에서 갈라지고 있다." 점수 75%에 흥분하기 전에, 현실 배포에서 중요한 건 평균 성공률이 아니라 언제 어떻게 실패하느냐다. 이건 computer use에만 해당하는 문제가 아니다. 프론티어 모델 전반에 걸친 구조적 약점이다. 벤치마크가 측정하는 능력과 실제 사용자가 기대하는 상식 사이의 간극이 모델 세대가 올라갈수록 오히려 더 드러나고 있다. 성능 곡선의 꼬리 부분 — 95%의 작업은 완벽하게 수행하지만 나머지 5%에서 황당한 실수를 저지르는 패턴 — 을 어떻게 다루느냐가 프로덕션 적용의 핵심 과제다.

E2E 테스트, 스크래핑, 반복 워크플로우 자동화엔 지금도 충분히 쓸 만하다. 다만 은행이나 이메일처럼 실수 한 번이 치명적인 영역은 아직 이르다. pyautogui.FAILSAFE = True 켜놓고, 격리된 환경부터 시작하자.