로봇한테 하노이의 탑을 풀게 하는 데 36시간 훈련이 필요하다면, 뭔가 근본적으로 잘못된 거다. Tufts 대학 연구팀이 정확히 그 지점을 찔렀고, 결과가 꽤 충격적이다 — 에너지 소비 100분의 1, 정확도는 34%에서 95%로 뛰었다. "트레이드오프"라는 단어가 무색해지는 숫자다.

VLA가 뭔데, 왜 문제인가

Visual-Language-Action 모델, 줄여서 VLA. LLM에 카메라 눈과 로봇 팔을 달아놓은 거라고 보면 된다. 카메라로 보고, 언어로 명령을 받고, 실제 물리적 동작으로 변환한다. RT-2, OpenVLA 같은 모델들이 이 계열이다.

문제는 이놈들이 전형적인 딥러닝 방식으로 작동한다는 점이다. 통계적 패턴 매칭에 의존하니까, "이 블록을 저기 옮겨"라는 단순한 작업도 수만 번의 시행착오를 거쳐야 학습한다. 하노이의 탑처럼 규칙이 명확한 구조화된 퍼즐에서도 마찬가지다. 무식하게 때려맞추는 셈.

그리고 이 무식함에는 대가가 따른다. 미국 내 AI 시스템과 데이터센터가 2024년 한 해에만 415TWh의 전력을 소비했고, 2030년이면 두 배가 될 전망이다. 전체 미국 전력의 10% 이상을 AI가 먹고 있다.

심볼릭 추론을 끼얹으면 생기는 일

Tufts의 Matthias Scheutz 교수팀이 한 건 의외로 단순하다. 기존 VLA의 뉴럴 네트워크 위에 심볼릭 추론 레이어를 얹었다. 카메라 입력과 언어 명령은 그대로 뉴럴넷이 처리하되, "어떤 순서로 움직일까"는 규칙 기반 로직이 결정한다.

하노이의 탑을 예로 들면 — 블록의 모양, 무게중심, 크기 카테고리 같은 추상적 속성을 심볼릭 레이어가 파악하고, "큰 블록 위에 작은 블록만 올릴 수 있다"는 규칙을 적용해서 행동 공간을 제한한다. 뉴럴넷 혼자서 수만 번 삽질할 걸, 규칙이 "거기는 가지 마"라고 가드레일을 쳐주는 구조다.

Scheutz 교수의 표현이 직관적이다: "심볼릭 VLA는 시행착오를 제한하는 규칙을 적용해서 훨씬 빠르게 해답에 도달한다."

숫자로 보면 더 극적이다

뉴로심볼릭 VLA 기존 VLA
표준 퍼즐 성공률 95% 34%
미학습 복잡 퍼즐 78% 0%
훈련 시간 34분 36시간+
훈련 에너지 기존 대비 1% 기준치
추론 에너지 기존 대비 5% 기준치

미학습 복잡 퍼즐에서 0% 대 78%라는 수치가 핵심이다. 기존 VLA는 훈련 때 못 본 변형 퍼즐을 아예 못 푼다. 패턴 매칭만으로는 일반화가 안 되니까. 반면 심볼릭 규칙은 구조를 이해하고 있으므로 처음 보는 변형에도 대응한다. 이건 단순한 효율 개선이 아니라 근본적으로 다른 능력이다.

훈련 시간 차이도 실무적으로 크다. 34분이면 파라미터 하나 바꾸고 점심 먹기 전에 결과를 볼 수 있다. 36시간이면 이틀을 날린다. 반복 실험의 속도가 완전히 달라진다.

이걸 더 넓게 보면

Tufts 연구가 로보틱스 VLA에 한정된 이야기 같지만, 흐름 자체는 더 크다. "뉴럴넷에 구조적 제약을 걸어서 효율을 끌어올린다"는 아이디어가 여러 방향에서 동시에 터지고 있다.

같은 주에 PrismML이 Bonasi 8B라는 1-bit LLM을 공개했다. 가중치를 -1 또는 +1로만 제한하는 극단적 양자화인데, 8B 모델이 1.15GB에 들어간다. 일반적인 8B 모델의 14분의 1 크기다. Caltech의 Babak Hassibi 교수가 설계한 아키텍처로, "intelligence density" 지표에서 Qwen3 8B 대비 10배 이상 효율적이라고 한다.

접근법은 완전히 다르지만 — Tufts는 추론 구조를 제한하고, PrismML은 가중치 표현을 제한한다 — 핵심 통찰은 겹친다. 제약이 곧 효율이다. 뉴럴넷에게 무한한 자유를 주는 대신 적절한 구조를 부여하면, 파라미터도 에너지도 덜 쓰면서 더 나은 결과가 나온다.

빌더가 가져갈 것

솔직히 말하면, 뉴로심볼릭 VLA를 당장 프로덕션에 쓸 사람은 많지 않다. 이 연구는 5월 비엔나 ICRA에서 발표 예정이고 아직 코드가 공개되지 않았다.

하지만 방향성은 명확하다. 순수 신경망 스케일링에만 돈을 태우는 시대가 저물고 있다. 도메인 지식을 구조적으로 주입하는 하이브리드 접근이 에너지 비용과 성능 양쪽에서 이기기 시작했다. 에이전트를 만들고 있다면, 모든 판단을 LLM에 맡기는 대신 규칙 기반 가드레일을 끼워넣는 게 비용과 신뢰성 모두를 잡는 전략이 될 수 있다. 이미 많은 프로덕션 에이전트가 이 패턴을 쓰고 있고, Tufts 연구는 그 직감에 숫자를 붙여준 셈이다.