내 맥북에 6.6GB짜리 모델 하나 깔았는데, 파라미터 수 13배 많은 OpenAI 모델보다 벤치마크 점수가 높다. 알리바바 Qwen 팀이 3월 초 공개한 Qwen 3.5 Small 시리즈가 그 주인공이다.
네 개 모델, 전부 네이티브 멀티모달
0.8B, 2B, 4B, 9B — 총 네 개 dense 모델이 나왔다. 전부 Apache 2.0. 중요한 건 "네이티브" 멀티모달이라는 점이다. 기존 접근은 텍스트 모델 훈련 후 비전 어댑터를 덧붙이는 방식이었는데, Qwen 3.5 Small은 처음부터 텍스트·이미지·비디오를 같은 웨이트로 학습했다. 별도 VL 모델 없이 하나의 체크포인트가 전부 처리한다.
이전 세대인 Qwen 3까지는 텍스트 전용 모델과 VL(Vision-Language) 모델이 따로 나왔다. 텍스트 쪽에서 성능이 좋아도 이미지를 붙이면 별도 모델을 써야 했고, 두 모델의 추론 파이프라인이 달라서 서빙 인프라도 분리해야 했다. 이번 시리즈에서 그 구분이 사라졌다. 하나의 모델이 텍스트 질문, 이미지 분석, 짧은 비디오 이해를 전부 소화한다. 온디바이스 배포를 고려하면 체크포인트 하나만 관리하면 되니까 운영 복잡도가 확 줄어든다.
0.8B는 폰에서 돌고(아이폰에서 22 tok/s), 9B는 소비자 GPU 하나면 된다. 컨텍스트 윈도우 262K, 확장하면 1M.
숫자가 좀 이상하다
9B 모델과 OpenAI GPT-OSS-120B(파라미터 13배)를 비교하면:
| 벤치마크 | Qwen 3.5 9B | GPT-OSS-120B |
|---|---|---|
| GPQA Diamond | 81.7 | 80.1 |
| MMLU-Pro | 82.5 | 80.8 |
| MMMLU (다국어) | 81.2 | 78.2 |
| MMMU-Pro (비주얼) | 70.1 | — |
전 항목 우세. MMMU-Pro 비주얼 리즈닝에서는 GPT-5-Nano(57.2)를 22% 이상 벌렸다.
비결은 Gated DeltaNet 하이브리드 아키텍처다. 선형 어텐션과 소프트맥스 어텐션을 3:1로 섞는다. 선형 레이어가 메모리를 상수 복잡도로 유지해서 9B에서도 262K 컨텍스트가 가능하고, 소프트맥스 블록이 복잡한 추론 정밀도를 담당한다. 작은 모델이 큰 모델을 이기는 건 이 구조적 효율 덕분이다.
다만 벤치마크 숫자만 보면 "그럼 120B 모델은 왜 필요하냐"는 생각이 들 수 있는데, 실제로는 과제의 성격에 따라 차이가 난다. 9B가 앞서는 건 주로 패턴 매칭과 지식 회수 위주의 벤치마크다. 복잡한 다단계 추론이나 창의적 글쓰기처럼 파라미터 규모가 직접적으로 영향을 미치는 영역에서는 여전히 대형 모델이 우위에 있다. 벤치마크 점수가 실사용 체감과 일치하지 않는 이유가 여기에 있다.
돌려보려면
ollama run qwen3.5:9b — 끝이다. 다운로드 6.6GB(Q4_K_M). 맥북 M2 이상이면 별도 GPU 없이도 괜찮은 속도가 나오고, NVIDIA GPU가 있으면 당연히 더 빠르다. 양자화 수준을 Q5_K_M으로 올리면 정확도가 소폭 개선되지만 용량이 8GB 가까이 되니 RAM 여유를 확인해야 한다.
프로덕션이라면 SGLang이나 vLLM으로 서빙하면 OpenAI 호환 API 엔드포인트가 바로 나온다. 기존 코드 수정 없이 모델만 교체 가능. 특히 SGLang의 경우 RadixAttention 기반 프리픽스 캐싱이 잘 동작해서, 동일한 시스템 프롬프트를 반복 사용하는 에이전트 시나리오에서 추론 비용을 크게 절약할 수 있다.
커뮤니티 온도
HN에서 363포인트를 찍으며 "이 사이즈에서 가장 유능한 에이전틱 코딩 모델"이라는 평을 받았다. Rust, Elixir 코드 작성, 멀티파일 리팩토링을 네트워크 레이턴시 없이 로컬에서 돌린다는 보고가 여럿 나왔다. 특히 코딩 에이전트로 활용할 때 API 호출 비용이 제로라는 점이 매력적이다. 하루에 수백 번 호출하는 자동 완성이나 코드 리뷰 에이전트를 클라우드 API로 돌리면 월 수십 달러가 드는데, 로컬 모델은 전기세 외에는 추가 비용이 없다.
반면 r/LocalLLaMA에서는 코딩 밖으로 나가면 "참을 수 없는 아첨" 성향이 있다는 지적도 있다. 사용자가 뭘 물어도 긍정적으로 대답하려는 경향이 강해서, 비판적 분석이 필요한 업무에는 부적합하다는 평가다. 0.8B는 few-shot 예시를 넣으면 오히려 정확도가 떨어지는 현상도 보고됐다. 가장 작은 모델은 컨텍스트 활용 능력 자체가 제한적이라 zero-shot으로 쓰는 게 나을 수 있다.
로컬 코딩 에이전트나 멀티모달 프로토타입용으로는 지금 당장 내려받아도 된다. 범용 어시스턴트로 쓰려면 아직은 프론티어 API 쪽이 낫다.