구글이 4월 2일에 Gemma 4를 내놓았다. 모델 네 개, 벤치마크 잔뜩, 블로그 포스트 길이도 역대급이다. 그런데 이 릴리스에서 정작 가장 중요한 변화는 아키텍처도 벤치마크도 아니다.

라이선스가 달라졌다

Gemma 3까지 구글은 자체 라이선스를 썼다. 상업적 사용은 "가능하지만 조건부"였고, 법무팀이 한번 봐야 하는 종류의 문서였다. Gemma 4는 Apache 2.0이다. 제한 없음. 수정 자유. 재배포 자유.

Meta의 Llama 4는 아직 월간 활성 사용자 7억 명 제한을 걸고 있다. Qwen은 Apache 2.0이지만 사이즈별 성능 편차가 크고, Mistral Small 4도 Apache 2.0이긴 하나 파라미터 규모 자체가 다른 급이다. 벤치마크 1-2점 차이로 모델을 고르는 팀은 없지만, 라이선스 하나 때문에 도입을 못 하는 팀은 실제로 존재한다. 특히 스타트업, 특히 B2B SaaS에서. VentureBeat이 "라이선스 변경이 벤치마크보다 중요할 수 있다"고 쓴 건 과장이 아니다.

네 개의 사이즈, 한 장짜리 정리

라인업이 좀 복잡한데, 한번에 정리하면 이렇다:

변형 실효 파라미터 용도 VRAM
E2B 2.3B 폰, 라즈베리파이, IoT ~6GB
E4B 4.5B 엣지, 빠른 추론 ~12GB
26B MoE 3.8B 활성 / 26B 전체 싱글 GPU 서버 ~40-50GB
31B Dense 31B 최고 품질, 듀얼 GPU ~80GB

26B MoE가 흥미로운 녀석이다. 전체 파라미터는 26B인데 추론 시 3.8B만 켜진다. Arena AI 리더보드 기준 오픈 모델 6위 — 활성 파라미터 대비 효율만 놓고 보면 현존 최상위권이다. 하이브리드 어텐션(로컬:글로벌 5:1 비율)과 KV-cache 공유 같은 아키텍처 트릭이 깔려 있는데, Latent Space 분석에 따르면 31B Dense의 구조 자체는 Gemma 3에서 크게 안 바뀌었고, 훈련 레시피와 데이터가 성능 향상의 주된 원인이라고 한다.

31B Dense는 오픈 모델 3위. AIME 2026에서 89.2%, GPQA 84%. Codeforces ELO는 전작의 110에서 2150으로 약 20배 뛰었다. 솔직히 이건 이전 세대가 코딩에서 너무 약했던 거지, 이번 릴리스가 코딩 최강이라는 뜻은 아니다. 코딩 벤치마크 1위는 Qwen 3.5가 LiveCodeBench와 SWE-bench에서 여전히 잡고 있다. 다국어는 확실한 강점으로, 독일어·아랍어·베트남어·프랑스어 테스트에서 Qwen 3.5를 앞섰다는 커뮤니티 리포트가 다수 나왔다. 한 유저는 번역 품질을 "차원이 다르다"고 표현했다.

온디바이스 에이전트라는 베팅

E2B, E4B는 단순히 "경량 버전"이 아니다. 오디오 입력(30초), 가변 해상도 이미지, 네이티브 함수 호출까지 지원하는 멀티모달 에이전트 런타임이다. 구글이 AICore Developer Preview를 같은 날 공개한 건 우연이 아니다.

핵심은 이거다: 지금 AICore 위에서 짠 코드가 올해 하반기 Gemini Nano 4 탑재 디바이스에서 그대로 프로덕션으로 동작한다. 프로토타입이 곧 프로덕션이 되는 구조. 라즈베리파이 5에서도 돌아가고, Qualcomm Dragonwing IQ8에서는 NPU 가속까지 탄다.

클라우드 API 없이 디바이스 위에서 에이전트를 돌린다는 건, 프라이버시가 생명인 헬스케어나 금융 B2B에서 결정적 차별점이다. 이걸 Apache 2.0으로 제한 없이 쓸 수 있다는 것 — 현재 이 조합을 제공하는 경쟁자는 없다.

이틀 차 현실 체크

Hacker News 반응은 대체로 호의적이다. M2 Ultra에서 llama.cpp Q8_0으로 초당 300토큰이 나왔다는 보고가 있고, Ollama에서는 ollama run gemma4 한 줄이면 바로 돌려볼 수 있다.

다만 현실적인 문제들도 빠르게 수면 위로 올라오고 있다. 26B MoE 변형이 동급 경쟁 모델 대비 추론 속도가 느리다는 지적이 꽤 나왔다. VRAM도 같은 파라미터 수의 다른 아키텍처보다 많이 잡아먹는다. 토크나이저 구현과 양자화 쪽에서 day-one 버그들이 발견되고 있어서, 프로덕션 배포는 생태계가 안정화된 뒤에 하는 게 현명하다. 2주 정도면 대부분 정리될 거다.

벤치마크 숫자 경쟁은 이미 의미를 잃어가고 있다. 이번 릴리스에서 진짜 봐야 할 건 Apache 2.0 + 온디바이스 에이전트라는 조합이고, 그 둘을 동시에 내놓은 오픈 웨이트 패밀리는 현재 이것뿐이다.