AI 레이더

개발자를 위한 AI 뉴스 브리핑 — 매일 아침저녁, 가장 중요한 AI 소식을 깊이 있게 다룹니다.

GPT가 쓰고 Claude가 빨간펜 든다 — 혼자보다 14% 나은 이유

copilotmicrosoftmulti-modelcritiquegptclaude오케스트레이션벤치마크

GPT o3 혼자 리서치 리포트를 쓰면 DRACO 벤치마크 42.7점이다. Claude Opus 4.6 혼자 쓰면 43.3점. 그런데 GPT가 초안 쓰고 Claude가 검토하면? 57.4점. 경쟁사 모델 두 개를 한 파이프라인에 넣었더니 13.8% 점프가 나왔다. 마이크로소프트가 3월 30일에 공개한 Copilot Researcher의 Critique 모드

컴퓨터를 인간보다 잘 쓰는 AI — 근데 1등은 GPT-5.4가 아니다

osworldgpt-5.4computer-use에이전트데스크톱-자동화holo3벤치마크opus-4.6

9개월 만에 AI의 데스크톱 조작 능력이 47%에서 75%로 뛰었다. GPT-5.4가 인간 전문가 기준선을 처음 넘은 범용 모델이 됐는데, 정작 1등 자리는 한 달도 못 지켰다. 데스크톱 자동화 레이스에서 실제로 무슨 일이 벌어지고 있는지, 개발자가 지금 당장 뭘 해볼 수 있는지 정리한다. #47에서 75까지, 9개월의 궤적 OSWorld-V는 AI에게 진

구글이 논문 냈고 llama.cpp가 고쳤다 — TurboQuant 실전 리포트

turboquantgoogle양자화kv-cachellama-cpp온디바이스메모리추론

구글이 3월 25일에 TurboQuant 논문을 올렸을 때, 월가가 먼저 반응했다. SK하이닉스 -6%, 삼성전자 -5%, Micron -3.4%. "메모리 수요가 줄어든다"는 공포가 반도체 섹터를 훑고 지나갔다. 그런데 정작 개발자 커뮤니티에서 벌어진 일은 완전히 다른 방향이었다. #논문이 주장하는 것 핵심은 LLM 추론 시 KV 캐시를

Gemma 4의 진짜 무기는 벤치마크가 아니라 Apache 2.0이다

gemma-4googleapache-2.0오픈소스온디바이스에이전트moe벤치마크

구글이 4월 2일에 Gemma 4를 내놓았다. 모델 네 개, 벤치마크 잔뜩, 블로그 포스트 길이도 역대급이다. 그런데 이 릴리스에서 정작 가장 중요한 변화는 아키텍처도 벤치마크도 아니다. #라이선스가 달라졌다 Gemma 3까지 구글은 자체 라이선스를 썼다. 상업적 사용은 "가능하지만 조건부"였고, 법무팀이 한번 봐야 하는 종류의 문서였다.

프로토콜 전쟁은 끝났는데 인증이 없다 — MCP Dev Summit이 드러낸 97M의 민낯

mcpdev-summit인증protocolagentic-aipython-sdkoauth인프라

로컬에서 Claude나 Cursor에 MCP 서버 붙여봤다면 알겠지만, STDIO 트랜스포트에는 인증이 없다. 그냥 아예 없다. HTTP 쪽도 구현마다 제각각이고. 이 상태로 월 9,700만 다운로드를 찍었다. 4월 2-3일 뉴욕에서 열린 첫 MCP Dev Summit은 이 불편한 현실을 정면으로 다뤘다. #2M에서 97M까지, 16개월의 질주 MCP의 성

두 번째 소스맵 유출, 72K 스타 클린룸 리라이트 — Claw Code 사건 전말

claude-codeclaw-code오픈소스에이전트소스유출github클린룸-리라이트아키텍처

Anthropic이 같은 실수를 두 번 했다. Claude Code의 TypeScript 소스 512,000줄이 npm 패키지에 소스맵째 딸려 나왔고, 누군가가 이걸 Python으로 처음부터 다시 썼다. 그 레포가 2시간 만에 GitHub 스타 50,000개를 찍었다. AI 코딩 에이전트의 내부 구조가 이렇게 적나라하게 공개된 건 처음이다. #npm에서 시

시리의 두뇌가 구글로 바뀐다 — 10억 달러 화이트라벨의 진짜 의미

applesirigeminigoogleprivate-cloud-computesirikitapp-intents프라이버시

시리가 똑똑해진다는 뉴스는 해마다 나온다. 올해 진짜 다른 건, 그 두뇌가 애플 자체 모델이 아니라 구글 제미나이라는 점이다. 1.2조 파라미터짜리 커스텀 MoE 모델, 연간 10억 달러 계약. 그리고 사용자 눈에 구글 로고는 어디에도 안 보인다. #10억 달러짜리 유령 애플이 자체 모델을 포기한 건 아니다. 온디바이스 Apple Foundation Mod

어텐션 대신 해시 테이블 — DeepSeek V4가 100만 토큰을 O(1)에 읽는 법

deepseekengrammoelong-context아키텍처오픈소스멀티모달메모리

4월이 되도록 안 나오던 DeepSeek V4가 드디어 윤곽을 드러냈다. 1조 파라미터 MoE에 텍스트·이미지·영상 생성까지 — 스펙시트만 보면 올해 가장 야심찬 오픈소스 모델이다. 근데 솔직히 파라미터 숫자 자체는 이제 아무도 안 놀란다. 진짜 흥미로운 건 100만 토큰 컨텍스트를 구현한 방식인데, 어텐션이 아니라 해시 테이블이다. #Engram — &q

세 모델 전부 1등이고 전부 꼴등이다 — 프론티어 벤치마크 한 달 정산

gpt-5.4opus-4.6gemini-3.1-pro벤치마크라우팅모델비교프론티어가격

GPT-5.4 출시 한 달째다. 같은 기간에 Opus 4.6이 SWE-Bench에서 80.8%를 찍었고, Gemini 3.1 Pro는 GPQA Diamond 94.3%를 갱신하면서 가격까지 내렸다. 세 프론티어를 프로덕션에 넣어본 팀이 제법 쌓였을 텐데, 공통된 반응이 하나 있다 — "이게 최고"라고 하나만 찍을 수가 없다는 거다. 벤치마

하루 $15M 태워서 총 $2.1M 벌었다 — Sora 셧다운 부검

soraopenai인퍼런스비용비디오생성셧다운gpu아키텍처

OpenAI가 Sora를 접었다. 3월 24일 조용히 올라온 공지 하나로 AI 영상 생성의 가장 화려한 실험이 막을 내렸다. 하루 인퍼런스 비용 15M, 누적 매출 2.1M — 이 숫자 앞에서 사후부검이라는 말이 무색할 정도로 사인이 명확하다. #가계부를 열어보면 10초짜리 표준 영상 하나 생성에 약 1.30의 컴퓨팅 비용이 들었다. 사용자는 ChatGPT

'스몰'이라면서 H100 4장 — Mistral Small 4의 기묘한 포지셔닝

mistralmoeopen-sourceapache-2.0셀프호스팅reasoning벤치마크inference

Mistral이 "Small"이라고 이름 붙인 모델이 H100 4장을 요구한다. 3월 16일에 공개된 Mistral Small 4의 스펙시트를 펼치면 이해는 되지만 — 119B 파라미터 MoE, 128개 전문가, 256K 컨텍스트, 네이티브 비전, Apache 2.0 — 이걸 "스몰"이라 부르는 건 확실히 Mistral식

generateContent()로 노래를 만든다고?

googlelyriamusic-generationgemini-apivertex-aimultimodal오디오개발자-도구

지난주 Google이 Gemini API 위에 음악 생성 모델 Lyria 3 Pro를 올렸다. 재밌는 건 인터페이스다 — 텍스트 생성하던 그 generateContent 엔드포인트 하나로 48kHz 스테레오 음악이 나온다. 별도 SDK도, 별도 인증도 필요 없다. #30초에서 3분으로 이전 Lyria 3 Clip은 30초짜리 고정 MP3만 뱉었다. Pro는

Anthropic의 '역대 최강 모델'이 열린 CMS 폴더에서 세상에 나왔다

anthropicclaude-mythoscapybara보안-유출사이버보안모델-티어frontier-model

AI 안전을 가장 중시한다는 회사가 CMS 설정 하나 안 잠가서 3,000개 내부 파일을 인터넷에 뿌렸다. 그 파일 속에 있던 게 Anthropic이 "역대 가장 강력한 모델"이라고 부르는 Claude Mythos, 코드네임 Capybara다. 아이러니의 교과서 같은 사건을 뜯어본다. #Opus 위에 새 계급이 생겼다 Capybara는 O

GPT-5.4가 컴퓨터를 사람보다 잘 쓴다 — 근데 세차장은 걸어간다

gpt-5.4openaicomputer-useosworldbenchmark에이전트자동화pyautogui

GPT-5.4가 OSWorld-V 벤치마크에서 75%를 찍었다. 인간 전문가 베이스라인이 72.4%니까, 기계가 사람보다 PC를 잘 다루게 된 셈이다. 9개월 전 47.3%였다는 걸 생각하면 솔직히 좀 무섭다. #9개월 만의 역전 OSWorld는 실제 운영체제 위에서 화면을 보고 마우스·키보드를 조작하며 작업 수행 능력을 측정한다. 파일 관리부터 멀티앱 워

Qwen 3.5 9B — 6.6GB짜리가 120B를 잡는다

qwenalibabaopen-sourcemultimodalon-devicebenchmarkollamaapache-2.0

내 맥북에 6.6GB짜리 모델 하나 깔았는데, 파라미터 수 13배 많은 OpenAI 모델보다 벤치마크 점수가 높다. 알리바바 Qwen 팀이 3월 초 공개한 Qwen 3.5 Small 시리즈가 그 주인공이다. #네 개 모델, 전부 네이티브 멀티모달 0.8B, 2B, 4B, 9B — 총 네 개 dense 모델이 나왔다. 전부 Apache 2.0. 중요한 건 &

LLM 말고 월드 모델 — LeCun이 10억 달러를 걸었다

ami-labsyann-lecunworld-modelsjepallmroboticsfunding파리

LLM이 세상을 지배하는 것 같은 2026년 3월에, 튜링상 수상자가 "이건 다 틀렸다"며 10억 달러를 걸었다. Yann LeCun이 Meta를 떠나 파리에 세운 AMI Labs가 시드 라운드 $1.03B를 마감했다. 유럽 역사상 최대 시드. 투자자 명단에 Nvidia, Bezos Expeditions, Eric Schmidt, Mark

논문 한 편에 $15, 피어 리뷰도 통과 — AI Scientist-v2 코드를 뜯어봤다

ai-scientistsakana-ainaturepeer-review자동화-연구llmopen-sourceagentic

Sakana AI의 AI Scientist-v2가 아이디어 생성부터 실험, 논문 작성까지 전 과정을 자동화해 ICLR 워크숍 블라인드 피어 리뷰를 논문 한 편 $15로 통과했고, 이번 주 Nature에 그 결과가 실렸다. AI Scientist-v2는 아이디어 생성부터 실험 설계, 코드 작성, 결과 분석, LaTeX 논문 작성까지 전 과정을 자동화한 에이전

Apple의 Siri 개방은 항복이 아니다 — AI의 App Store를 만드는 거다

applesiriios 27ai 플랫폼wwdcclaudegeminiextensions

Apple이 AI 전쟁에서 졌다는 말, 이제 좀 그만하자. Bloomberg 보도에 따르면 iOS 27에서 Siri가 ChatGPT, Claude, Gemini, Grok, Perplexity를 "Extensions"로 통합한다. 표면적으로는 "우리가 못 만드니까 남의 걸 가져다 쓰게 해줄게"처럼 보인다. 하지만 이건 항

ARC-AGI-3: GPT-5, Claude, Gemini 전부 1% 미만 — 프론티어 모델이 비디오 게임도 못 깨는 이유

arc-agibenchmarkreasoningllmreinforcement-learningagi

GPT-5.4가 코딩 벤치마크를 갈아엎고, Claude Opus 4.6이 SWE-bench에서 신기록을 찍고, Gemini가 100만 토큰 컨텍스트를 자랑하던 그 주에 — 이 모델들이 전부 합쳐서 1%도 못 넘긴 벤치마크가 나왔다. 인간은 100%를 푸는 문제에서. 좀 충격적인 이야기다. #ARC-AGI-3가 뭔데 3월 25일, ARC Prize가 Y Co