GPT가 쓰고 Claude가 빨간펜 든다 — 혼자보다 14% 나은 이유
GPT o3 혼자 리서치 리포트를 쓰면 DRACO 벤치마크 42.7점이다. Claude Opus 4.6 혼자 쓰면 43.3점. 그런데 GPT가 초안 쓰고 Claude가 검토하면? 57.4점. 경쟁사 모델 두 개를 한 파이프라인에 넣었더니 13.8% 점프가 나왔다. 마이크로소프트가 3월 30일에 공개한 Copilot Researcher의 Critique 모드
개발자를 위한 AI 뉴스 브리핑 — 매일 아침저녁, 가장 중요한 AI 소식을 깊이 있게 다룹니다.
GPT o3 혼자 리서치 리포트를 쓰면 DRACO 벤치마크 42.7점이다. Claude Opus 4.6 혼자 쓰면 43.3점. 그런데 GPT가 초안 쓰고 Claude가 검토하면? 57.4점. 경쟁사 모델 두 개를 한 파이프라인에 넣었더니 13.8% 점프가 나왔다. 마이크로소프트가 3월 30일에 공개한 Copilot Researcher의 Critique 모드
9개월 만에 AI의 데스크톱 조작 능력이 47%에서 75%로 뛰었다. GPT-5.4가 인간 전문가 기준선을 처음 넘은 범용 모델이 됐는데, 정작 1등 자리는 한 달도 못 지켰다. 데스크톱 자동화 레이스에서 실제로 무슨 일이 벌어지고 있는지, 개발자가 지금 당장 뭘 해볼 수 있는지 정리한다. #47에서 75까지, 9개월의 궤적 OSWorld-V는 AI에게 진
구글이 3월 25일에 TurboQuant 논문을 올렸을 때, 월가가 먼저 반응했다. SK하이닉스 -6%, 삼성전자 -5%, Micron -3.4%. "메모리 수요가 줄어든다"는 공포가 반도체 섹터를 훑고 지나갔다. 그런데 정작 개발자 커뮤니티에서 벌어진 일은 완전히 다른 방향이었다. #논문이 주장하는 것 핵심은 LLM 추론 시 KV 캐시를
구글이 4월 2일에 Gemma 4를 내놓았다. 모델 네 개, 벤치마크 잔뜩, 블로그 포스트 길이도 역대급이다. 그런데 이 릴리스에서 정작 가장 중요한 변화는 아키텍처도 벤치마크도 아니다. #라이선스가 달라졌다 Gemma 3까지 구글은 자체 라이선스를 썼다. 상업적 사용은 "가능하지만 조건부"였고, 법무팀이 한번 봐야 하는 종류의 문서였다.
로컬에서 Claude나 Cursor에 MCP 서버 붙여봤다면 알겠지만, STDIO 트랜스포트에는 인증이 없다. 그냥 아예 없다. HTTP 쪽도 구현마다 제각각이고. 이 상태로 월 9,700만 다운로드를 찍었다. 4월 2-3일 뉴욕에서 열린 첫 MCP Dev Summit은 이 불편한 현실을 정면으로 다뤘다. #2M에서 97M까지, 16개월의 질주 MCP의 성
Anthropic이 같은 실수를 두 번 했다. Claude Code의 TypeScript 소스 512,000줄이 npm 패키지에 소스맵째 딸려 나왔고, 누군가가 이걸 Python으로 처음부터 다시 썼다. 그 레포가 2시간 만에 GitHub 스타 50,000개를 찍었다. AI 코딩 에이전트의 내부 구조가 이렇게 적나라하게 공개된 건 처음이다. #npm에서 시
시리가 똑똑해진다는 뉴스는 해마다 나온다. 올해 진짜 다른 건, 그 두뇌가 애플 자체 모델이 아니라 구글 제미나이라는 점이다. 1.2조 파라미터짜리 커스텀 MoE 모델, 연간 10억 달러 계약. 그리고 사용자 눈에 구글 로고는 어디에도 안 보인다. #10억 달러짜리 유령 애플이 자체 모델을 포기한 건 아니다. 온디바이스 Apple Foundation Mod
4월이 되도록 안 나오던 DeepSeek V4가 드디어 윤곽을 드러냈다. 1조 파라미터 MoE에 텍스트·이미지·영상 생성까지 — 스펙시트만 보면 올해 가장 야심찬 오픈소스 모델이다. 근데 솔직히 파라미터 숫자 자체는 이제 아무도 안 놀란다. 진짜 흥미로운 건 100만 토큰 컨텍스트를 구현한 방식인데, 어텐션이 아니라 해시 테이블이다. #Engram — &q
GPT-5.4 출시 한 달째다. 같은 기간에 Opus 4.6이 SWE-Bench에서 80.8%를 찍었고, Gemini 3.1 Pro는 GPQA Diamond 94.3%를 갱신하면서 가격까지 내렸다. 세 프론티어를 프로덕션에 넣어본 팀이 제법 쌓였을 텐데, 공통된 반응이 하나 있다 — "이게 최고"라고 하나만 찍을 수가 없다는 거다. 벤치마
OpenAI가 Sora를 접었다. 3월 24일 조용히 올라온 공지 하나로 AI 영상 생성의 가장 화려한 실험이 막을 내렸다. 하루 인퍼런스 비용 15M, 누적 매출 2.1M — 이 숫자 앞에서 사후부검이라는 말이 무색할 정도로 사인이 명확하다. #가계부를 열어보면 10초짜리 표준 영상 하나 생성에 약 1.30의 컴퓨팅 비용이 들었다. 사용자는 ChatGPT
Mistral이 "Small"이라고 이름 붙인 모델이 H100 4장을 요구한다. 3월 16일에 공개된 Mistral Small 4의 스펙시트를 펼치면 이해는 되지만 — 119B 파라미터 MoE, 128개 전문가, 256K 컨텍스트, 네이티브 비전, Apache 2.0 — 이걸 "스몰"이라 부르는 건 확실히 Mistral식
지난주 Google이 Gemini API 위에 음악 생성 모델 Lyria 3 Pro를 올렸다. 재밌는 건 인터페이스다 — 텍스트 생성하던 그 generateContent 엔드포인트 하나로 48kHz 스테레오 음악이 나온다. 별도 SDK도, 별도 인증도 필요 없다. #30초에서 3분으로 이전 Lyria 3 Clip은 30초짜리 고정 MP3만 뱉었다. Pro는
AI 안전을 가장 중시한다는 회사가 CMS 설정 하나 안 잠가서 3,000개 내부 파일을 인터넷에 뿌렸다. 그 파일 속에 있던 게 Anthropic이 "역대 가장 강력한 모델"이라고 부르는 Claude Mythos, 코드네임 Capybara다. 아이러니의 교과서 같은 사건을 뜯어본다. #Opus 위에 새 계급이 생겼다 Capybara는 O
GPT-5.4가 OSWorld-V 벤치마크에서 75%를 찍었다. 인간 전문가 베이스라인이 72.4%니까, 기계가 사람보다 PC를 잘 다루게 된 셈이다. 9개월 전 47.3%였다는 걸 생각하면 솔직히 좀 무섭다. #9개월 만의 역전 OSWorld는 실제 운영체제 위에서 화면을 보고 마우스·키보드를 조작하며 작업 수행 능력을 측정한다. 파일 관리부터 멀티앱 워
내 맥북에 6.6GB짜리 모델 하나 깔았는데, 파라미터 수 13배 많은 OpenAI 모델보다 벤치마크 점수가 높다. 알리바바 Qwen 팀이 3월 초 공개한 Qwen 3.5 Small 시리즈가 그 주인공이다. #네 개 모델, 전부 네이티브 멀티모달 0.8B, 2B, 4B, 9B — 총 네 개 dense 모델이 나왔다. 전부 Apache 2.0. 중요한 건 &
LLM이 세상을 지배하는 것 같은 2026년 3월에, 튜링상 수상자가 "이건 다 틀렸다"며 10억 달러를 걸었다. Yann LeCun이 Meta를 떠나 파리에 세운 AMI Labs가 시드 라운드 $1.03B를 마감했다. 유럽 역사상 최대 시드. 투자자 명단에 Nvidia, Bezos Expeditions, Eric Schmidt, Mark
Sakana AI의 AI Scientist-v2가 아이디어 생성부터 실험, 논문 작성까지 전 과정을 자동화해 ICLR 워크숍 블라인드 피어 리뷰를 논문 한 편 $15로 통과했고, 이번 주 Nature에 그 결과가 실렸다. AI Scientist-v2는 아이디어 생성부터 실험 설계, 코드 작성, 결과 분석, LaTeX 논문 작성까지 전 과정을 자동화한 에이전
Apple이 AI 전쟁에서 졌다는 말, 이제 좀 그만하자. Bloomberg 보도에 따르면 iOS 27에서 Siri가 ChatGPT, Claude, Gemini, Grok, Perplexity를 "Extensions"로 통합한다. 표면적으로는 "우리가 못 만드니까 남의 걸 가져다 쓰게 해줄게"처럼 보인다. 하지만 이건 항
GPT-5.4가 코딩 벤치마크를 갈아엎고, Claude Opus 4.6이 SWE-bench에서 신기록을 찍고, Gemini가 100만 토큰 컨텍스트를 자랑하던 그 주에 — 이 모델들이 전부 합쳐서 1%도 못 넘긴 벤치마크가 나왔다. 인간은 100%를 푸는 문제에서. 좀 충격적인 이야기다. #ARC-AGI-3가 뭔데 3월 25일, ARC Prize가 Y Co