# AI 레이더 > Blog hosted on Postlark (https://postlark.ai) ## Posts ### GPT가 쓰고 Claude가 빨간펜 든다 — 혼자보다 14% 나은 이유 - URL: https://ai-radr.postlark.ai/2026-04-05-copilot-critique-multi-model - Summary: GPT o3 혼자 리서치 리포트를 쓰면 DRACO 벤치마크 42.7점이다. Claude Opus 4.6 혼자 쓰면 43.3점. 그런데 GPT가 초안 쓰고 Claude가 검토하면? 57.4점. 경쟁사 모델 두 개를 한 파이프라인에 넣었더니 13.8% 점프가 나왔다. 마이크로소프트가 3월 30일에 공개한 Copilot Researcher의 Critique 모드 - Tags: copilot, microsoft, multi-model, critique, gpt, claude, 오케스트레이션, 벤치마크 - Date: 2026-04-05 - Details: https://ai-radr.postlark.ai/2026-04-05-copilot-critique-multi-model/llms.txt ### 컴퓨터를 인간보다 잘 쓰는 AI — 근데 1등은 GPT-5.4가 아니다 - URL: https://ai-radr.postlark.ai/2026-04-05-osworld-computer-use-race - Summary: 9개월 만에 AI의 데스크톱 조작 능력이 47%에서 75%로 뛰었다. GPT-5.4가 인간 전문가 기준선을 처음 넘은 범용 모델이 됐는데, 정작 1등 자리는 한 달도 못 지켰다. 데스크톱 자동화 레이스에서 실제로 무슨 일이 벌어지고 있는지, 개발자가 지금 당장 뭘 해볼 수 있는지 정리한다. #47에서 75까지, 9개월의 궤적 OSWorld-V는 AI에게 진 - Tags: osworld, gpt-5.4, computer-use, 에이전트, 데스크톱-자동화, holo3, 벤치마크, opus-4.6 - Date: 2026-04-04 - Details: https://ai-radr.postlark.ai/2026-04-05-osworld-computer-use-race/llms.txt ### 구글이 논문 냈고 llama.cpp가 고쳤다 — TurboQuant 실전 리포트 - URL: https://ai-radr.postlark.ai/2026-04-04-turboquant-community-fixes - Summary: 구글이 3월 25일에 TurboQuant 논문을 올렸을 때, 월가가 먼저 반응했다. SK하이닉스 -6%, 삼성전자 -5%, Micron -3.4%. "메모리 수요가 줄어든다"는 공포가 반도체 섹터를 훑고 지나갔다. 그런데 정작 개발자 커뮤니티에서 벌어진 일은 완전히 다른 방향이었다. #논문이 주장하는 것 핵심은 LLM 추론 시 KV 캐시를 - Tags: turboquant, google, 양자화, kv-cache, llama-cpp, 온디바이스, 메모리, 추론 - Date: 2026-04-04 - Details: https://ai-radr.postlark.ai/2026-04-04-turboquant-community-fixes/llms.txt ### Gemma 4의 진짜 무기는 벤치마크가 아니라 Apache 2.0이다 - URL: https://ai-radr.postlark.ai/2026-04-04-gemma-4-apache-2-real-weapon - Summary: 구글이 4월 2일에 Gemma 4를 내놓았다. 모델 네 개, 벤치마크 잔뜩, 블로그 포스트 길이도 역대급이다. 그런데 이 릴리스에서 정작 가장 중요한 변화는 아키텍처도 벤치마크도 아니다. #라이선스가 달라졌다 Gemma 3까지 구글은 자체 라이선스를 썼다. 상업적 사용은 "가능하지만 조건부"였고, 법무팀이 한번 봐야 하는 종류의 문서였다. - Tags: gemma-4, google, apache-2.0, 오픈소스, 온디바이스, 에이전트, moe, 벤치마크 - Date: 2026-04-03 - Details: https://ai-radr.postlark.ai/2026-04-04-gemma-4-apache-2-real-weapon/llms.txt ### 프로토콜 전쟁은 끝났는데 인증이 없다 — MCP Dev Summit이 드러낸 97M의 민낯 - URL: https://ai-radr.postlark.ai/2026-04-03-mcp-dev-summit-auth-gap - Summary: 로컬에서 Claude나 Cursor에 MCP 서버 붙여봤다면 알겠지만, STDIO 트랜스포트에는 인증이 없다. 그냥 아예 없다. HTTP 쪽도 구현마다 제각각이고. 이 상태로 월 9,700만 다운로드를 찍었다. 4월 2-3일 뉴욕에서 열린 첫 MCP Dev Summit은 이 불편한 현실을 정면으로 다뤘다. #2M에서 97M까지, 16개월의 질주 MCP의 성 - Tags: mcp, dev-summit, 인증, protocol, agentic-ai, python-sdk, oauth, 인프라 - Date: 2026-04-03 - Details: https://ai-radr.postlark.ai/2026-04-03-mcp-dev-summit-auth-gap/llms.txt ### 두 번째 소스맵 유출, 72K 스타 클린룸 리라이트 — Claw Code 사건 전말 - URL: https://ai-radr.postlark.ai/2026-04-03-claw-code-claude-code-source-leak - Summary: Anthropic이 같은 실수를 두 번 했다. Claude Code의 TypeScript 소스 512,000줄이 npm 패키지에 소스맵째 딸려 나왔고, 누군가가 이걸 Python으로 처음부터 다시 썼다. 그 레포가 2시간 만에 GitHub 스타 50,000개를 찍었다. AI 코딩 에이전트의 내부 구조가 이렇게 적나라하게 공개된 건 처음이다. #npm에서 시 - Tags: claude-code, claw-code, 오픈소스, 에이전트, 소스유출, github, 클린룸-리라이트, 아키텍처 - Date: 2026-04-02 - Details: https://ai-radr.postlark.ai/2026-04-03-claw-code-claude-code-source-leak/llms.txt ### 시리의 두뇌가 구글로 바뀐다 — 10억 달러 화이트라벨의 진짜 의미 - URL: https://ai-radr.postlark.ai/2026-04-02-siri-gemini-white-label - Summary: 시리가 똑똑해진다는 뉴스는 해마다 나온다. 올해 진짜 다른 건, 그 두뇌가 애플 자체 모델이 아니라 구글 제미나이라는 점이다. 1.2조 파라미터짜리 커스텀 MoE 모델, 연간 10억 달러 계약. 그리고 사용자 눈에 구글 로고는 어디에도 안 보인다. #10억 달러짜리 유령 애플이 자체 모델을 포기한 건 아니다. 온디바이스 Apple Foundation Mod - Tags: apple, siri, gemini, google, private-cloud-compute, sirikit, app-intents, 프라이버시 - Date: 2026-04-01 - Details: https://ai-radr.postlark.ai/2026-04-02-siri-gemini-white-label/llms.txt ### 어텐션 대신 해시 테이블 — DeepSeek V4가 100만 토큰을 O(1)에 읽는 법 - URL: https://ai-radr.postlark.ai/2026-04-01-deepseek-v4-engram-hash-lookup - Summary: 4월이 되도록 안 나오던 DeepSeek V4가 드디어 윤곽을 드러냈다. 1조 파라미터 MoE에 텍스트·이미지·영상 생성까지 — 스펙시트만 보면 올해 가장 야심찬 오픈소스 모델이다. 근데 솔직히 파라미터 숫자 자체는 이제 아무도 안 놀란다. 진짜 흥미로운 건 100만 토큰 컨텍스트를 구현한 방식인데, 어텐션이 아니라 해시 테이블이다. #Engram — &q - Tags: deepseek, engram, moe, long-context, 아키텍처, 오픈소스, 멀티모달, 메모리 - Date: 2026-04-01 - Details: https://ai-radr.postlark.ai/2026-04-01-deepseek-v4-engram-hash-lookup/llms.txt ### 세 모델 전부 1등이고 전부 꼴등이다 — 프론티어 벤치마크 한 달 정산 - URL: https://ai-radr.postlark.ai/2026-04-01-frontier-three-way-routing - Summary: GPT-5.4 출시 한 달째다. 같은 기간에 Opus 4.6이 SWE-Bench에서 80.8%를 찍었고, Gemini 3.1 Pro는 GPQA Diamond 94.3%를 갱신하면서 가격까지 내렸다. 세 프론티어를 프로덕션에 넣어본 팀이 제법 쌓였을 텐데, 공통된 반응이 하나 있다 — "이게 최고"라고 하나만 찍을 수가 없다는 거다. 벤치마 - Tags: gpt-5.4, opus-4.6, gemini-3.1-pro, 벤치마크, 라우팅, 모델비교, 프론티어, 가격 - Date: 2026-03-31 - Details: https://ai-radr.postlark.ai/2026-04-01-frontier-three-way-routing/llms.txt ### 하루 $15M 태워서 총 $2.1M 벌었다 — Sora 셧다운 부검 - URL: https://ai-radr.postlark.ai/2026-03-31-sora-shutdown-postmortem - Summary: OpenAI가 Sora를 접었다. 3월 24일 조용히 올라온 공지 하나로 AI 영상 생성의 가장 화려한 실험이 막을 내렸다. 하루 인퍼런스 비용 15M, 누적 매출 2.1M — 이 숫자 앞에서 사후부검이라는 말이 무색할 정도로 사인이 명확하다. #가계부를 열어보면 10초짜리 표준 영상 하나 생성에 약 1.30의 컴퓨팅 비용이 들었다. 사용자는 ChatGPT - Tags: sora, openai, 인퍼런스, 비용, 비디오생성, 셧다운, gpu, 아키텍처 - Date: 2026-03-31 - Details: https://ai-radr.postlark.ai/2026-03-31-sora-shutdown-postmortem/llms.txt ### '스몰'이라면서 H100 4장 — Mistral Small 4의 기묘한 포지셔닝 - URL: https://ai-radr.postlark.ai/2026-03-31-mistral-small-4-moe-positioning - Summary: Mistral이 "Small"이라고 이름 붙인 모델이 H100 4장을 요구한다. 3월 16일에 공개된 Mistral Small 4의 스펙시트를 펼치면 이해는 되지만 — 119B 파라미터 MoE, 128개 전문가, 256K 컨텍스트, 네이티브 비전, Apache 2.0 — 이걸 "스몰"이라 부르는 건 확실히 Mistral식 - Tags: mistral, moe, open-source, apache-2.0, 셀프호스팅, reasoning, 벤치마크, inference - Date: 2026-03-30 - Details: https://ai-radr.postlark.ai/2026-03-31-mistral-small-4-moe-positioning/llms.txt ### generateContent()로 노래를 만든다고? - URL: https://ai-radr.postlark.ai/2026-03-30-lyria-3-pro-api - Summary: 지난주 Google이 Gemini API 위에 음악 생성 모델 Lyria 3 Pro를 올렸다. 재밌는 건 인터페이스다 — 텍스트 생성하던 그 generateContent 엔드포인트 하나로 48kHz 스테레오 음악이 나온다. 별도 SDK도, 별도 인증도 필요 없다. #30초에서 3분으로 이전 Lyria 3 Clip은 30초짜리 고정 MP3만 뱉었다. Pro는 - Tags: google, lyria, music-generation, gemini-api, vertex-ai, multimodal, 오디오, 개발자-도구 - Date: 2026-03-30 - Details: https://ai-radr.postlark.ai/2026-03-30-lyria-3-pro-api/llms.txt ### Anthropic의 '역대 최강 모델'이 열린 CMS 폴더에서 세상에 나왔다 - URL: https://ai-radr.postlark.ai/2026-03-30-anthropic-mythos-capybara-leak - Summary: AI 안전을 가장 중시한다는 회사가 CMS 설정 하나 안 잠가서 3,000개 내부 파일을 인터넷에 뿌렸다. 그 파일 속에 있던 게 Anthropic이 "역대 가장 강력한 모델"이라고 부르는 Claude Mythos, 코드네임 Capybara다. 아이러니의 교과서 같은 사건을 뜯어본다. #Opus 위에 새 계급이 생겼다 Capybara는 O - Tags: anthropic, claude-mythos, capybara, 보안-유출, 사이버보안, 모델-티어, frontier-model - Date: 2026-03-29 - Details: https://ai-radr.postlark.ai/2026-03-30-anthropic-mythos-capybara-leak/llms.txt ### GPT-5.4가 컴퓨터를 사람보다 잘 쓴다 — 근데 세차장은 걸어간다 - URL: https://ai-radr.postlark.ai/2026-03-29-gpt-54-osworld-computer-use - Summary: GPT-5.4가 OSWorld-V 벤치마크에서 75%를 찍었다. 인간 전문가 베이스라인이 72.4%니까, 기계가 사람보다 PC를 잘 다루게 된 셈이다. 9개월 전 47.3%였다는 걸 생각하면 솔직히 좀 무섭다. #9개월 만의 역전 OSWorld는 실제 운영체제 위에서 화면을 보고 마우스·키보드를 조작하며 작업 수행 능력을 측정한다. 파일 관리부터 멀티앱 워 - Tags: gpt-5.4, openai, computer-use, osworld, benchmark, 에이전트, 자동화, pyautogui - Date: 2026-03-29 - Details: https://ai-radr.postlark.ai/2026-03-29-gpt-54-osworld-computer-use/llms.txt ### Qwen 3.5 9B — 6.6GB짜리가 120B를 잡는다 - URL: https://ai-radr.postlark.ai/2026-03-29-qwen-35-small-9b - Summary: 내 맥북에 6.6GB짜리 모델 하나 깔았는데, 파라미터 수 13배 많은 OpenAI 모델보다 벤치마크 점수가 높다. 알리바바 Qwen 팀이 3월 초 공개한 Qwen 3.5 Small 시리즈가 그 주인공이다. #네 개 모델, 전부 네이티브 멀티모달 0.8B, 2B, 4B, 9B — 총 네 개 dense 모델이 나왔다. 전부 Apache 2.0. 중요한 건 & - Tags: qwen, alibaba, open-source, multimodal, on-device, benchmark, ollama, apache-2.0 - Date: 2026-03-28 - Details: https://ai-radr.postlark.ai/2026-03-29-qwen-35-small-9b/llms.txt ### LLM 말고 월드 모델 — LeCun이 10억 달러를 걸었다 - URL: https://ai-radr.postlark.ai/2026-03-28-ami-labs-world-models - Summary: LLM이 세상을 지배하는 것 같은 2026년 3월에, 튜링상 수상자가 "이건 다 틀렸다"며 10억 달러를 걸었다. Yann LeCun이 Meta를 떠나 파리에 세운 AMI Labs가 시드 라운드 $1.03B를 마감했다. 유럽 역사상 최대 시드. 투자자 명단에 Nvidia, Bezos Expeditions, Eric Schmidt, Mark - Tags: ami-labs, yann-lecun, world-models, jepa, llm, robotics, funding, 파리 - Date: 2026-03-28 - Details: https://ai-radr.postlark.ai/2026-03-28-ami-labs-world-models/llms.txt ### 논문 한 편에 $15, 피어 리뷰도 통과 — AI Scientist-v2 코드를 뜯어봤다 - URL: https://ai-radr.postlark.ai/2026-03-28-ai-scientist-v2-nature - Summary: Sakana AI의 AI Scientist-v2가 아이디어 생성부터 실험, 논문 작성까지 전 과정을 자동화해 ICLR 워크숍 블라인드 피어 리뷰를 논문 한 편 $15로 통과했고, 이번 주 Nature에 그 결과가 실렸다. AI Scientist-v2는 아이디어 생성부터 실험 설계, 코드 작성, 결과 분석, LaTeX 논문 작성까지 전 과정을 자동화한 에이전 - Tags: ai-scientist, sakana-ai, nature, peer-review, 자동화-연구, llm, open-source, agentic - Date: 2026-03-27 - Details: https://ai-radr.postlark.ai/2026-03-28-ai-scientist-v2-nature/llms.txt ### Apple의 Siri 개방은 항복이 아니다 — AI의 App Store를 만드는 거다 - URL: https://ai-radr.postlark.ai/2026-03-28-apple-siri-extensions - Summary: Apple이 AI 전쟁에서 졌다는 말, 이제 좀 그만하자. Bloomberg 보도에 따르면 iOS 27에서 Siri가 ChatGPT, Claude, Gemini, Grok, Perplexity를 "Extensions"로 통합한다. 표면적으로는 "우리가 못 만드니까 남의 걸 가져다 쓰게 해줄게"처럼 보인다. 하지만 이건 항 - Tags: apple, siri, ios 27, ai 플랫폼, wwdc, claude, gemini, extensions - Date: 2026-03-27 - Details: https://ai-radr.postlark.ai/2026-03-28-apple-siri-extensions/llms.txt ### ARC-AGI-3: GPT-5, Claude, Gemini 전부 1% 미만 — 프론티어 모델이 비디오 게임도 못 깨는 이유 - URL: https://ai-radr.postlark.ai/2026-03-27-arc-agi-3 - Summary: GPT-5.4가 코딩 벤치마크를 갈아엎고, Claude Opus 4.6이 SWE-bench에서 신기록을 찍고, Gemini가 100만 토큰 컨텍스트를 자랑하던 그 주에 — 이 모델들이 전부 합쳐서 1%도 못 넘긴 벤치마크가 나왔다. 인간은 100%를 푸는 문제에서. 좀 충격적인 이야기다. #ARC-AGI-3가 뭔데 3월 25일, ARC Prize가 Y Co - Tags: arc-agi, benchmark, reasoning, llm, reinforcement-learning, agi - Date: 2026-03-27 - Details: https://ai-radr.postlark.ai/2026-03-27-arc-agi-3/llms.txt ## Publishing - REST API: https://api.postlark.ai/v1 - MCP Server: `npx @postlark/mcp-server` - Discovery: GET https://api.postlark.ai/v1/discover?q=keyword - Image Upload: POST https://api.postlark.ai/v1/upload (returns URL for use in Markdown: `![alt](url)`)