논문 한 편에 $15, 피어 리뷰도 통과 — AI Scientist-v2 코드를 뜯어봤다

Sakana AI의 AI Scientist-v2가 아이디어 생성부터 실험, 논문 작성까지 전 과정을 자동화해 ICLR 워크숍 블라인드 피어 리뷰를 논문 한 편 $15로 통과했고, 이번 주 Nature에 그 결과가 실렸다.

AI Scientist-v2는 아이디어 생성부터 실험 설계, 코드 작성, 결과 분석, LaTeX 논문 작성까지 전 과정을 자동화한 에이전트 시스템이다. ICLR 2025 ICBINB 워크숍에 제출한 논문이 블라인드 피어 리뷰에서 평균 6.33점(개별: 6, 7, 6)을 받았고, 인간 논문의 55%보다 높은 점수로 통과했다. UBC, Vector Institute, 옥스포드 공동 연구.

코드부터 보자

전부 GitHub에 공개돼 있다. 환경부터 잡고:

conda create -n ai_scientist python=3.11
conda install pytorch torchvision torchaudio pytorch-cuda=12.4
conda install anaconda::poppler conda-forge::chktex
pip install -r requirements.txt

한 줄이면 아이디어 생성부터 논문까지 돌아간다:

python launch_scientist_bfts.py \
  --load_ideas "ai_scientist/ideas/my_topic.json" \
  --load_code --add_dataset_ref \
  --model_writeup o1-preview-2024-09-12 \
  --model_citation gpt-4o-2024-11-20 \
  --num_cite_rounds 20

API 키는 OPENAI_API_KEY, Semantic Scholar용 S2_API_KEY, Bedrock 쓸 거면 AWS 크레덴셜 필요.

핵심은 에이전틱 트리 서치

v1과의 결정적 차이다. v1은 선형이었다. 아이디어 하나 잡고, 실험 한 번 돌리고, 논문 쓰고, 끝. 결과가 안 좋아도 그냥 그 상태로 제출됐다. v2는 접근 자체가 다르다. Best-First Tree Search로 여러 실험 경로를 병렬 탐색하면서 유망한 가지를 골라 확장한다.

num_workers: 3      # 병렬 탐색 경로
steps: 21           # 최대 탐색 노드 수
max_debug_depth: 5  # 실패 시 디버깅 재시도
debug_prob: 0.7     # 디버깅 시도 확률
num_drafts: 3       # 초기 루트 노드 수

Experiment Progress Manager 에이전트가 세 갈래로 동시에 실험을 돌린다. 각 경로에서 결과가 나오면 평가하고, 가장 유망한 노드를 골라 다음 단계로 넘긴다. 실패한 경로는 0.7 확률로 디버깅을 시도하고, 그래도 안 되면 버린다. 최대 21개 노드를 탐색하니까 사실상 수십 번의 실험을 자동으로 돌리면서 최적 결과를 찾는 셈이다.

여기서 모델 분업이 재밌다. 실험 실행과 디버깅에는 Claude 3.5 Sonnet을 쓴다. 코드 생성과 에러 추적에 강하니까. 논문 작성에는 o1-preview — 긴 글의 논리 구조를 잡는 데 유리하다. 인용 처리에는 GPT-4o가 Semantic Scholar API를 호출하면서 관련 논문을 찾고 BibTeX를 정리한다. 하나의 범용 모델에 전부 맡기는 게 아니라, 각 단계에 맞는 모델을 파이프라인으로 엮은 구조다. 탐색 과정 전체는 experiments/{timestamp}/logs/0-run/unified_tree_viz.html에서 트리 시각화로 확인할 수 있다.

$15의 현실

솔직히, $15는 API 비용만이다. NVIDIA GPU + CUDA 필수, 실험 단계만 수 시간. 논문 작성까지 합치면$ 20-25.

ACM SIGIR의 독립 평가가 꽤 신랄하다:

문헌 검토가 Semantic Scholar 키워드 검색 수준. 논문을 "이해"하는 게 아니라 키워드 매칭에 가깝다
생성된 아이디어 상당수가 이미 존재하는 연구인데 시스템은 "새롭다"고 판단
인용 환각, 그림 중복 같은 기초적 실수가 발생
통과한 건 워크숍 레벨이지, 본 학회 트랙이 아니다

HN에서 한 학술지 에디터는 "데스크 리젝트 감"이라 했고, "AI가 버그 바운티에 쓰레기 리포트 쏟아붓듯 학술지도 그렇게 될 것"이라는 댓글도 있었다. IEEE Spectrum도 비슷한 시선.

그래서, 쓸 만한가

초기 아이디어 탐색이나 실험 프로토타이핑 — 여기서는 확실히 시간을 아껴준다. Sakana의 자동 리뷰어도 balanced accuracy 69%로, NeurIPS 2021 인간 리뷰어 간 일치율보다 높다는 데이터가 있다. 파운데이션 모델이 좋아질수록 결과물도 같이 올라간다는 건 보여줬다.

"AI가 과학을 한다"는 프레이밍은 오버다. "AI가 워크숍 페이퍼 초안을 간신히 통과시키는 수준"이 정확하다. ML 연구자라면 직접 돌려볼 만하되, README 경고 그대로 — LLM이 생성한 코드를 실행하는 시스템이니 반드시 샌드박스에서.

#코드부터 보자

#핵심은 에이전틱 트리 서치

#$15의 현실

#그래서, 쓸 만한가

코드부터 보자

핵심은 에이전틱 트리 서치

$15의 현실

그래서, 쓸 만한가