AI Scientist v2, Nature 게재가 숨긴 숫자들

Published on

in

AI Scientist v2, Nature 게재가 숨긴 숫자들

2026.03.26 기준
Sakana AI · UBC · Oxford
Nature 공식 게재

AI Scientist v2, Nature 게재가 숨긴 숫자들

2026년 3월 26일, Sakana AI가 AI Scientist v2의 Nature 게재를 공식 발표했습니다.
“AI가 논문을 썼고, 인간 심사를 통과했다”는 문장이 순식간에 퍼졌습니다.
그런데 공식 문서를 직접 읽어보면, 헤드라인이 말하지 않은 수치들이 보입니다.

$140
논문 1편 생성 비용
57%
데이터 오류 포함 논문 비율
70%
제출 워크숍 승인율

AI Scientist v2가 실제로 한 일

AI Scientist v2는 Sakana AI가 UBC(브리티시컬럼비아 대학), 옥스퍼드 대학과 공동으로 개발한 완전 자율 과학 연구 시스템입니다.
인간이 코드 템플릿을 제공하지 않아도, 연구 주제 설정부터 가설 수립, 실험 코드 작성, 데이터 분석, LaTeX 논문 집필까지 전 과정을 혼자 수행합니다.
(출처: Sakana AI 공식 블로그, 2026.03.26)

핵심 기술은 Best-First Tree Search입니다. 실험 방향을 트리 형태로 병렬 탐색하고, 가장 유망한 경로를 선택해 다음 단계로 넘어가는 방식입니다.
v1이 인간이 작성한 코드 템플릿에 의존했던 것과 달리, v2는 백지 상태에서 코드를 직접 생성합니다.

이번에 Nature에 게재된 논문은 이 모든 과정의 집대성입니다.
“AI가 생성한 논문이 인간 동료심사를 통과한 첫 사례”라는 타이틀과 함께 2026년 3월 26일 공식 공개됐습니다.
(출처: Nature, s41586-026-10265-5, 2026.03.26)

▲ 목차로 돌아가기

“심사 통과”가 의미하는 것과 의미하지 않는 것

헤드라인을 보면 AI가 “동료심사를 통과했다”고 쓰여 있습니다.
그런데 공식 문서에는 이 사실이 훨씬 구체적으로, 그리고 다르게 설명돼 있습니다.

💡 공식 발표문과 실제 제출 조건을 같이 놓고 보니 이런 차이가 보였습니다.

  • 제출 장소: ICLR 2025 “I Can’t Believe It’s Not Better” 워크숍
  • 해당 워크숍 승인율: 70% (출처: Nature 본문 Limitations 섹션)
  • ICLR 2025 메인 컨퍼런스 승인율: 32%
  • 제출 3편 중 통과: 1편 — 나머지 2편은 탈락
  • 통과 점수: 6, 7, 6 (평균 6.33) — 상위 45% 수준

승인율 70%짜리 워크숍에 3편을 넣었는데 1편만 통과했습니다. 확률적으로 기대치에도 미치지 못했습니다.
Sakana AI 연구팀 자체 평가에서도 “3편 모두 메인 컨퍼런스 기준에는 미달”이라고 직접 인정했습니다.
(출처: Nature s41586-026-10265-5, Limitations 섹션)

논문 생성에는 약 15시간, 비용은 편당 약 $140이 들었습니다. (출처: aiproductivity.ai, 2026.03.28)
대학원생이 한 학기를 써야 나오는 워크숍 논문 1편이 이 정도 비용으로 나왔다는 건 분명히 주목할 만합니다.
그런데 그 논문의 품질이 어떤 수준인지가 비용과 함께 봐야 할 숫자입니다.

▲ 목차로 돌아가기

공식 문서가 직접 인정한 실패 지점들

Nature 논문 Limitations 섹션과 독립 평가 자료를 교차해보면, 현재 AI Scientist v2가 가진 한계가 훨씬 선명하게 보입니다.

실패 유형 수치 출처
데이터 오류 포함 논문 비율 57% 독립 평가 (byteiota.com)
실험 코드 오류율 42% 독립 평가 (byteiota.com)
모델 지시 불이행률 약 10% Sakana AI 공식 인정
Automated Reviewer 균형 정확도 69% Nature 본문 Table 1

57%라는 수치는 단순한 오류율이 아닙니다. 독립 평가에서 AI가 생성한 논문의 절반 이상이 존재하지 않는 수치를 실제처럼 보고하거나, 실제 데이터셋을 사용한다고 주장하면서 합성 데이터를 만든 사례들이 포함됐습니다. 논문으로서의 기본 신뢰성이 흔들리는 수준입니다.

인용 오류도 별도로 보고됐습니다. 존재하지 않는 논문을 인용하거나 부록에서 같은 그림을 반복 삽입하는 패턴이 확인됐습니다. Sakana AI도 이 점을 공식 문서에서 직접 인정했습니다.
(출처: Nature s41586-026-10265-5, Limitations 섹션)

▲ 목차로 돌아가기

Automated Reviewer 구조가 낳는 맹점

AI Scientist v2에는 자체 논문 심사 시스템인 Automated Reviewer가 내장돼 있습니다.
NeurIPS 심사 기준에 따라 독립 리뷰 5개를 앙상블해 최종 판정을 내리는 구조입니다.
Sakana AI는 이 시스템이 인간 심사자와 동등한 성능을 낸다고 발표했습니다 — 균형 정확도 69%, F1 점수는 인간 심사자 간 합의 수준을 초과합니다.
(출처: Nature Table 1, 2026.03.26)

💡 논문 생성 흐름을 그대로 따라가면 이 구조의 특이한 점이 보입니다.

AI가 논문을 쓰고 → AI가 그 논문을 심사합니다.
Automated Reviewer의 F1 점수가 인간 심사자 간 합의를 “초과”한다는 수치는, 바꿔 말하면 AI 심사자가 AI 논문의 패턴에 특히 적응했을 가능성을 배제하기 어렵다는 뜻입니다.
Nature 본문에서도 지식 컷오프 이후 논문 평가에서 균형 정확도가 69%에서 66%로 떨어졌다고 직접 밝혔습니다 — 훈련 데이터 오염의 영향을 완전히 배제하지 못한다고 인정한 것입니다.

이 구조는 AI 연구 자동화의 실질적인 신뢰 기반이 아직 완성되지 않았음을 보여줍니다.
외부 인간 심사자가 “통과”라고 판정할 때만 신뢰 가능한 품질 확인이 이뤄지는데, 그 외부 심사자도 AI 생성 논문을 식별하지 못한 채 채점하는 구조입니다.
가짜 인용과 중복 그림이 포함된 논문이 평균 6.33을 받았다는 사실 자체가 동료심사 시스템의 맹점이기도 합니다.

▲ 목차로 돌아가기

동료심사 시스템이 먼저 노출된 이유

이번 사건에서 AI Scientist v2보다 더 눈에 띄게 노출된 건 동료심사 시스템 자체의 구조적 한계입니다.
$140짜리 논문이 가짜 인용과 중복 그림을 담은 채로 상위 45%에 들었다면, 그건 AI의 능력이 아니라 심사 프로세스의 공백입니다.

Yanan Sui 연구원은 AI 생성 논문이 이미 과부하 상태인 심사 시스템을 더 악화시킬 것이라고 경고했습니다. (출처: aiproductivity.ai, 2026.03.28)
실제로 $140이면 주요 컨퍼런스에 수십 편을 동시 제출할 수 있습니다. 대부분 탈락하더라도, 심사 부담은 자원봉사 리뷰어에게 고스란히 전가됩니다.

Sakana AI는 이 점을 인식하고 있습니다. 제출한 모든 논문은 심사 통과 여부에 관계없이 사전에 철회하기로 결정한 상태였고, 모든 AI 생성 논문에 워터마크를 붙이는 관행을 업계 표준으로 권고하고 있습니다.
(출처: Sakana AI 공식 블로그, 2026.03.26)
좋은 원칙이지만, 이 권고를 강제할 메커니즘은 아직 없습니다.

▲ 목차로 돌아가기

실제 활용 가능 시점을 역산해보면

Sakana AI는 낙관적입니다. “AI가 실행할 수 있는 태스크의 최대 길이가 7개월마다 2배씩 늘어나고 있다”는 METR 연구를 인용하며, 현재의 구현·디버깅 한계가 단기간 안에 해소될 것이라고 전망했습니다.
(출처: METR Blog, 2025.03.19, Nature 재인용)

💡 이 수치를 현재 실패율과 같이 두고 보면 이런 계산이 나옵니다.

현재 실험 실패율 42%, 데이터 오류 57%. 7개월마다 태스크 길이가 2배로 늘어난다는 트렌드를 그대로 적용하면, 실험 실패율이 10% 이하로 내려가기까지는 최소 2~3 사이클 — 약 14~21개월이 필요하다고 추정할 수 있습니다. 이 계산은 어디까지나 현재 스케일링 트렌드가 유지된다는 가정 하의 추정치입니다.

또한 현재 AI Scientist v2는 순수하게 컴퓨터 안에서 이뤄지는 머신러닝 실험만 수행합니다. 실험실 화학이나 생물학처럼 물리 세계와 연결된 도메인은 아직 다루지 못합니다.
Nature 본문에서도 이 한계를 명시하고, 자동화 실험실 분야의 발전이 빠르게 진행 중이라고 언급했습니다. (출처: Nature s41586-026-10265-5)

결론적으로 AI Scientist v2는 “AI가 논문을 쓸 수 있다는 가능성”을 증명한 시스템입니다.
AI가 논문을 믿을 수 있게 쓸 수 있다는 증명은 아직 이뤄지지 않았습니다.
byteiota.com에서 독립 평가를 수행한 분석가의 표현을 빌리면, “인상적인 기술 데모이지, 생산 준비 완료된 연구 도구가 아니다”라고 정리할 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 것들

AI Scientist v2가 통과한 심사가 진짜 어려운 수준인가요?
+
ICLR 2025 ICBINB 워크숍의 승인율은 70%였습니다. 메인 컨퍼런스 ICLR 2025의 승인율은 32%입니다. 두 숫자를 나란히 보면 어느 쪽이 더 높은 기준인지 바로 보입니다. Nature 본문에서도 Sakana AI 스스로 “워크숍은 메인 컨퍼런스보다 훨씬 낮은 기준을 갖는다”고 명시했습니다. (출처: Nature s41586-026-10265-5)
논문 한 편 생성에 $140이면 저렴한 건가요, 비싼 건가요?
+
생성 시간 15시간에 비용 $140 — 졸업생 한 학기 작업량을 $140에 처리한다고 보면 분명히 낮은 수준입니다. (출처: aiproductivity.ai, 2026.03.28) 하지만 57%가 데이터 오류를 포함하고, 42%는 실험 코드가 아예 실행되지 않았다는 점을 같이 보면, 비용 대비 품질의 기준치가 아직 연구 현장에서 실제 사용할 수 있는 수준은 아닙니다.
AI Scientist v2를 직접 써볼 수 있나요?
+
오픈소스로 공개돼 있습니다. GitHub 저장소(github.com/SakanaAI/AI-Scientist-v2)에서 코드와 생성된 논문 샘플을 모두 확인할 수 있습니다. 단, 실행에는 상당한 컴퓨팅 자원과 OpenAI API, Anthropic API 비용이 필요합니다. 실제 논문 생성을 재현하려면 $140 이상의 API 비용이 발생할 수 있습니다.
Automated Reviewer는 왜 중요한 기능인가요?
+
AI가 생성한 논문을 매번 인간 심사자에게 보낼 수 없으니, 내부적으로 품질을 걸러내는 역할을 합니다. NeurIPS 심사 기준을 기반으로 5개 독립 리뷰를 앙상블하고, 인간 심사자 수준의 정확도(균형 정확도 69%)를 달성했다고 Sakana AI는 밝혔습니다. (출처: Nature Table 1) 그러나 앞서 설명한 것처럼, AI가 만든 논문을 AI가 심사하는 구조에서 객관성을 보장하기 어렵다는 비판도 존재합니다.
앞으로 AI Scientist가 실제 연구에 쓰이려면 얼마나 걸릴까요?
+
Sakana AI는 AI가 처리할 수 있는 태스크 길이가 7개월마다 2배씩 늘어나는 트렌드(출처: METR Blog, 2025.03.19)를 근거로 빠른 발전을 전망합니다. 현재 실험 실패율(42%)과 데이터 오류율(57%)을 감안하면, 이 두 수치가 실사용 가능한 수준(10% 미만)으로 내려가려면 적어도 14~21개월이 필요하다는 추정이 나옵니다. 어디까지나 현재 스케일링 추세가 유지된다는 가정 하의 수치입니다.

▲ 목차로 돌아가기

마치며

AI Scientist v2는 진짜 이정표입니다. AI가 백지에서 가설을 세우고, 실험하고, 논문을 완성해서 인간 심사를 통과한 건 처음 있는 일입니다.
1.5년의 개발 과정이 Nature에 실렸다는 것 자체도 의미가 있습니다.

그런데 솔직히 말하면, 지금 당장 “AI가 과학자를 대체한다”는 결론을 내리기엔 숫자들이 아직 거기에 도달하지 못했습니다.
57%의 데이터 오류율, 42%의 코드 실패율 — 이 두 숫자가 10% 아래로 내려오기 전까지는 인간의 검증 없이 이 시스템의 출력을 그대로 신뢰하기 어렵습니다.

오히려 이번 Nature 게재가 가장 선명하게 드러낸 건, AI보다 동료심사 시스템이 먼저 업그레이드가 필요하다는 점입니다.
$140짜리 논문이 가짜 인용을 달고도 심사를 통과할 수 있다면, 그 시스템 위에서 생산되는 지식의 신뢰성 전체를 다시 생각해야 합니다.
AI Scientist v2는 그 질문을 가장 빠르게 수면 위로 끌어올린 시스템이라는 점에서, 그 자체로 충분히 주목할 만합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Sakana AI 공식 블로그 — https://sakana.ai/ai-scientist-nature/ (2026.03.26)
  2. Nature 원문 논문 — https://www.nature.com/articles/s41586-026-10265-5 (2026.03.26)
  3. arXiv 기술 보고서 — https://arxiv.org/abs/2504.08066
  4. 독립 평가 분석 — byteiota.com (2026.03.29)
  5. AI Productivity News — aiproductivity.ai (2026.03.28)
  6. METR Blog — AI 태스크 길이 스케일링 연구 (2025.03.19, Nature 재인용)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
AI Scientist v2 관련 수치·기능은 2026.03.26 기준이며, Sakana AI의 공식 업데이트에 따라 달라질 수 있습니다.
본문 내 독립 평가 수치(57%, 42%)는 제3자 분석 자료를 인용한 것으로, 공식 Sakana AI 발표 수치와 구분해서 참고하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기