2026.02.02 arXiv 공개
Google Cloud AI Research · Stanford
arXiv:2602.02660 기준

MARS 직접 파봤습니다
— AI가 연구를 설계하는 순간

AI가 코드를 짜는 건 이제 익숙합니다. 그런데 실험이 실패했을 때, 왜 실패했는지 스스로 분석하고 다음 실험 전략을 바꾸는 AI는 다른 얘기입니다. 구글·스탠포드 연구진이 공개한 MARS(Modular Agent with Reflective Search)가 바로 그걸 합니다. 논문 원문을 직접 읽고, 수치를 검증했습니다.

31.1%

금메달 획득률
(Gemini-3-Pro 기준)

63%

교훈의 타 브랜치
전이 비율

19.5%

유효 해법 발견율
(Vanilla MCTS 대비↑)

AI가 ‘왜 틀렸는지’ 물어보는 날이 왔습니다

결론부터 말씀드리면, MARS는 기존 AI 코딩 에이전트와 근본적으로 다른 지점 하나를 가지고 있습니다. 기존 에이전트는 코드를 생성하고 실행한 뒤 결과가 나쁘면 그냥 다음 시도를 합니다. MARS는 다릅니다. 이번 결과와 이전의 가장 좋았던 결과를 나란히 놓고, “뭐가 달랐는가“를 분석해 ‘교훈(Lesson)’으로 저장합니다.

이 차이가 왜 중요한가? AI 연구를 자동화하는 건 일반 소프트웨어 개발보다 훨씬 어렵기 때문입니다. 코드 버그는 실행하면 바로 압니다. 하지만 모델 정확도가 2% 올랐을 때, 그게 데이터 전처리 덕인지, 학습률을 바꾼 덕인지, 아니면 그냥 랜덤 시드 운인지 — 구분하기가 어렵습니다. 논문 원문(arXiv:2602.02660)에서는 이걸 ‘credit assignment problem(기여 원인 귀속 문제)‘이라고 부릅니다. MARS는 이 문제를 체계적으로 풉니다.

구글 클라우드 AI 리서치와 스탠퍼드 연구진이 2026년 2월 2일 arXiv에 공개한 이 논문은, 연구를 ‘최적의 소프트웨어 저장소를 찾는 탐색 문제’로 재정의합니다. 말이 좀 딱딱하게 들리지만, 핵심은 간단합니다. AI가 연구 계획을 세우고, 실험하고, 실패 원인을 분석해 다음 실험에 반영하는 — 인간 연구자가 하는 방식을 닮은 루프를 만든 겁니다.

(출처: Jiefeng Chen et al., Google Cloud AI Research, arXiv:2602.02660, 2026.02.02)

▲ 목차로 돌아가기

세 개의 엔진이 맞물려야 돌아갑니다

MARS는 세 가지 핵심 구조로 작동합니다. 하나라도 빠지면 논문이 제시한 성능이 나오지 않습니다. 아래 비교표를 먼저 보시면 감이 옵니다.

시스템	모듈식 코드	예산 인식 탐색	메모리 방식
AIDE	✗	✗	이전 전체 점수·설계 저장
AIRA-dojo	✗	✗	일부 설계·코드·결과 저장
MARS	✓	✓	비교 성찰 메모리 (원인 분석)

(출처: MARS 논문 Table 1, arXiv:2602.02660)

① 예산 인식 계획 — 알파고 방식으로 비용까지 계산합니다

MARS는 ‘몬테카를로 트리 탐색(MCTS)’을 씁니다. 알파고가 바둑에서 다음 수를 고를 때 쓰는 그 알고리즘입니다. 그런데 일반 MCTS와 다른 점이 있습니다. 성능 점수만 보는 게 아니라, 실행 시간까지 보상 함수에 반영합니다. 논문이 제시한 공식은 이렇습니다: R(v) = G(v) × [t(v)/L(v)]^w (w=-0.07). 즉 실행 시간이 길수록 보상이 깎입니다. 정확도를 0.1% 올리는 대신 학습 시간이 10배 늘어나는 실험은 걸러냅니다. 이게 ‘Vanilla MCTS’ 대비 유효 해법 발견율을 19.5% vs 16.1%로 3.4%p 높입니다. (출처: arXiv:2602.02660, Section 5.3)

② 모듈식 구성 — 코드를 한 덩어리로 짜지 않습니다

기존 에이전트들은 연구 코드를 하나의 긴 파일로 만듭니다. MARS는 데이터 로딩, 모델 정의, 학습 루프를 각각 독립된 모듈로 분리합니다. 논문 데이터에 따르면, 모듈화 적용 시 평균 코드 라인 수가 474.8줄 → 1103.9줄로 늘어나고 파일 수도 1.0개 → 6.7개로 증가합니다. 복잡해 보이지만, 덕분에 문제가 생겼을 때 전체를 다시 짜지 않아도 됩니다. 실제로 5개 경진대회 문제에 대해 각각 4~7개의 역할별 모듈이 자동 생성됩니다. (출처: arXiv:2602.02660, Table 4·5)

③ 비교 성찰 메모리 — ‘교훈 65.8%’는 실제로 쓰입니다

MARS는 매 실험 후 ‘이전 최고 결과 vs 현재 결과’를 비교해 원인을 분석하고 교훈으로 저장합니다. 실험 결과, 저장된 교훈의 65.8%가 실제로 다음 솔루션에 활용됩니다. 더 흥미로운 건 그 중 63%가 ‘다른 탐색 경로(branch)’에서 얻은 교훈이라는 점입니다. 즉, A 실험에서 배운 걸 전혀 다른 B 실험에 써먹습니다. 이게 논문이 ‘아하 모멘트’라고 부르는 현상입니다. (출처: arXiv:2602.02660, Section 6)

▲ 목차로 돌아가기

숫자는 인상적한데, 비용 얘기를 빼놓으면 반쪽입니다

💡 성능표만 보면 놓치는 수치가 있습니다 — 비용과 성능을 함께 놓고 봐야 실제 선택 기준이 보입니다

MLE-bench에서 MARS의 Any Medal Rate는 43.1%로, AIRA-dojo(24.4%) 대비 약 1.76배입니다. 이것만 보면 압도적입니다. 그런데 논문 Appendix E.3에는 이런 수치가 있습니다. AIRA-dojo의 작업당 LLM API 비용은 $39.0, MARS는 $60.5입니다. (출처: arXiv:2602.02660, Appendix E.3)

비율로 계산하면 이렇습니다:

성능 향상: 43.1% ÷ 24.4% ≈ 1.77배

비용 증가: $60.5 ÷ $39.0 ≈ 1.55배

→ 비용 대비 성능 효율: 1.77 / 1.55 ≈ 1.14배

성능이 77% 오르는데 비용은 55% 더 드는 겁니다. 이걸 어떻게 볼 것인가는 사용 목적에 따라 다릅니다. 연구 결과가 중요한 상황이라면 충분히 납득할 만합니다. 하지만 이걸 자동화 파이프라인에 대량 투입한다면, 작업 건수에 비례해 비용이 쌓입니다. 논문 저자들도 “미래 연구에서 컨텍스트 캐싱과 조기 종료(early stopping)로 경제성을 개선할 것”이라고 밝혔습니다. 지금 버전이 ‘완성품’이 아니라는 뜻이기도 합니다.

참고로 이 비용은 A100 GPU 1대 + 24시간 실험 환경 기준입니다. GPU 2대를 쓰는 MARS+ 변형은 성능이 더 높지만 하드웨어 비용은 별도입니다. 현실에서 MARS를 쓰려면 LLM API 비용 외에 컴퓨팅 인프라 비용도 함께 계산해야 합니다.

▲ 목차로 돌아가기

캐글 금메달이 ‘진짜 연구’를 의미하지 않는 이유

💡 벤치마크 점수와 실제 과학적 발견 사이에는 아직 메워지지 않은 간극이 있습니다

MARS가 31.1% 금메달 획득률을 기록한 MLE-bench는, 캐글 경진대회 75개를 토대로 만든 기계학습 엔지니어링 벤치마크입니다. 즉 주어진 데이터셋에서 정해진 평가 지표를 최대화하는 능력을 측정합니다. 이건 훌륭한 엔지니어링 능력이지, ‘새로운 연구 질문을 설정하는 능력’이 아닙니다.

MARS 논문 저자들도 이 점을 솔직하게 인정합니다. 결론 섹션에 이런 문장이 있습니다: “Future work will focus on extending MARS to broader scientific discovery domains.” 현재 버전은 MLE(기계학습 엔지니어링) 중심이고, 더 넓은 과학적 발견 영역으로의 확장은 미래 과제라는 뜻입니다. (출처: arXiv:2602.02660, Section 7)

실제로 AI 타임즈 보도(2026.02.08)에서도 연구진이 이렇게 말합니다: “이번 결과는 정해진 벤치마크 환경 내에서의 성과다. 실제로 고도의 창의성이 필요한 새로운 이론 정립 단계까지는 추가 연구가 필요하다.” 이 부분이 핵심입니다. MARS는 ‘주어진 문제를 잘 풀기’ 영역에서 최고지만, ‘아직 아무도 풀지 않은 문제를 정의하기’는 아직입니다.

최근 FML-bench(2026.03.18 발표)는 이 간극을 명확히 보여줍니다. 이 벤치마크는 실제 ML 연구 코드베이스에서 8가지 근본적 연구 문제를 추출해, AI 에이전트가 ‘공학 기술’이 아닌 ‘연구 발명’ 능력을 가졌는지 검사합니다. 기존 에이전트들이 MLE-bench에서 보이는 성과와는 다른 양상이 나타납니다. 즉, 캐글 경진대회 성적과 진짜 과학적 발견 사이의 거리는 아직 좁혀지지 않았습니다. (출처: FML-bench, arxiv.org/html/2510.10472v2, 2026.02.25)

▲ 목차로 돌아가기

공식 발표문과 실제 작동 흐름을 같이 놓고 보니 이런 차이가 보였습니다

MARS를 다루는 기사 대부분은 “AI가 스스로 교훈을 얻는다”는 결론에 집중합니다. 그런데 논문을 직접 읽어보면 두 가지가 더 눈에 들어옵니다.

첫 번째 — ‘예산 인식’이 붙은 순간 MCTS는 다르게 작동합니다

일반적으로 MCTS 계열 알고리즘을 연구 자동화에 쓴 사례는 이전에도 있었습니다(ML-Master, AIDE 등). 하지만 MARS가 처음으로 비용 패널티를 보상 함수에 직접 통합했습니다. 논문 비교표(Table 1)에서 기존 6개 시스템 중 ‘예산 인식 탐색’ 항목에 ✓ 표시가 있는 건 MARS뿐입니다. 이 수치 하나가 ‘비슷한 정확도라면 더 빠른 해법을 선택’하는 행동을 만들어냅니다. AI 연구 도구를 실제 운영 환경에 올릴 때 핵심이 될 수 있는 설계입니다. (출처: arXiv:2602.02660, Table 1, Section 4.4)

두 번째 — 코드 표절 검사에서 유사도 60% 미만이 의미하는 것

논문은 메달권 제출물의 코드를 캐글 공개 노트북과 표절 비교했습니다(Dolos 도구 사용). MARS와 AIRA-dojo 모두 60% 미만 유사도를 기록했습니다. 이 수치가 의미하는 건 ‘AI가 기존 코드를 베끼지 않고 새 해법을 만든다’는 겁니다. 동시에 ‘60% 미만’이라는 수치는, 완전히 새롭지는 않다는 점도 함께 보여줍니다. 기존 패턴의 조합과 응용이라는 특성은 여전합니다. 이 둘을 동시에 읽어야 합니다. (출처: arXiv:2602.02660, Figure 6)

솔직히 말하면, MARS는 ‘연구 AI의 완성’이 아니라 ‘연구 AI로 가는 경로에서 의미 있는 한 걸음’입니다. 예산 인식, 모듈화, 성찰 메모리라는 세 구조가 맞물려 기존 시스템보다 분명히 앞서지만, 논문 저자들 스스로 한계를 인정했고 비용 문제도 남아 있습니다. 이 점을 함께 보는 게 맞습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. MARS는 지금 당장 쓸 수 있는 서비스인가요?

현재(2026.03.20 기준)는 오픈소스 연구 프레임워크 단계입니다. 논문 공개와 함께 코드와 실행 궤적(trajectory)이 GitHub(github.com/jfc43/MARS)에 공개되어 있습니다. 일반 사용자가 바로 쓸 수 있는 완성된 서비스 형태는 아닙니다. A100 GPU 환경과 LLM API 키가 필요합니다. (출처: arXiv:2602.02660, Section 5.1)

Q2. MLE-bench 금메달 31.1%가 어느 정도 수준인가요?

MLE-bench 공식 리더보드 기준으로 MARS(Gemini-3-Pro-Preview 사용)는 금메달률 31.1%로 오픈소스 프레임워크 중 1위입니다. 비공개 시스템까지 포함한 전체 리더보드 최상위권과도 경쟁력 있는 수준입니다. 이전 최고 오픈소스 에이전트인 AIRA-dojo는 동일 조건에서 15.1~24.0% Any Medal Rate를 기록했습니다. (출처: arXiv:2602.02660, Table 2)

Q3. MARS가 쓰는 LLM은 무엇인가요?

논문 실험에서는 Gemini-2.5-Pro와 Gemini-3-Pro-Preview 두 가지를 기본 LLM으로 사용했습니다. Gemini-3-Pro-Preview 기준에서 더 높은 성능이 나왔습니다. MARS 자체는 프레임워크이므로 이론상 다른 LLM과도 결합 가능하지만, 논문에서 검증된 조합은 Gemini 계열입니다. (출처: arXiv:2602.02660, Table 2)

Q4. ‘교훈(Lesson)’이 쌓이면 성능이 계속 올라가나요?

MARS는 컨텍스트 창 한계를 관리하기 위해 최대 K=30개의 최신 교훈만 유지합니다. 즉 무한정 쌓이지는 않고, 중복·저신호 교훈은 리뷰 에이전트가 걸러냅니다. 한 작업 세션 내에서의 누적 학습은 실증됐지만, 세션 간 장기 지식 이전은 아직 연구 과제입니다. (출처: arXiv:2602.02660, Section 4.3)

Q5. MARS+ 변형은 MARS와 어떻게 다른가요?

MARS+는 동시에 2개의 탐색 트리를 실행하는 확장 변형입니다. 하드웨어도 A100 1대 → H100 2대 + vCPU 48개로 2배가 됩니다. 그 결과 Any Medal Rate가 MARS(56.0%)에서 MARS+(62.7%)로 올라가고, Above Median Rate도 65.8% → 74.2%가 됩니다. 컴퓨팅을 두 배 투입하면 성능이 비례해 오릅니다. (출처: arXiv:2602.02660, Table 2)

▲ 목차로 돌아가기

마치며

MARS를 처음 접했을 때는 “AI가 연구를 한다”는 문장이 좀 과장처럼 들렸습니다. 논문을 직접 읽고 나서 생각이 바뀐 부분과 바뀌지 않은 부분이 있습니다.

바뀐 부분: 예산 인식 MCTS와 비교 성찰 메모리는 진짜로 작동합니다. 교훈의 63%가 타 브랜치에서 전이된다는 수치, 유효 해법 발견율이 19.5% vs 16.1%라는 수치는 공식 논문에 명시된 실측값입니다. 허수아비 성능이 아닙니다.

바뀌지 않은 부분: 이건 여전히 ‘최적화 엔지니어링’ 도구입니다. 새 이론을 세우거나 아직 존재하지 않는 연구 질문을 찾아내는 능력은 논문 저자들 스스로 미래 과제로 남겼습니다. MLE-bench 금메달 AI가 노벨상을 향해 가는 AI라고 보기에는 아직 거리가 있습니다.

그래도 방향은 분명합니다. AI가 ‘코드 생성 도구’에서 ‘연구 전략을 수정하는 도구’로 이동하는 첫 단계를 MARS가 보여줬습니다. 다음 버전, 혹은 다음 경쟁 프레임워크가 비용 문제와 창의성 한계를 어떻게 줄여가는지 지켜볼 이유가 충분합니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

MARS 논문 원문 — Jiefeng Chen et al., Google Cloud AI Research, arXiv:2602.02660
https://arxiv.org/abs/2602.02660
AI 타임즈 — 구글, 연구 에이전트 ‘마스’ 공개 (2026.02.08)
https://www.aitimes.com/news/articleView.html?idxno=206555
MLE-bench — OpenAI, 기계학습 에이전트 벤치마크, arXiv:2410.07095
https://arxiv.org/abs/2410.07095
FML-bench — ML 연구 에이전트 평가 (2026.02.25)
https://arxiv.org/html/2510.10472v2
LLM Watch — AI Agents of the Week (2026.02.08)
https://www.llmwatch.com/p/ai-agents-of-the-week-papers-you-e74

본 포스팅은 arXiv:2602.02660 (2026.02.02 ~ 2026.02.17 v2) 및 공개된 자료를 기반으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 인용 수치는 논문 공개 시점 기준이며, 후속 버전에서 달라질 수 있습니다. 확인이 필요한 내용은 원문 출처를 직접 확인하시기 바랍니다.

MARS 직접 파봤습니다
— AI가 연구를 설계하는 순간

AI가 ‘왜 틀렸는지’ 물어보는 날이 왔습니다