IT / AI — 2026.03.14

구글 MARS AI 완전정복:
한 번 실패해도 스스로 배우는 연구 에이전트의 충격

AI가 논문을 읽고 코드를 짜는 시대는 지났습니다. 이제 구글 MARS AI 연구 에이전트는 실패를 분석하고, 교훈을 저장하며, 다음 실험을 스스로 개선합니다.

MLE-Bench 오픈소스 1위
금메달 획득률 31.1%
MARS+ 메달 획득률 59.6%
교훈 교차 전이율 63%

구글 MARS AI 연구 에이전트란 무엇인가

2026년 2월 2일, 구글 클라우드 AI 리서치(CAIR) 팀과 스탠포드대학교 연구진은 arXiv에 논문 한 편을 조용히 공개했습니다. 제목은 「MARS: Modular Agent with Reflective Search for Automated AI Research」. 한국 미디어에서는 ‘AI타임스’와 ‘KRA뉴스’ 두 곳만 간단히 소개했을 뿐, 블로그나 티스토리에는 아직 한 편의 포스팅도 없습니다. 그런데 이 논문이 조용하게 쌓아 올린 숫자가 심상치 않습니다.

구글 MARS AI 연구 에이전트의 정식 이름은 Modular Agent with Reflective Search의 약자입니다. 단순히 코드를 생성하거나 논문을 요약하는 수준이 아니라, AI 연구의 전 과정— 실험 설계, 코드 작성, 디버깅, 결과 분석, 전략 수정—을 자율적으로 수행하도록 설계된 에이전트 프레임워크입니다.

핵심 구동 모델은 Gemini 3 Pro Preview이며, MIT 라이선스로 공개되어 누구나 GitHub에서 사용할 수 있습니다. 논문 저자는 Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon 등 구글 CAIR 팀 6인입니다.

💡 인사이트: MARS는 ‘AI가 AI를 연구한다’는 개념을 처음으로 벤치마크에서 실증한 오픈소스 프레임워크입니다. 연구 자동화의 실현 가능성을 숫자로 증명했다는 점에서, 단순한 논문이 아닌 AI 연구 생태계의 분기점입니다.

▲ 목차로 돌아가기

기존 AI 에이전트가 연구를 망치던 진짜 이유

AI 연구 자동화가 일반 소프트웨어 개발 자동화보다 훨씬 어렵다는 사실은 이미 알려져 있습니다. 하지만 ‘왜 어려운지’를 명확히 짚어낸 곳은 많지 않았습니다. MARS 논문은 이 문제를 두 가지로 압축합니다.

첫째는 계산 비용의 불투명성입니다. 모델 하나를 학습시키는 데 몇 시간, 길게는 며칠이 걸립니다. 기존 LLM 기반 에이전트들은 이 비용을 무시한 채 지나치게 거대한 스크립트를 생성하거나, 효과가 불분명한 실험을 반복하며 GPU 자원을 낭비했습니다. 사람이 감독하지 않으면 비용 폭탄이 터지는 구조였습니다.

둘째는 성능 원인 추적의 어려움(Credit Assignment)입니다. 성능이 달라졌을 때 데이터 전처리 문제인지, 하이퍼파라미터 문제인지, 모델 구조 문제인지를 가려내기가 극히 어렵습니다. 기존 에이전트들은 이 인과관계를 분석하지 못한 채 무작위 탐색에 가까운 방식으로 실험을 반복했습니다.

단순 반복 vs. 구조적 개선의 차이

기존 최고 수준(SOTA) 에이전트로 평가받던 AIDE나 AIRA-dojo도 이 두 가지 한계를 완전히 극복하지 못했습니다. 특히 장기적인 탐색(long-horizon exploration) 과정에서 복잡한 최적화 지형을 헤쳐나가지 못하고 메달 수준의 성과에 도달하지 못하는 경우가 많았습니다. MARS는 바로 이 지점을 정면으로 공략했습니다.

▲ 목차로 돌아가기

MARS의 3대 핵심 기둥 완전 해부

구글 MARS AI 연구 에이전트의 아키텍처는 세 가지 핵심 기둥으로 구성됩니다. 각각이 독립된 기술이 아니라 하나의 파이프라인으로 유기적으로 연결됩니다.

예산 인식 계획 (Budget-Aware Planning)

바둑 AI ‘알파고’가 사용해 유명해진 몬테카를로 트리 탐색(MCTS)을 응용합니다. 단, MARS는 정확도만 최대화하는 게 아니라 실행 비용(시간+GPU 자원)까지 동시에 고려하는 ‘비용 제약 MCTS’를 사용합니다. 즉, 아무리 성능이 좋아도 실행 시간이 지나치게 길면 미리 걸러내고, 성능이 유사하면 더 빠른 방법을 선택합니다. 이 방식으로 MARS는 기존 대비 약 19.5% 더 높은 확률로 유효한 해법을 찾아냈습니다.

모듈식 구성 (Modular Construction)

연구 코드를 한 덩어리의 거대한 스크립트로 짜지 않고, 「설계(Design) → 분해(Decompose) → 구현(Implement)」 3단계 파이프라인으로 나눠 만듭니다. 데이터 로딩, 모델 정의, 학습 루프 같은 기능을 각각 독립된 블록으로 분리하여 전용 에이전트(Idea / Modular / Coding Agent)가 담당합니다. 문제가 생겼을 때 전체를 다시 짤 필요 없이 해당 블록만 수정하는 Diff-Based Refinement가 가능해집니다.

비교 성찰적 메모리 (Comparative Reflective Memory)

매번 실험 결과를 단순히 기록하는 게 아니라, 이번 결과와 역대 최고 결과를 나란히 비교합니다. 성능이 좋아지거나 나빠진 원인을 분석해 「교훈(Lesson)」 형태로 저장하고, 다음 실험이나 완전히 다른 문제에도 재활용합니다. MARS가 사용한 교훈의 무려 63%가 서로 다른 실험 경로 사이의 교차 전이에서 비롯됐습니다. 즉, A 실험에서 배운 교훈이 B 실험을 개선하는 구조입니다.

💡 인사이트: 이 세 기둥의 진짜 의미는 재귀적 자기 개선(Recursive Self-Improvement)의 실현입니다. 에이전트가 실패 원인을 분석하고, 그 결과를 다음 시도에 반영하는 지속 학습 루프를 처음으로 벤치마크 환경에서 구현했습니다.

▲ 목차로 돌아가기

MLE-Bench 성적표: 숫자로 보는 압도적 차이

구글 MARS AI 연구 에이전트의 성능은 MLE-Bench(캐글 경진대회 문제 기반 평가)에서 객관적으로 검증됐습니다. MLE-Bench는 실제 머신러닝 엔지니어링 작업을 얼마나 잘 수행하는지를 측정하는 가장 공신력 있는 AI 에이전트 벤치마크 중 하나입니다.

에이전트	사용 LLM	전체 메달율	소요 시간
🥇 MARS+ (구글 CAIR)	Gemini 3 Pro Preview	62.67%	24h
PiEvolve (Fractal AI)	Gemini 3 Pro Preview	61.33%	24h
Famou-Agent 2.0	Gemini 2.5 Pro	59.56%	24h
ML-Master 2.0	DeepSeek-V3.2	56.44%	24h
MARS (구글 CAIR)	Gemini 3 Pro Preview	56.0%	24h
Thesis	GPT-5-Codex	48.44%	24h

※ MLE-Bench 글로벌 리더보드 기준 (2026년 2월 17일자) | 출처: github.com/jfc43/MARS

주목할 점은 MARS의 High 난이도 문제 성적입니다. 난이도가 낮은 Lite 문제에서는 경쟁 에이전트들과 비슷하지만, 어려운 문제일수록 MARS+가 44.44%로 타 경쟁자들을 앞서는 경향이 확인됩니다. 이는 단순 패턴 매칭이 아니라 진짜 ‘생각하는’ 탐색이 이뤄지고 있음을 시사합니다.

또한 코드 표절 검사에서 공개된 캐글 노트북과의 유사도가 대부분 60% 미만으로 나타났습니다. 단순히 기존 코드를 베끼는 게 아니라 스스로 새로운 해법을 만들어내고 있다는 증거입니다.

▲ 목차로 돌아가기

‘아하 모먼트’: AI가 스스로 깨달음을 얻는 순간

MARS 논문에서 연구진이 가장 자랑스러워하는 부분이 바로 「아하 모먼트(Aha! Moment)」입니다. 이는 에이전트가 장기적인 탐색 과정에서 복잡한 최적화 지형을 스스로 헤쳐나가며 기존 방법들이 실패하는 지점에서 메달 수준의 성과를 달성하는 현상입니다.

논문에서 소개된 대표 사례는 iMet-2020-FGVC7 과제입니다. 기존 에이전트들은 이 어려운 과제에서 메달 수준 성적에 도달하지 못했습니다. 반면 MARS는 다음의 전략 진화를 보여줬습니다. 처음에는 가벼운 잔차 네트워크(Lightweight Residual Network)로 시작하다가, 여러 실험 경로에서 얻은 교훈을 교차 적용하며 점차 모델 앙상블(Ensemble) 기법으로 전략을 발전시켜 결국 은메달을 획득했습니다.

왜 이게 중요한가

사람이 연구할 때도 비슷한 과정을 거칩니다. 처음에는 단순한 접근으로 시작하고, 실패를 반복하며 더 정교한 전략으로 발전합니다. MARS가 보여준 아하 모먼트는 AI가 단순한 도구를 넘어 ‘경험을 축적하며 성장하는 연구 주체’로 진화하고 있음을 보여주는 첫 번째 구체적 증거입니다. 이것이 단순한 성능 지표 개선과 구별되는 MARS의 진정한 의의입니다.

💡 인사이트: 63%라는 숫자가 핵심입니다. 이는 MARS가 사용한 교훈 중 절반 이상이 ‘다른 실험에서 배운 것’이라는 뜻입니다. 자신의 경험을 일반화하는 능력, 즉 인간 연구자의 가장 핵심 역량을 에이전트가 구현하기 시작한 것입니다.

▲ 목차로 돌아가기

MARS가 AI 연구 생태계를 바꾸는 결정적 이유

표면적으로 MARS는 ‘ML 경진대회를 잘 푸는 에이전트’처럼 보입니다. 그러나 더 깊이 들여다보면 이것이 AI 연구 생태계 전체의 구조를 바꿀 수 있는 이유가 보입니다.

연구 비용의 민주화

MARS+가 GPU 두 개만으로 메달 획득률 59.6%를 달성했다는 사실은 매우 중요합니다. 기존에는 최첨단 AI 연구를 위해 수십, 수백 개의 GPU가 필요했습니다. MARS의 예산 인식 계획이 이 진입 장벽을 획기적으로 낮춰줍니다. 대형 연구소뿐 아니라 스타트업이나 개인 연구자도 경쟁력 있는 AI 연구를 수행할 수 있는 시대가 가까워지고 있습니다.

AI가 AI를 개선하는 루프

MARS가 구현한 재귀적 자기 개선 루프는 더 큰 함의를 가집니다. 현재는 정해진 벤치마크 환경 안에서만 작동하지만, 이 구조가 성숙해지면 AI가 스스로 새로운 학습 방법을 발견하고, 그 방법으로 더 강력한 AI를 만드는 자동화된 AI 개선 파이프라인의 기반이 될 수 있습니다. 구글이 이 논문을 단순한 연구가 아니라 미래 인프라 설계의 일부로 발표했다는 점을 간과해서는 안 됩니다.

▲ 목차로 돌아가기

한계와 현실: MARS가 아직 못 하는 것

MARS에 대한 흥분을 가라앉히고 냉정하게 볼 필요도 있습니다. 논문 저자들 스스로도 현재 결과는 ‘정해진 벤치마크 환경 내에서의 성과’라는 점을 명확히 밝히고 있습니다.

가장 큰 한계는 진짜 창의성의 부재입니다. MARS는 기존에 알려진 방법들을 조합하고 최적화하는 데는 뛰어나지만, 완전히 새로운 이론을 정립하거나 패러다임을 전환하는 수준의 창의적 발견은 아직 불가능합니다. 연구진도 “고도의 창의성이 필요한 새로운 이론 정립 단계까지는 추가 연구가 필요하다”고 인정합니다.

또한 실제 연구 환경의 복잡성도 과제입니다. 벤치마크는 목표와 평가 기준이 명확하게 정의되어 있지만, 현실 연구는 목표 자체가 모호하거나 변하는 경우가 많습니다. 열린 질문(open-ended research)을 다루는 능력은 아직 검증된 바 없습니다.

그럼에도 불구하고

개인적으로는 이 한계가 MARS를 과소평가할 이유가 되지 않는다고 봅니다. 처음으로 ‘연구 자동화’가 벤치마크에서 실증됐다는 사실, 그리고 MIT 라이선스로 완전 공개됐다는 사실이 더 중요합니다. 한계를 알고 활용하는 것이, 아예 모르는 것보다 훨씬 가치 있습니다.

⚠️ 주의: MARS는 현재 ML 엔지니어링 자동화 도구입니다. AI 연구자의 역할을 ‘대체’하는 것이 아니라, 반복적이고 비용 집약적인 실험 과정을 자동화하여 연구자가 더 창의적인 문제에 집중할 수 있도록 돕는 방향으로 활용해야 합니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1
구글 MARS AI 연구 에이전트는 무료로 사용할 수 있나요?

네, 완전 무료입니다. 구글 CAIR 팀이 GitHub에 MIT 라이선스로 공개했기 때문에 상업적 목적으로도 자유롭게 사용·수정·배포가 가능합니다. 다만 Gemini 3 Pro Preview API 사용 비용은 별도로 발생할 수 있습니다. GitHub 저장소 주소는 github.com/jfc43/MARS입니다.

Q2
MARS가 MLE-Bench에서 1위인데, 실제 연구에도 바로 쓸 수 있나요?

MLE-Bench는 캐글 경진대회 형태로 목표가 명확히 정의된 환경입니다. 실제 연구는 목표가 모호하거나 도중에 바뀌는 경우가 많아 즉시 적용에는 제약이 있습니다. 그러나 머신러닝 프로젝트에서 반복적인 실험 최적화, 하이퍼파라미터 탐색, 모델 앙상블 전략 탐색 등에는 지금도 충분히 활용 가능합니다.

Q3
MARS와 OpenAI의 코덱스(Codex) 계열 에이전트는 어떻게 다른가요?

Q4
‘교훈 교차 전이율 63%’는 구체적으로 무슨 의미인가요?

MARS가 실험 과정에서 활용한 전체 교훈 중 63%가 ‘같은 실험에서 얻어 바로 사용한 것’이 아니라, ‘다른 실험 경로에서 얻은 교훈을 현재 경로에 전이한 것’이라는 의미입니다. 즉, 서로 다른 맥락의 경험을 일반화하여 새로운 문제에 적용하는 능력을 갖췄음을 정량적으로 보여줍니다.

Q5
MARS가 AI 연구자의 일자리를 빼앗을 가능성은 있나요?

단기적으로는 ‘대체’보다 ‘증강’에 가깝습니다. 현재 MARS는 명확히 정의된 목표 하에서 반복 실험을 자동화하는 수준입니다. 연구 문제를 정의하고, 가설을 세우고, 결과의 의미를 해석하는 고차원적 판단은 여전히 인간 연구자의 영역입니다. 다만 5~10년 후 이 기술이 성숙해진 시점에서는 ML 엔지니어링의 상당 부분이 에이전트로 대체될 가능성을 배제할 수 없습니다.

▲ 목차로 돌아가기

마치며 — 조용히 공개된 논문 한 편이 바꿀 것들

2026년 2월, 구글이 조용히 공개한 MARS 논문은 한국에서 거의 주목받지 못했습니다. 엔비디아 GTC도 아니고, 젠슨 황의 기조연설도 아닙니다. arXiv에 올라온 기술 논문 한 편입니다. 그러나 이 논문이 담고 있는 의미는 화려한 쇼케이스보다 훨씬 근본적입니다.

구글 MARS AI 연구 에이전트는 처음으로 ‘연구 자동화’를 벤치마크에서 실증하며, AI가 단순한 도구에서 ‘경험을 축적하며 성장하는 연구 주체’로 진화하는 첫 번째 계단을 올라섰습니다. 재귀적 자기 개선, 교훈의 교차 전이, 예산 인식 탐색이라는 세 가지 기술이 결합될 때 AI가 얼마나 달라질 수 있는지를 숫자로 증명했습니다.

물론 아직 갈 길은 멉니다. 창의적 이론 정립, 모호한 목표 처리, 열린 연구 질문 다루기 같은 진짜 어려운 문제들은 해결되지 않았습니다. 하지만 한 가지만큼은 분명합니다. AI 연구의 반복적인 실험 사이클은 이제 인간이 혼자 감당하는 것이 아니라 에이전트와 함께 나누는 시대가 시작됐다는 것입니다.

총평: MARS는 2026년 가장 과소평가된 AI 논문입니다. MIT 라이선스 공개, GPU 2개로도 가능한 높은 성능, 자기 개선 루프의 구현이라는 세 가지 요소가 결합된 이 프레임워크는 머신러닝 실무자와 연구자 모두에게 지금 당장 주목해야 할 도구입니다.

▲ 목차로 돌아가기

본 콘텐츠는 공개된 arXiv 논문 및 GitHub 자료를 기반으로 작성된 정보성 글입니다. 수치 및 성능 지표는 논문 발표 시점(2026년 2월) 기준이며, 이후 업데이트로 변경될 수 있습니다.

구글 MARS AI 완전정복:
한 번 실패해도 스스로 배우는 연구 에이전트의 충격

구글 MARS AI 연구 에이전트란 무엇인가