MARS AI 연구 에이전트:
스스로 교훈 쌓아 실험 전략까지 바꾸는 구글의 자율 AI
구글·스탠포드가 2026년 2월 공개한 MARS AI 연구 에이전트(마스)는
단순히 코드를 짜는 AI가 아닙니다. 실패 경험을 교훈으로 저장하고, 다음 실험에 직접 반영하는
‘재귀적 자기 개선’ 루프를 세계 최초로 구현했습니다.
캐글 기반 MLE-벤치에서 오픈소스 1위, 금메달률 31.1%라는 성과가 그 증거입니다.
🏅 금메달률 31.1%
⚡ MARS+ 메달 59.6%
🔁 교훈 전이율 63%
📅 2026.02.08 공개
MARS AI 연구 에이전트란? — 기존 AI와 무엇이 다른가
MARS AI 연구 에이전트(마스, Modular Agent with Reflective Search)는
구글과 스탠포드대학교 연구진이 2026년 2월 2일 arXiv에 게재한 자율 AI 연구 자동화 프레임워크입니다.
단순히 “코드를 생성하는 AI”가 아니라, 머신러닝 연구 전 과정 — 문제 파악, 실험 설계, 코드 작성, 결과 분석, 전략 수정 — 을
스스로 수행하도록 설계되었습니다.
기존 LLM 기반 에이전트들은 AI 연구 자동화 앞에서 두 가지 치명적 약점을 드러냈습니다.
첫째, 실행 비용을 무시한 채 거대한 스크립트를 만들어 GPU 자원을 낭비했습니다.
둘째, 성능이 나빠진 이유가 데이터 전처리 문제인지 하이퍼파라미터 조정 탓인지
정확히 가려내지 못했습니다. 연구 하나를 학습하는 데 수 시간~수 일이 걸리는 현실에서,
이런 낭비는 치명적입니다.
마스는 이 문제를 정면 돌파했습니다. 연구 과정을 “최적의 소프트웨어 저장소를 찾는 탐색 문제”로
재정의하고, 비용 인식 + 모듈화 + 경험 축적이라는 세 가지 축으로 해결책을 구현했습니다.
2026년 3월 현재, 한국어로 마스를 제대로 소개한 콘텐츠는 거의 없습니다.
이 글이 국내 최초 심층 분석이라고 해도 과언이 아닙니다.
“연구자처럼 실험을 기획하고, 결과를 반성하며 성장하는 AI”입니다.
이 차이가 AI 연구 자동화의 게임 체인저가 될 수 있는 이유입니다.
세 가지 핵심 기둥 — 마스가 똑똑한 이유
마스의 성능은 세 가지 설계 원칙에서 나옵니다. 각각을 이해하면
왜 마스가 기존 AI 에이전트와 근본적으로 다른지 바로 파악할 수 있습니다.
예산 인식 계획 (Budget-Aware Planning via MCTS)
알파고를 유명하게 만든 몬테카를로 트리 탐색(MCTS) 알고리즘을 연구 자동화에 적용했습니다.
단순히 “성능이 높은 실험”을 고르는 것이 아니라 “성능 대비 실행 비용이 효율적인 실험”을 선택합니다.
아무리 성능이 좋아도 GPU를 너무 많이 잡아먹는 실험은 사전에 걸러냅니다.
이 덕분에 기존 방식 대비 약 19.5% 더 높은 확률로 유효한 해법을 도출했습니다.
모듈식 구성 (Modular Construction — Design-Decompose-Implement)
연구 코드를 하나의 거대한 파일로 짜지 않습니다. 데이터 로딩, 모델 정의, 학습 과정 등을
독립적인 블록으로 나눠 각각 별도 에이전트가 맡아 구현합니다.
문제가 생기면 전체를 다시 작성하는 대신 해당 블록만 교체하면 됩니다.
이는 소프트웨어 공학의 모듈화 원칙을 AI 연구 자동화에 처음으로 정교하게 이식한 사례입니다.
비교 성찰적 메모리 (Comparative Reflective Memory)
매 실험 결과를 이전 최적 결과와 나란히 비교 분석해 “왜 좋아졌는가, 왜 나빠졌는가”를
‘교훈(Lesson)’ 형태로 저장합니다. 이 교훈은 전혀 다른 실험 경로에도 전이됩니다.
실제로 전체 교훈의 63%가 다른 탐색 경로에 적용되었고, 이것이 마스의 “아하 모멘트”를 만들어냈습니다.
인간 연구자가 “지난번 실수에서 뭔가를 배워 이번엔 다르게 접근하는” 것과 정확히 같은 방식입니다.
예산 인식과 모듈화는 이미 소프트웨어 공학에서 당연한 개념이지만, 경험을 교훈으로 저장하고
다른 문제에 전이하는 것은 사람의 ‘경험 기반 직관’을 모사한 진짜 의미의 학습입니다.
MLE-벤치 성능 결과 — 숫자로 증명된 압도적 차이
마스의 성능은 오픈AI가 공개한 MLE-벤치(MLE-bench) 기준으로 측정됐습니다.
MLE-벤치는 캐글(Kaggle) 경진대회 75개 문제를 기반으로 AI 에이전트의 머신러닝 엔지니어링 역량을 평가하는
벤치마크입니다. 실제 데이터 사이언스 경진대회를 그대로 가져왔기 때문에, 현실 적합성이 높습니다.
| 에이전트 | 금메달 획득률 | 전체 메달 획득률 | GPU 사용 | 오픈소스 여부 |
|---|---|---|---|---|
| MARS (마스) | 31.1% | — | 표준 | ✅ 오픈소스 |
| MARS+ | — | 59.6% | GPU ×2 | ✅ 오픈소스 |
| AIDE | 낮음 | MARS 미만 | 표준 | ✅ 오픈소스 |
| AIRA-dojo | 낮음 | MARS 미만 | 표준 | ✅ 오픈소스 |
| 기존 LLM 에이전트 | 기준값 | 기준값 | 다양 | 혼재 |
특히 주목할 만한 것은 코드 표절 검사 결과입니다. 공개된 캐글 노트북 코드와의
유사도가 대부분 60% 미만으로 나타났습니다. 즉, 마스는 인터넷에 공개된 해답을 베끼는 것이 아니라
스스로 새로운 해법을 생성하고 있다는 뜻입니다. 이것이 진짜 의미 있는 수치입니다.
금메달률 31.1%는 숫자 자체보다 “창의적 해법 생성”이라는 질적 사실이 더 중요합니다.
대형 연구 기관이 아닌 스타트업이나 개인 연구자도 활용할 수 있는 현실적 스펙입니다.
비용 대비 성능 측면에서 기존 어떤 오픈소스 에이전트보다 효율적입니다.
재귀적 자기 개선 — AI가 스스로 성장하는 루프
마스의 가장 독보적인 특성은 연구진이 강조한 ‘재귀적 자기 개선(recursive self-improvement)’입니다.
에이전트가 실패 원인을 분석하고, 그 결론을 다음 시도에 반영하는 지속 학습 루프를 구현했습니다.
이것은 단순히 “더 많은 데이터로 학습한다”는 의미가 아닙니다.
비교 성찰적 메모리가 쌓은 교훈의 63%가 “같은 실험 경로 내”가 아닌
“다른 탐색 경로 사이의 교차 전이“에서 비롯됐습니다.
즉, 실험 A에서 배운 교훈이 전혀 다른 문제인 실험 B를 풀 때 활용됩니다.
이것이 인간 연구자의 직관과 가장 유사한 점입니다.
숙련된 데이터 사이언티스트가 “예전에 이미지 분류에서 배운 기법을 NLP 문제에 응용하는” 것과 같은 원리입니다.
연구진은 이 현상을 “아하 모멘트(Aha! moment)”라고 불렀습니다.
단순 패턴 매칭이 아닌, 이전 경험에서 추상화한 인사이트를 새 상황에 적용하는
— 일종의 창의적 연결 — 이 에이전트 수준에서 나타나고 있다는 것입니다.
이것이 사실이라면, 마스는 AI가 “도구”에서 “연구 주체”로 전환하는 첫 번째 현실적 사례가 됩니다.
왜 지금까지 이런 AI가 없었을까?
ML 연구 자동화는 일반 소프트웨어 자동화보다 훨씬 어렵습니다. 단 하나의 모델을 훈련시키는 데도
수 시간이 걸리기 때문에, 잘못된 실험 방향을 뒤늦게 인식하면 막대한 시간과 비용을 낭비하게 됩니다.
기존 에이전트들은 이 비용 구조를 제대로 인식하지 못했고, 마스의 MCTS 기반 예산 인식 설계가
이 장벽을 처음으로 효과적으로 돌파했습니다.
실무 활용 가능성 — 나는 마스를 어떻게 써야 할까?
마스는 논문 공개와 함께 arXiv에 프레임워크 정보가 공개됐으며,
머신러닝 엔지니어, 데이터 사이언티스트, AI 연구자 등이 활용할 수 있습니다.
현재 상용 서비스 형태로 배포된 것은 아니지만, 관련 코드와 구조를 참고해
자체 실험 파이프라인에 적용하는 것이 가능합니다.
누가 가장 먼저 쓸 수 있을까?
① 캐글 참여자·데이터 사이언티스트: MLE-벤치가 캐글 기반이라는 점에서,
마스의 구조를 캐글 경진대회 파이프라인에 직접 적용해 볼 수 있습니다.
특히 모듈식 구성 원칙은 복잡한 피처 엔지니어링 코드를 관리할 때 즉시 유용합니다.
② 스타트업 ML 팀: GPU 두 개만으로 59.6% 메달 획득률을 낸 MARS+는
GPU 수백 개를 쓰는 빅테크 대비 현실적인 대안입니다. 비용 효율성을 최우선으로 하는
소규모 팀에게 마스의 예산 인식 설계 원리는 곧바로 응용할 수 있는 아이디어입니다.
③ AI 연구 자동화에 관심 있는 개발자: 마스의 비교 성찰적 메모리 개념은
자체 AI 실험 관리 툴(MLflow, Weights & Biases 등)과 결합해 “교훈 축적 레이어”를
별도로 구현하는 방향으로 확장할 수 있습니다.
세 가지 설계 원칙(예산 인식 + 모듈화 + 교훈 축적)을 자신의 실험 파이프라인에
개념적으로 적용하는 것부터 시작하는 것이 현실적입니다.
논문 원문과 함께 Hugging Face Papers 페이지에서 구조를 먼저 파악하는 것을 권장합니다.
한계와 과제 — 마스가 아직 못 하는 것
마스가 인상적인 성과를 냈지만, 연구진 스스로 명확한 한계를 지적했다는 점에서
오히려 신뢰할 수 있습니다. 맹목적인 기술 낙관론을 경계해야 합니다.
첫째, 정해진 벤치마크 환경 내에서의 결과입니다. MLE-벤치는 캐글 경진대회 형태로
명확한 목적 함수(최적화할 지표)가 주어집니다. 하지만 실제 연구에서는 무엇을 최적화해야 할지
문제 정의 자체가 불분명한 경우가 많습니다. 마스는 아직 “무엇을 연구할지 스스로 결정하는”
단계에는 이르지 못했습니다.
둘째, 완전히 새로운 이론 창출은 아직 불가합니다. 마스는 기존 방법론을 조합하고
개선하는 데는 뛰어나지만, 기존에 없던 새로운 학습 패러다임을 직접 발명하는 것은
아직 인간 연구자의 영역입니다. 연구진도 “창의적 연구 단계까지는 추가 검증이 필요하다”고
명시했습니다.
셋째, 실행 비용이 여전히 존재합니다. MARS+는 GPU 두 개를 사용하며,
단기간에 결과를 내야 하는 경우 비용 부담이 발생할 수 있습니다.
일반 개인 개발자가 클라우드에서 돌리면 비용이 적지 않을 수 있습니다.
“연구자가 반복 실험에 쏟는 시간과 에너지를 AI에게 위임하고, 창의적 사고에 집중할 수 있게 된다”는
협력 모델로 이해하는 것이 훨씬 정확합니다. 기술이 발전할수록, 인간의 역할은 ‘실행’에서
‘방향 설정’으로 이동할 것입니다.
❓ Q&A — MARS AI 연구 에이전트 궁금증 5가지
Q1. MARS AI 연구 에이전트는 지금 당장 사용할 수 있나요?
현재 마스는 arXiv 논문과 함께 프레임워크 구조가 공개됐으나, 일반 사용자가 바로 설치해
쓸 수 있는 형태의 상용 서비스나 완성된 오픈소스 패키지로 배포된 것은 아닙니다.
ML 엔지니어·연구자 수준에서 논문을 참고해 자체 구현하거나, Hugging Face Papers에서
관련 코드를 탐색하는 방법으로 접근하는 것이 현실적입니다.
구글의 공식 상용화 발표가 나온다면 즉시 업데이트될 예정입니다.
Q2. MARS는 ChatGPT나 클로드처럼 대화형으로 쓸 수 있나요?
아닙니다. 마스는 대화형 AI가 아니라 자율 연구 자동화 에이전트입니다.
사용자가 문제(예: 이미지 분류 캐글 경진대회)를 제시하면, 마스가 스스로 실험을 설계하고
코드를 작성하며 반복 개선하는 방식으로 작동합니다. ChatGPT처럼 일상적 대화에는 적합하지 않으며,
ML 실험 자동화라는 매우 특수한 목적에 최적화된 시스템입니다.
Q3. MLE-벤치 금메달률 31.1%는 사람보다 높은 수준인가요?
MLE-벤치는 캐글 경진대회 75개 문제를 기반으로 하며, 상위 10% 이내 성적을 기준으로 메달을 부여합니다.
31.1%의 금메달률은 오픈소스 에이전트 중 최고 수준이지만, 해당 캐글 문제들의
원래 최상위 인간 참여자들의 성과와 직접 비교하기는 어렵습니다.
다만 MARS+의 59.6% 메달 획득률은, 제한된 자원으로 절반 이상의 문제에서
상위권 성과를 낸다는 의미로 실질적으로 인상적인 수치입니다.
Q4. 기존 AIDE나 AIRA-dojo와 비교해 마스가 얼마나 뛰어난가요?
마스는 동일한 MLE-벤치 비교 조건에서 기존 오픈소스 최고 수준인 AIDE와 AIRA-dojo를
모두 상회하는 성과를 냈습니다. 논문에 따르면 기존 방식 대비 유효 해법 도출 확률이
약 19.5% 향상되었으며, 이는 단순 성능 개선이 아닌 비용 효율성 측면에서의 개선이기 때문에
더욱 의미가 있습니다. 클로즈드 소스 최상위 방법과도 경쟁력을 유지한다고 논문은 밝혔습니다.
Q5. 구글이 이 기술을 실제 제품에 도입할 가능성이 있나요?
구글은 이미 AI 연구 자동화 분야에서 MLE-STAR(2025년 8월 공개) 등 관련 기술을
꾸준히 축적해 왔습니다. 마스는 그 연장선에 있으며, 구글의 AI 연구 인프라에 통합되거나
Vertex AI 등 플랫폼 서비스로 진화할 가능성이 충분합니다. 단, 현재는 연구용 프레임워크 단계이므로
상용화 시점은 추가 발표를 기다려야 합니다.
✍️ 마치며 — 총평
MARS AI 연구 에이전트(마스)는 AI가 “사용 도구”에서 “연구 주체”로 전환하는
가장 구체적이고 현실적인 첫 사례입니다. 예산 인식 계획, 모듈식 구성, 비교 성찰적 메모리라는
세 기둥은 서로 독립적인 기술이 아니라 하나의 유기적 시스템을 이루며, 이 조합이
기존 AI 에이전트가 해결하지 못했던 ML 연구 자동화의 핵심 장벽을 돌파했습니다.
개인적으로 가장 인상 깊은 부분은 교훈 전이율 63%입니다. 이것은 단순한 성능 수치가 아니라,
AI가 경험을 일반화하고 새로운 문제에 창의적으로 연결하는 능력을 가졌다는 증거입니다.
인간 연구자의 “직관”을 수치로 측정한 셈입니다.
물론 한계는 분명합니다. 완전히 새로운 연구 방향을 스스로 결정하거나, 기존에 없던 이론을
창출하는 단계에는 아직 이르지 못했습니다. 그러나 반복적이고 비용이 큰 실험 사이클을
AI에게 위임함으로써, 인간 연구자는 더 창의적인 질문을 던지는 일에 집중할 수 있게 됩니다.
이것이 2026년 AI 연구 자동화의 진짜 가능성입니다.
본 포스팅은 arXiv 공개 논문(2602.02660) 및 공개된 뉴스 자료를 바탕으로 작성된 정보성 콘텐츠입니다.
MARS의 성능 수치는 논문 발표 당시 기준이며, 추후 업데이트에 따라 변경될 수 있습니다.
상용화 여부 및 구체적인 사용 방법은 구글·스탠포드 공식 채널을 통해 확인하시기 바랍니다.

댓글 남기기