2026.03.25 공식 출시 기준
ARC Prize Foundation

ARC-AGI-3 직접 해봤습니다
— AI 0.37%의 진짜 의미

GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 모두 1%도 못 넘었습니다. 근데 같은 날 어떤 팀은 36%를 냈습니다. 두 숫자 사이에 벌어진 일을 정리했습니다.

0.37%

최고 AI 점수

100%

인간 점수

$2M

2026 상금 풀

135+

총 환경 수

ARC-AGI-3가 뭔지, 한 문장으로 정리하면

ARC-AGI-3는 2026년 3월 25일 ARC Prize Foundation(François Chollet, Mike Knoop 공동 창설)이 공식 출시한 AI 에이전트 벤치마크입니다. 이전 ARC-AGI-1, 2가 “정적인 그리드 퍼즐에서 규칙을 유추하는 능력”을 측정했다면, ARC-AGI-3부터는 완전히 다른 방식을 씁니다. AI를 새로운 게임 환경에 던져 놓고 목표가 뭔지도, 규칙이 뭔지도 알려주지 않습니다. (출처: ARC-AGI-3 Technical Report, ARC Prize Foundation, 2026.03.24)

구체적으로는 64×64 컬러 그리드로 구성된 턴제 인터랙티브 환경에서 에이전트가 탐색(Exploration)·모델링(Modeling)·목표 설정(Goal-Setting)·실행(Planning & Execution)의 4가지 능력을 동시에 발휘해야 합니다. 공식 시스템 프롬프트는 단 두 줄입니다.

“You are playing a game. Your goal is to win. Reply with the exact action you want to take.”

(출처: ARC-AGI-3 Technical Report, p.14)

그게 전부입니다. “이기는 게 목표”라는 말 외에 게임 규칙, 조작법, 이길 조건 중 어느 것도 알려주지 않습니다. 인간은 이 환경에서 중간값 기준 7.4분 만에 문제를 풀었고, AI는 최고 성적이 0.37%입니다.

▲ 목차로 돌아가기

점수 계산법이 생각보다 가혹한 이유

ARC-AGI-3는 단순 통과 여부가 아니라 “행동 효율”로 점수를 냅니다. 공식 메트릭 이름은 RHAE(Relative Human Action Efficiency)입니다. 같은 레벨을 인간이 10번 행동으로 깼고 AI가 100번 행동으로 깼다면, 공식은 (10/100)² = 1%를 부여합니다. 제곱을 쓰기 때문에 비효율에 대한 패널티가 선형보다 훨씬 가파릅니다. (출처: ARC-AGI-3 Technical Report, p.11)

레벨 가중치도 있습니다. 5개 레벨짜리 환경에서 레벨 1은 전체 환경 점수의 1/15, 레벨 5는 5/15를 차지합니다. 초반 튜토리얼 레벨에서 운 좋게 통과해도 후반 레벨에서 무너지면 점수는 급락합니다. 고비용 API 환경의 현실을 고려해, AI 에이전트가 인간 기준의 5배 이상 행동을 쓰면 자동 컷오프 처리도 됩니다.

💡 공식 발표문과 실제 채점 구조를 같이 놓고 보니 이런 차이가 보였습니다

통과(0 or 1)가 아니라 효율 점수이기 때문에, 겨우 레벨 1만 통과한 에이전트와 모든 레벨을 통과했지만 비효율적인 에이전트가 최종 점수에서 비슷하게 나올 수 있습니다. “맞췄냐 틀렸냐”가 아니라 “얼마나 영리하게 풀었냐”로 구분하는 구조입니다.

인간 기준점도 평균이 아닌 “2번째로 잘한 인간”으로 설정했습니다. 이상치를 제거하면서도 강한 기준선을 유지하기 위해서입니다. 각 환경마다 10명이 테스트에 참여했고, 그 중 2명 이상이 전체 환경을 독립적으로 완주한 경우만 정식 포함됐습니다.

▲ 목차로 돌아가기

ARC-AGI-2 1위가 ARC-AGI-3에서 0.37%로 떨어진 이유

2026년 2월, Gemini 3.1 Pro가 ARC-AGI-2에서 77.1%를 기록했습니다. Gemini 3 Deep Think는 84.6%까지 올렸습니다. 그 직후인 3월 25일, 같은 Gemini 3.1 Pro Preview가 ARC-AGI-3 공식 리더보드에서 0.37%를 받았습니다. (출처: ARC-AGI-3 Technical Report, p.15 Table 2)

모델	ARC-AGI-2 점수	ARC-AGI-3 공식 점수
Gemini 3.1 Pro Preview	77.1%	0.37%
GPT-5.4 (High)	—	0.26%
Claude Opus 4.6 (Max)	—	0.25%
Grok-4.20 (Beta)	—	0.00%

(출처: ARC-AGI-3 Technical Report, p.15 / officechai.com ARC-AGI-3 리뷰, 2026.03.26)

이 수직 낙하의 이유는 단순합니다. ARC-AGI-2는 여전히 “주어진 퍼즐에서 패턴 찾기”였습니다. 아무리 어렵게 설계해도 결국 입출력 예시가 있고, 모델은 학습 데이터에서 비슷한 패턴을 찾아낼 수 있었습니다. ARC-AGI-3는 그 구조 자체를 바꿨습니다. 아무것도 없는 상태에서 직접 탐색해서 “세계가 어떻게 작동하는지”부터 파악해야 합니다.

현재 LRM(Large Reasoning Model)들이 강한 영역은 “충분한 학습 데이터가 있는 영역에서의 추론”입니다. 기술 리포트는 이를 “jagged intelligence(울퉁불퉁한 지능)”로 묘사했습니다. 모르는 도메인에 혼자 뛰어들어 학습하는 능력, 바로 그게 빠져 있습니다. (출처: ARC-AGI-3 Technical Report, p.3)

▲ 목차로 돌아가기

출시 당일 36% 달성한 팀의 진짜 의미

공식 리더보드에서 최고 점수가 0.37%인데, 같은 날 Symbolica의 Agentica SDK는 “커뮤니티 리더보드”에서 36.08%를 공개했습니다. 182개 플레이 가능 레벨 중 113개를 통과하고, 25개 공개 환경 중 7개를 완주했습니다. (출처: Symbolica 공식 블로그, symbolica.ai/blog/arc-agi-3, 2026.03.25)

💡 공식 발표문과 커뮤니티 결과를 나란히 놓고 보면 이 차이가 핵심입니다

36%는 AGI 발전 수치가 아닙니다. ARC Prize Foundation은 이 결과를 공식 리더보드에 올리지 않습니다. ARC-AGI-3의 공개 환경을 미리 알고 그에 맞춰 설계된 하네스(harness)가 올린 점수이기 때문입니다. 같은 모델에 같은 하네스를 써도, 공개 환경 하나에서 97.1%를 낸 Claude Opus 4.6이 다른 환경에서는 0.00%를 받았습니다.

ARC Prize Foundation은 공식 리포트(p.14)에서 이를 명확히 구분했습니다. “특정 환경을 알고 설계된 하네스의 성능은 모르는 환경으로 전혀 일반화되지 않는다”고 밝혔습니다. 반면, 커뮤니티 리더보드는 하네스 연구 자체의 가치는 인정합니다. 체인오브쏘트(CoT)도 원래는 외부 하네스에서 시작해 결국 모델 내부로 들어갔기 때문입니다.

그러니 “36%”와 “0.37%”는 다른 것을 측정한 수치입니다. 하네스 엔지니어링의 현재 수준 vs 범용 지능의 현재 수준. ARC Prize Foundation의 관심은 후자입니다.

▲ 목차로 돌아가기

이전 벤치마크가 왜 믿기 어려운 수치로 변했나

ARC-AGI-3 기술 리포트에는 불편한 내용이 담겨 있습니다. Gemini 3 모델이 ARC-AGI 과제를 풀 때 추론 체인에서 이런 내용을 썼습니다.

“… Target is Green (3). Pattern is Magenta (6) Solid. Result: Magenta Square on Green …” — Gemini 3 Deep Think 추론 체인 중

(출처: ARC-AGI-3 Technical Report, p.4, ARC Prize Foundation, 2026.03.24)

프롬프트 어디에도 “ARC-AGI”라는 단어나 정수-색상 매핑 방식을 알려주지 않았습니다. 그런데 Gemini 3는 그 매핑을 정확히 알고 있었습니다. 학습 데이터 안에 ARC-AGI 데이터가 충분히 들어가 있다는 강한 정황입니다. ARC-AGI-1은 사실상 포화 상태(Gemini 3.1 Pro 98%)이고, ARC-AGI-2도 84.6%까지 올라왔습니다. 기억에서 건지는 것인지 진짜로 추론하는 것인지 구분이 어려워진 상황입니다.

그래서 ARC-AGI-3는 공개:비공개 비율을 완전히 뒤집었습니다. ARC-AGI-2가 10:1 비율(공개가 더 많음)이었다면, ARC-AGI-3는 공개 25개, 비공개 110개로 역전됐습니다. 비공개 환경은 공개 환경과 의도적으로 다른 메카닉으로 구성됐습니다. 공개 환경으로 학습하거나 하네스를 설계해도 비공개 환경에서는 거의 효과가 없도록 설계됐습니다. (출처: ARC-AGI-3 Technical Report, p.10)

이 변화를 솔직히 말하면, 지금까지 AI 리더보드 수치를 보며 “거의 인간 수준에 왔구나”라고 생각했다면, 그 수치의 일부는 진짜 실력이 아닐 수 있다는 경고입니다.

▲ 목차로 돌아가기

2026 경쟁 일정과 지금 주목할 실전 포인트

ARC Prize 2026의 상금 풀은 총 $200만 달러입니다. ARC-AGI-3 트랙 단독으로 그랜드 프라이즈는 $70만 달러이며, 100% 달성 조건입니다. 현재 0.37%에서 100%까지 가야 하는 거리를 생각하면 쉽지 않은 조건입니다. (출처: arcprize.org/competitions/2026)

날짜	이벤트
2026.03.25	ARC-AGI-3 공식 출시, 경쟁 시작
2026.06.30	마일스톤 #1 (중간 체크포인트)
2026.09.30	마일스톤 #2
2026.11.02	최종 제출 마감
2026.12.04	수상자 발표

(출처: arcprize.org/competitions/2026)

실전에서 ARC-AGI-3 결과를 읽을 때 한 가지를 꼭 확인해야 합니다. “공식 리더보드 점수”인지 “커뮤니티 리더보드 점수”인지입니다. ARC Prize Foundation은 하네스 사용 여부를 기준으로 두 리더보드를 완전히 구분했습니다. 앞으로 “우리 AI가 ARC-AGI-3에서 XX% 달성”이라는 발표가 이어질 텐데, 그 숫자가 어느 리더보드의 것인지가 의미를 완전히 바꿉니다.

참고로 모든 제출 팀은 오픈소스 의무가 있습니다. CC0 또는 MIT-0 라이선스로 소스코드를 공개해야만 공식 평가 점수를 받을 수 있습니다. Kaggle을 통해 제출하며, 평가 중 인터넷 접근이 차단되므로 GPT/Claude 같은 외부 API를 직접 호출하는 방식은 사용할 수 없습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. ARC-AGI-3는 일반 사람도 직접 풀 수 있나요?

네, 공개 환경 25개는 arcprize.org/tasks?v=3 에서 지금 바로 플레이 가능합니다. 조건도 지식도 필요 없고, 순수하게 탐색해서 규칙을 파악하면 됩니다. 대부분 5분 이내에 감을 잡을 수 있습니다.

Q2. Symbolica가 36%를 냈는데 왜 뉴스가 됐나요?

출시 당일 나온 결과라는 점에서 주목받았습니다. 다만 이 36%는 공식 리더보드가 아닌 커뮤니티 리더보드의 자체 보고 수치입니다. 공개 환경을 미리 알고 설계한 하네스의 결과이며, ARC Prize Foundation은 이를 AGI 발전의 증거로 해석하지 않는다고 명시했습니다.

Q3. 점수 제곱 방식이 불공평하다는 비판도 있는데요?

실제로 커뮤니티에서 나오는 비판 중 하나입니다. 레벨을 통과하더라도 행동 수가 인간의 2배이면 점수는 25%, 10배면 1%에 불과합니다. “통과했는데 점수가 너무 낮다”는 불만이 있고, 일부는 통과율과 효율을 별도 축으로 분리해야 한다고 주장합니다. ARC Prize Foundation은 이 구조가 “브루트포싱을 막기 위한 의도적 설계”라고 밝혔습니다.

Q4. ARC-AGI-3도 결국 금방 포화되지 않을까요?

레딧 커뮤니티에서도 “3개월~1년 내에 포화될 것”이라는 예측이 나옵니다. ARC Prize Foundation은 이를 고려해 공개:비공개 비율을 25:110으로 역전시켰고, 비공개 환경은 공개와 다른 메카닉으로 구성했습니다. 이전처럼 공개 데이터로 학습해 비공개에서 유사 패턴을 쓰는 전략이 매우 어렵도록 설계됐습니다.

Q5. Kaggle 대회 참가 조건이 따로 있나요?

누구나 참가 가능하지만, 상금 수령을 위해서는 솔루션을 CC0 또는 MIT-0 라이선스로 오픈소스 공개해야 합니다. 평가 환경에서 인터넷 접근이 차단되므로 GPT나 Claude 같은 외부 API를 직접 쓰는 방식은 사용할 수 없습니다. 제출 마감은 2026년 11월 2일입니다.

▲ 목차로 돌아가기

마치며

ARC-AGI-3를 처음 접하면 “AI가 겨우 0.37%?” 하고 의아할 수 있습니다. 그런데 막상 공개 환경 하나를 직접 해보면 왜 어려운지 바로 감이 옵니다. 아무것도 알려주지 않는 환경에서 사람은 몇 번 클릭해보면 대충 “아 이게 이런 규칙이구나” 하고 감을 잡는데, 지금 AI는 그 탐색 루프 자체를 못 하고 있습니다.

개인적으로 이번 ARC-AGI-3에서 가장 인상 깊었던 건 점수 자체보다 리포트가 솔직하다는 점입니다. “이전 벤치마크 데이터가 학습에 들어갔을 가능성이 있다”고 공식 문서에 직접 쓴 기관은 많지 않습니다. 그 덕분에 AI 성능 수치를 해석하는 기준 자체를 다시 잡게 됩니다.

36%와 0.37%, 두 숫자 중 어느 쪽이 더 의미 있는지는 이제 맥락을 알고 판단할 수 있을 겁니다. 앞으로 AI 뉴스에서 벤치마크 점수를 볼 때 “공식인지, 하네스 포함인지”를 확인하는 습관 하나면 절반 이상은 속지 않습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅은 2026년 3월 31일 기준 공식 발표 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. ARC-AGI-3 점수는 추후 리더보드 업데이트로 변동될 수 있으며, 최신 수치는 arcprize.org/leaderboard에서 확인 바랍니다.

ARC-AGI-3 직접 해봤습니다
— AI 0.37%의 진짜 의미

ARC-AGI-3가 뭔지, 한 문장으로 정리하면

점수 계산법이 생각보다 가혹한 이유

ARC-AGI-2 1위가 ARC-AGI-3에서 0.37%로 떨어진 이유

출시 당일 36% 달성한 팀의 진짜 의미

이전 벤치마크가 왜 믿기 어려운 수치로 변했나

2026 경쟁 일정과 지금 주목할 실전 포인트

자주 묻는 질문 5가지

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

ARC-AGI-3 직접 해봤습니다 — AI 0.37%의 진짜 의미

ARC-AGI-3 직접 해봤습니다— AI 0.37%의 진짜 의미

ARC-AGI-3가 뭔지, 한 문장으로 정리하면

점수 계산법이 생각보다 가혹한 이유

ARC-AGI-2 1위가 ARC-AGI-3에서 0.37%로 떨어진 이유

출시 당일 36% 달성한 팀의 진짜 의미

이전 벤치마크가 왜 믿기 어려운 수치로 변했나

2026 경쟁 일정과 지금 주목할 실전 포인트

자주 묻는 질문 5가지

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

ARC-AGI-3 직접 해봤습니다
— AI 0.37%의 진짜 의미