ARC-AGI-3 공식 발표 직후
ARC-AGI-3 직접 해봤습니다 —
AI는 여기서 멈췄습니다
ARC-AGI-3이 뭔데 이렇게 난리인가요
ARC-AGI-3는 Keras를 만든 프랑수아 숄레(François Chollet)와 Mike Knoop이 이끄는 ARC Prize Foundation이 2026년 3월 25일 Y Combinator 본사에서 공식 출시한 AI 인텔리전스 벤치마크입니다. (출처: ARC Prize Foundation 공식 블로그, arcprize.org/blog/arc-agi-3-launch, 2026.03.25)
기존 ARC-AGI 1·2와 근본적으로 다른 점은 딱 하나입니다. 정적인 문제가 아니라 인터랙티브 게임 환경이라는 것. 설명도 없고 규칙도 없고 목표도 안 알려줍니다. 그냥 화면에 뭔가 보이고, AI 에이전트가 직접 탐색하면서 규칙을 파악하고 목표를 추론해서 풀어내야 합니다.
이게 어렵냐고요? 사람은 평균 몇 분 만에 풀고, 재미있다고 합니다. 그런데 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 같은 최강 모델들이 전부 0%대를 기록했습니다. ARC-AGI-3 arXiv 논문(arXiv:2603.24621, 2026.03.24)에는 이렇게 적혀 있습니다. “Humans can solve 100% of the environments, in contrast to frontier AI systems which, as of March 2026, score below 1%.”
💡 공식 발표문과 실제 스코어를 함께 보니 이게 보였습니다
ARC-AGI-1이 나왔을 때도 “AI가 0%”라는 말이 나왔습니다. 그런데 지금은 93~94%로 포화 상태입니다. 버전3은 구조 자체가 달라서 같은 패턴이 반복되지 않습니다. 훈련 데이터로 외울 수 있는 정답이 존재하지 않는 환경이라는 게 핵심입니다.
AI 전부 0점인 이유가 따로 있습니다
“컴퓨팅 파워가 부족해서” “아직 업데이트가 안 돼서”가 아닙니다. 문제는 아키텍처 자체에 있습니다. 지금의 AI는 훈련 데이터에서 패턴을 찾아내는 데 탁월하지만, 완전히 낯선 환경에서 규칙을 스스로 추론하는 능력은 없습니다.
ARC-AGI-3는 이 점을 정조준합니다. 135개 환경이 전부 손으로 제작된 고유 디자인이고, 같은 패턴이 반복되지 않습니다. GPT-5.4가 실제로 게임을 시도하는 영상을 보면, 같은 동작을 계속 반복하면서 멈칩니다. 화면 속 ‘+’기호를 눌러야 한다는 것을 끝내 알아채지 못한 채 말이죠.
| 모델 | ARC-AGI-3 점수 | ARC-AGI-2 점수 |
|---|---|---|
| 👤 훈련 없는 일반인 | 100% | ~100% |
| Gemini 3.1 Pro Preview | 0.37% | 69% |
| GPT-5.4 | 0.26% | 72% |
| Claude Opus 4.6 | 0.25% | 68% |
| Grok-4.20 | 0.00% | — |
(출처: ARC Prize Foundation 공식 리더보드, arcprize.org, 2026.03.25 기준)
표를 보면 ARC-AGI-2에서는 Gemini 3.1 Pro가 69%, GPT-5.4가 72%를 냈습니다. 버전3에서는 동일 모델이 0.37%, 0.26%입니다. 같은 모델인데 점수 차이가 200배 가까이 납니다. 문제 유형이 바뀌자마자 능력이 사라진 겁니다.
점수 매기는 방식이 AI에게 불리한 이유
ARC-AGI-3에는 RHAE(Relative Human Action Efficiency)라는 독자 채점 방식이 있습니다. 단순히 “풀었냐/못 풀었냐”가 아니라 “얼마나 효율적으로 풀었냐”를 봅니다. 그것도 제곱을 해서 패널티를 가중합니다.
🔢 RHAE 계산 공식 (직접 따라할 수 있는 형태)
RHAE = (인간 행동 수 ÷ AI 행동 수)²
예시: 사람이 10번 만에 풀고, AI가 100번을 허비해서 겨우 풀었다면
RHAE = (10 ÷ 100)² = 0.1² = 1%
(출처: ARC-AGI-3 arXiv 논문 arXiv:2603.24621, ARC Prize Foundation)
선형이 아니라 제곱입니다. AI가 사람보다 10배 많이 헤맸다고 해서 점수가 10%가 되는 게 아니라 1%가 됩니다. 무작정 시도를 반복하는 브루트포스 전략을 원천 차단하는 설계입니다. 무한 클릭으로 우연히 맞혀도 점수가 거의 안 나오는 이유가 여기 있습니다.
인간 기준점도 따로 설정돼 있습니다. 10명의 첫 번째 플레이어 중 두 번째로 좋은 기록을 기준으로 삼습니다. 운 좋게 한 번에 맞힌 이상치(outlier)를 걷어내고, 실질적으로 낯선 환경에서 일반인이 보여주는 능력을 기준선으로 씁니다.
97.1%라는 숫자의 진짜 의미
인터넷 어딘가에 “Claude Opus 4.6이 ARC-AGI-3에서 97.1%를 기록했다”는 이야기가 나올 수 있습니다. 사실입니다. 단, 맥락을 같이 봐야 합니다.
그 97.1%는 연구팀이 특정 환경 하나에 맞게 설계된 전용 ‘하네스(harness)’를 만들어서 테스트한 결과입니다. 그 하네스는 그 환경에서만 통했고, 다른 환경에서는 0%였습니다. (출처: aiforautomation.io, ARC-AGI-3 분석 보고서, 2026.03.27)
💡 이 수치를 공식 발표와 같이 놓고 보면 이런 차이가 보입니다
97.1%는 “하나의 퍼즐을 뚫는 방법을 찾은 것”이고, 공식 점수 0.25%는 “처음 보는 퍼즐 135개를 일반 지능으로 푼 것”입니다. ARC-AGI-3가 측정하는 건 후자입니다. 특정 도구로 특정 퍼즐을 깨는 능력은 여기서 점수가 안 됩니다.
이게 현재 AI의 구조적 한계를 가장 잘 보여주는 사례입니다. 특정 패턴에 최적화된 도구를 만드는 건 잘 되지만, 다음 번 낯선 상황에서 그 경험이 이어지지 않습니다. 학습이 전이(transfer)되지 않는 것이죠.
Chollet이 직접 경고한 것
발표 후 Chollet은 X(트위터)에서 이렇게 말했습니다. “ARC-AGI is not a final exam that you pass to claim AGI. Including ARC-AGI-3.” (출처: François Chollet X 계정, @fchollet, 2026.03.26)
그는 이 벤치마크를 “AGI 달성 여부를 판별하는 시험지”로 설계하지 않았습니다. 대신 “현재 AI와 인간 지능 사이의 잔여 격차를 포착하는 도구”로 만들었다고 못박았습니다. 누군가 ARC-AGI-3를 풀었다고 해서 그게 곧 AGI가 됐다는 뜻은 아니라는 겁니다.
💡 벤치마크 설계 의도를 파고들면 보이는 것
ARC-AGI-1이 나온 뒤 AI는 결국 93%를 찍었습니다. 그런데 인간 지능은 “다음 환경”에서도 100%입니다. Chollet의 전략은 AI가 따라잡는 즉시 더 어려운 버전을 만드는 것입니다. 마치 달리는 목표물처럼 설계된 시리즈입니다.
이 관점에서 보면 “AI가 0%”라는 뉴스보다 더 중요한 건 따로 있습니다. ARC Prize 재단이 $200만을 걸고 오픈소스 솔루션을 요구한다는 점입니다. 상금을 받으려면 코드를 공개해야 합니다. 돌파구를 찾더라도 특정 기업이 독점하지 못하게 막는 구조입니다.
직접 해보니 이렇습니다
arcprize.org/tasks/ls20에서 첫 번째 공개 게임 ‘ls20’을 해봤습니다. 화면에는 격자 맵, 캐릭터, 노란 바, 모서리에 작은 참조 이미지가 보입니다. 설명은 없습니다. 그냥 뭔가 하면 됩니다.
몇 번 이리저리 클릭해보다가 ‘+’기호를 건드렸더니 캐릭터 방향이 바뀌었습니다. 아, 저걸 먼저 써서 방향을 맞추고 이동해야 하는 거구나. 3분 정도 걸렸습니다. 이걸 GPT-5.4는 같은 동작을 수백 번 반복하다가 포기했습니다.
솔직히 말하면, 게임 자체는 어렵지 않습니다. 하지만 “아무 정보도 없는 상태에서 직접 탐색해서 룰을 찾아내는” 그 과정이 현재 AI에게 없는 능력입니다. AI는 패턴을 찾는 데 최적화돼 있고, 탐색 자체를 설계하는 건 다른 이야기입니다.
프리뷰 컴피티션에서 1위를 차지한 StochasticGoose 에이전트(Tufa Labs, 점수 12.58%)는 CNN 기반의 강화학습 방식으로 “어떤 클릭이 화면 변화를 만드는지”부터 학습했습니다. 255,964번의 행동을 써서 18개 레벨을 완료했습니다. (출처: ARC Prize Foundation 공식 블로그, 2026.03.25) 일반인은 같은 레벨을 수십 번 만에 풀었을 텐데, 255,964번을 썼다는 것 자체가 현재 AI의 탐색 비효율을 수치로 보여줍니다.
Q&A
마치며
ARC-AGI-3는 AI가 “얼마나 많이 알고 있냐”가 아니라 “얼마나 빠르게 모르는 것을 파악하느냐”를 측정합니다. 이 점에서 현재 AI는 솔직히 완패입니다. GPT-5.4든 Claude Opus 4.6이든 0%대라는 건 마케팅 수사 없이 봐야 하는 숫자입니다.
그렇다고 지금 AI 도구가 쓸모없어진 건 아닙니다. 코딩, 글쓰기, 요약, 번역에서 AI가 잘하는 건 패턴 매칭이고, 그 영역은 그대로 강합니다. 단지 “AI가 인간처럼 새로운 상황을 스스로 파악한다”는 믿음은 아직 사실이 아닙니다.
$200만 상금이 미청구 상태로 남아 있는 한, 이 격차는 현실입니다. 마감은 2026년 11월. 그 전에 누군가 ARC-AGI-3를 뚫는다면, 그날이 정말 AI 역사에서 새로운 챕터가 열리는 날이 될 겁니다.
본 포스팅 참고 자료
- ARC Prize Foundation 공식 발표 — arcprize.org/blog/arc-agi-3-launch
- ARC-AGI-3 arXiv 논문 (Chollet et al., 2026.03.24) — arxiv.org/abs/2603.24621
- ARC Prize 2026 Kaggle 컴피티션 — kaggle.com/competitions/arc-prize-2026-arc-agi-3
- ARC Prize Foundation 30일 프리뷰 리포트 — arcprize.org/blog/arc-agi-3-preview-30-day-learnings
- François Chollet X 계정 공식 코멘트 — x.com/fchollet
본 포스팅은 2026년 3월 30일 기준으로 작성되었습니다. ARC Prize Foundation 및 관련 AI 서비스의 정책·점수·기능은 이후 업데이트로 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 arcprize.org에서 직접 확인하시기 바랍니다.











댓글 남기기