ARC-AGI-3, 점수 1%도 안 나오는 진짜 이유
ARC-AGI-3가 뭔지, 기존과 뭐가 다른지
ARC-AGI-3는 François Chollet이 이끄는 ARC Prize 재단이 2026년 3월 25일 샌프란시스코 Y Combinator 본사에서 공개한 AI 지능 측정 벤치마크입니다. Chollet과 OpenAI CEO Sam Altman이 같이 무대에 올랐을 정도로 업계 안팎에서 주목받은 발표였습니다.
기존 ARC-AGI-1과 2는 고정된 그리드 퍼즐이었습니다. AI에게 입력-출력 예시 몇 개를 주고 규칙을 추론해 새로운 퍼즐을 풀게 하는 방식이었죠. ARC-AGI-3는 이 구조를 완전히 뒤집었습니다. 135개의 인터랙티브 턴제 게임 환경이 주어지고, AI 에이전트는 목표가 뭔지도, 규칙이 뭔지도 안 알려줍니다. 직접 환경을 탐색하고, 무엇이 이기는 조건인지 스스로 파악하고, 계획을 세워 실행해야 합니다. (출처: ARC-AGI-3 공식 기술 논문, arcprize.org, 2026.03.24)
아무 설명 없이 게임기를 손에 쥐여주는 셈입니다. 훈련받지 않은 일반인은 이걸 풀 수 있지만, 세상에서 가장 비싼 AI들은 손도 못 댑니다.
인간 100% vs AI 0.26% — 수치 그대로 읽기
공식 기술 논문에 나오는 숫자입니다. 2026년 3월 현재 ARC-AGI-3에서 인간 테스트 참가자들은 100% 성공했습니다. 반면 프런티어 AI 모델들의 공식 점수는 다음과 같습니다. (출처: ARC-AGI-3 Technical Report, arcprize.org/media/ARC_AGI_3_Technical_Report.pdf, 2026.03.24)
| 모델 | 공식 점수 (RHAE) | 작업당 비용(추정) |
|---|---|---|
| 인간 (훈련 없음) | 100% | – |
| Gemini 3.1 Pro Preview | 0.37% | 약 수천 달러 |
| GPT-5.4 High | 0.26% | 약 수천 달러 |
| Claude Opus 4.6 Max | 0.25% | 약 $8,900 |
| Grok 4.20 Beta Reasoning | 0.00% | – |
0.25%짜리 결과를 내는데 약 $8,900을 쓰고 있습니다. 비용 대비 성과 차이가 극단적입니다. 이 숫자가 뜻하는 건 하나입니다. 아무리 많은 토큰을 태워도, 지금의 AI는 규칙을 스스로 발견하는 능력이 사실상 없다는 것입니다.
점수를 세는 방식이 기존과 완전히 다릅니다
💡 공식 발표문과 채점 공식을 같이 놓고 보면, 점수가 낮다는 것보다 낮게 나올 수밖에 없는 구조라는 게 보입니다.
ARC-AGI-3의 점수 체계는 RHAE(Relative Human Action Efficiency, “레이”라고 읽습니다)라는 새로운 지표를 씁니다. 단순히 문제를 풀었는지 여부가 아니라, 인간보다 몇 배 더 많은 행동을 썼는지로 점수를 매깁니다. (출처: ARC-AGI-3 Technical Report, 2026.03.24)
핵심은 제곱(power-law) 패널티입니다. 인간 기준선은 환경마다 10명의 일반인을 테스트해서 두 번째로 좋은 사람의 행동 수로 정합니다. AI가 인간보다 10배 많은 행동을 썼다면, 점수는 10%가 아닌 1%가 됩니다. 계산식은 이렇습니다.
RHAE 점수 계산 예시
인간 기준 행동 수: 10회
AI 행동 수: 100회
효율 비율: 10 ÷ 100 = 0.1
최종 레벨 점수: 0.1² = 1%
거기에 레벨 가중치도 붙습니다. 5개 레벨짜리 환경이면 레벨 5는 레벨 1보다 5배 가중치를 받습니다. 초반 쉬운 레벨을 잘 풀어도 나중에 막히면 점수가 거의 안 오릅니다. 이 구조 때문에 현재 AI들이 0.xx% 점수에 머무는 겁니다.
추가로 비용 제한도 있습니다. 인간이 10번에 클리어하는 레벨이면 AI는 최대 50번(5배)까지만 시도할 수 있습니다. 그 이상은 강제 종료됩니다. 2026년 초 기준으로 전체 평가를 한 번 돌리는 비용이 수만 달러에 달할 수 있다고 논문에서 직접 밝혔습니다.
하네스 쓰면 36%도 나오는데, 왜 공식 점수로 안 쳐줄까
💡 공식 리더보드와 커뮤니티 리더보드는 같은 점수처럼 보이지만 의미가 전혀 다릅니다. 이 차이를 모르면 뉴스 기사에서 나오는 숫자를 잘못 읽게 됩니다.
Symbolica의 Agentica SDK는 출시 당일(2026.03.25)에 ARC-AGI-3 공개 세트에서 36.08%를 기록했습니다. GPT-5.4의 공식 점수 0.26%와 비교하면 약 140배 차이입니다. 이걸 Opus 4.6으로 돌렸을 때 비용은 약 $1,005였습니다. 반면 Opus 4.6의 공식 점수 0.25%를 낼 때 들어간 비용은 약 $8,900이었습니다. (출처: symbolica.ai/blog/arc-agi-3, 2026.03.25)
⚠️ 36.08%가 공식 점수가 아닌 이유
ARC Prize 재단은 공식 리더보드에서 하네스 방식의 점수를 AGI 진전의 증거로 인정하지 않습니다. 이유는 단순합니다. Duke 대학 연구팀이 직접 검증한 실험에서, Opus 4.6은 알려진 환경(ls20)에 특화된 하네스로 97.1%를 기록했지만 알려지지 않은 환경(BP35)에서는 0.0%로 떨어졌습니다. 하네스 성능이 낯선 환경으로 전혀 옮겨가지 않는다는 증거입니다. (출처: ARC-AGI-3 Technical Report, 2026.03.24)
Chollet은 이 지점에서 쐐기를 박습니다. “AGI의 G는 General(범용)입니다. 새로운 태스크에 특화 훈련 없이 대처하는 게 범용 지능이라면, 훈련받지 않은 일반인도 하는 걸 AI는 전용 도구 없이 못 하면 안 됩니다.” 하네스를 써서 점수를 올리는 건 의미 있는 공학 연구지만, 그게 AGI에 가까워졌다는 신호는 아닌 겁니다.
ARC-AGI-1, 2 점수 올라간 게 사실은 암기였다는 증거
💡 “AI 추론 능력이 발전했다”는 해석 뒤에 가려진 이야기입니다. 논문이 직접 제시한 증거를 있는 그대로 옮겼습니다.
ARC-AGI-1에서는 2024년 OpenAI의 o3 모델이 처음으로 75.7%를 기록하면서 AI 업계가 들썩였습니다. ARC-AGI-2에서는 Opus 4.6이 79%대, Gemini 3.1 Pro가 77%대를 찍으며 두 벤치마크 모두 사실상 포화 상태가 됐습니다. 그런데 ARC-AGI-3 기술 논문은 이 점수들이 순수한 추론 능력 향상이 아닐 수 있다고 직접 지적합니다.
논문에 나오는 Gemini 3 검증 실험입니다. ARC-AGI 형식의 정수 배열 문제를 푸는 과정에서 Gemini 3 Deep Think는 추론 체인 안에 이렇게 씁니다.
Gemini 3 추론 체인에서 나온 실제 텍스트
“… Target is Green (3). Pattern is Magenta (6) Solid. Result: Magenta Square on Green …”
검증 프롬프트에는 “ARC-AGI”라는 단어도, 정수-색상 매핑도 전혀 언급하지 않았습니다. 그런데 모델은 ARC-AGI에서 쓰는 색상 변환 규칙을 자동으로 적용했습니다. 이 데이터가 학습에 충분히 포함돼 있었다는 뜻입니다. 점수가 올라간 게 진짜 추론 능력 향상이 아니라 데이터 노출 덕분이었을 가능성이 있습니다. (출처: ARC-AGI-3 Technical Report, arcprize.org, 2026.03.24)
ARC-AGI-3가 기존 형식을 완전히 버리고 게임 방식으로 간 건 이 암기 문제를 원천 차단하기 위해서입니다. 인터랙티브 환경에서 목표 자체를 숨기면, 학습 데이터에 비슷한 패턴이 있어도 의미가 없어집니다.
비판도 있습니다 — 이 벤치마크가 불공평하다는 이유
솔직히 말하면 ARC-AGI-3에 대한 반론도 의미 있습니다. Reddit r/accelerate에서 나온 비판 중 가장 핵심적인 건 이겁니다. 인간은 시각적 UI가 있는 게임을 하는데, AI는 텍스트 기반 API로만 상호작용합니다. 입력 자체가 다른 상황에서 점수를 직접 비교하는 게 공정한가 하는 겁니다.
Hacker News에서도 비슷한 지적이 나왔습니다. 인간은 시각화 도구(하네스)를 쓰는 셈인데, AI에게는 그런 도구를 공식 점수에서 허용하지 않는다는 점이 구조적으로 불리하다는 주장입니다. ARC Prize 재단은 이 비판을 알고 있고, 커뮤니티 리더보드를 따로 운영해서 하네스 결과를 별도로 공개합니다. 공식 점수로 인정하지 않는 건 AGI 측정이라는 목적 때문이지, 하네스 연구 자체를 부정하는 게 아닙니다.
개인적으로는 이 비판이 틀리지 않았다고 봅니다. 다만 벤치마크의 목적 자체가 “AI가 아무 도움 없이 새로운 상황을 스스로 처리할 수 있는가”를 측정하는 것이기 때문에, 하네스를 허용하면 측정 대상 자체가 바뀌어 버립니다.
직접 체험할 수 있습니다 — 게임 링크와 대회 참여법
ARC Prize 재단은 공개 세트 25개 환경을 브라우저에서 무료로 체험할 수 있도록 공개했습니다. arcprize.org/tasks/ls20에서 바로 플레이할 수 있습니다. 직접 해보면 처음 레벨은 의외로 쉽고, 레벨이 올라갈수록 규칙의 조합이 복잡해지는 구조를 체감할 수 있습니다.
대회 참여는 Kaggle에서 가능합니다. ARC Prize 2026은 두 트랙으로 나뉩니다. ARC-AGI-3 트랙은 에이전트를 만들어 게임을 플레이하게 하는 방식이고, ARC-AGI-2 그랜드 프라이즈는 기존 형식의 최고 오픈소스 솔루션에 상금을 줍니다. 총 상금은 200만 달러이며 최종 마감은 2026년 11월 2일입니다. (출처: arcprize.org/competitions/2026)
기술 논문과 에이전트 개발 문서는 docs.arcprize.org에서 볼 수 있습니다. Python 기반 런타임을 직접 로컬에서 돌릴 수 있고 API도 제공합니다.
Q&A
마치며
ARC-AGI-3를 처음 접했을 때 솔직히 “또 벤치마크야?”라는 생각이 먼저 들었습니다. 그런데 기술 논문을 들여다보니 생각이 달라졌습니다. 단순히 AI가 얼마나 어려운 문제를 푸는지가 아니라, 아무 단서도 없는 상황에서 스스로 목표를 발견하고 탐색하는 능력을 측정한다는 설계 의도가 설득력이 있었습니다.
가장 인상적이었던 건 Gemini 3의 암기 흔적입니다. 논문에서 직접 제시한 그 증거 하나가 “ARC-AGI-2 점수가 올라간 건 진짜 추론이 좋아진 것”이라는 기존 해석을 흔들어 놓습니다. 0.26%라는 숫자가 망신스럽게 느껴질 수도 있지만, 이 격차가 지금 AI의 실제 위치를 가장 정직하게 보여주는 숫자일 수 있습니다.
브라우저에서 직접 게임을 한 번 해보는 걸 권합니다. 처음 몇 레벨은 꽤 직관적인데, 그 직관이 AI에게 얼마나 어려운 것인지 체감하고 나면 “AI가 거의 다 왔다”는 느낌이 조금 달리 보일 겁니다.
📚 본 포스팅 참고 자료
- ARC Prize 공식 발표 블로그 — arcprize.org/blog/arc-agi-3-launch
- ARC-AGI-3 기술 논문 (arXiv 2603.24621v1) — arxiv.org/html/2603.24621v1
- ARC Prize 재단 공식 사이트 — arcprize.org
- Symbolica Agentica ARC-AGI-3 보고서 — symbolica.ai/blog/arc-agi-3
- The Decoder 분석 기사 — the-decoder.com











댓글 남기기