ARC-AGI-3, AI가 1%도 못 푸는 이유 있습니다

Published on

in

ARC-AGI-3, AI가 1%도 못 푸는 이유 있습니다

2026.03.25 기준
ARC Prize 2026 공식 기술 보고서 기반

ARC-AGI-3, AI가 1%도 못 푸는 이유 있습니다

인간은 100% 풀고, 최고 AI 모델은 0.37%. 지난 3월 25일 Y Combinator 무대에서 공개된 ARC-AGI-3의 첫 성적표입니다. “AI가 드디어 36% 달성”이라는 뉴스도 나왔는데, 그 숫자를 그대로 믿으면 안 되는 이유가 따로 있습니다.

0.37%
최고 AI 공식 점수
(Gemini 3.1 Pro)
100%
인간 정답률
(486명 검증)
$200만
ARC Prize 2026
총 상금

ARC-AGI-3가 뭔지 30초 만에 이해하기

ARC-AGI-3는 2026년 3월 25일, 샌프란시스코 Y Combinator 본사에서 공개된 AI 평가 도구입니다. François Chollet과 Sam Altman의 대담 자리에서 첫선을 보였고, $200만 달러의 상금이 걸린 ARC Prize 2026의 핵심 트랙입니다. (출처: ARC Prize Foundation 공식 발표, 2026.03.25)

쉽게 말하면 “AI에게 아무 설명 없이 게임을 던져주고, 스스로 규칙을 파악해 이기라고 하는” 시험입니다. 게임 설명서도 없고, 목표도 안 알려줍니다. 그냥 64×64 격자 화면을 주고 알아서 해보라고 합니다. 사람들은 이런 상황에서도 100% 해냅니다. AI는 0%대에 머무릅니다.

이전 버전 ARC-AGI-1(2019), ARC-AGI-2(2025)와 달리, 이번엔 정적인 그리드 퍼즐이 아닙니다. 플레이어가 직접 조작하며 탐색해야 하는 인터랙티브 환경이라는 게 핵심 차이입니다. (출처: arXiv 2603.24621, 2026.03.24)

▲ 목차로 돌아가기

공식 점수가 충격적인 이유 — 숫자로 직접 봤습니다

💡 공식 발표문과 실제 리더보드를 같이 놓고 보니 이런 차이가 있었습니다

ARC Prize Foundation이 3월 25일 공개한 반비공개(semi-private) 리더보드 기준 전체 AI 중 1위는 0.37%입니다. 100%가 아니라 0.37%입니다.

공식 기술 보고서(arXiv 2603.24621)에 발표된 초기 리더보드 수치를 직접 가져왔습니다.

모델 회사 공식 점수
Gemini 3.1 Pro Preview Google 0.37%
GPT-5.4 (High) OpenAI 0.26%
Claude Opus 4.6 (Max) Anthropic 0.25%
Grok-4.20 (Beta 0309 Reasoning) xAI 0.00%

(출처: ARC Prize Foundation 기술 보고서 Table 2, arXiv 2603.24621, 2026.03.24)

AI 업계 최강자들이 모두 사실상 0점대입니다. 이게 바로 현재 AI와 인간 지능의 격차를 공식 수치로 보여주는 장면입니다.

비교를 위해 말씀드리면, ARC-AGI-2에서 Google Gemini 3.0 Deep Think는 약 85%를 기록했습니다. 그 모델이 새 버전에서 0.37%를 받았습니다. 이전 버전을 잘 풀었다는 게 새 버전에서 전혀 통하지 않은 겁니다.

▲ 목차로 돌아가기

“36% 달성”은 왜 공식 인정이 안 될까

ARC-AGI-3 출시 하루 만에 AI 스타트업 Symbolica가 자사 Agentica SDK로 “36.08% 달성”을 발표했습니다. 곳곳에서 화제가 됐죠. 그런데 이 숫자는 공식 리더보드에 올라가지 못합니다. 이유가 있습니다.

💡 공식 문서와 Symbolica 블로그를 교차로 읽으니 이런 차이가 보였습니다

36% 점수는 공개 데모셋 25개에서 나온 결과입니다. ARC Prize Foundation이 공식 점수로 사용하는 반비공개(semi-private) 55개 환경과는 다른 문제입니다. 더 쉬운 문제 세트에서 나온 수치입니다.

공식 기술 보고서에 이렇게 나와 있습니다. “공개 데모셋은 의도적으로 더 쉽게 설계됐으며, 비공개 세트의 메커니즘을 포괄적으로 대표하지 않습니다.” (출처: arXiv 2603.24621, §3.6) 쉬운 문제 25개에서 36%가 나온 거지, 실제 평가용 문제에서 그 점수가 나온 게 아닙니다.

거기에 Symbolica의 점수는 하네스(harness)를 쓴 결과입니다. 하네스란 AI 모델 주위에 인간이 설계한 추가 전략 프레임워크를 붙여주는 방식입니다. ARC Prize의 공식 리더보드는 하네스 없이 일반 API로만 평가합니다. 직접 물어보는 것과 족집게 과외를 받고 치는 시험의 차이입니다.

재미있는 건 Symbolica의 비용입니다. 공개 세트 36%를 내기 위해 든 비용은 $1,005. 반면 Claude Opus 4.6으로 0.25%를 내는 데 든 비용은 $8,900입니다. (출처: Symbolica 공식 블로그, 2026.03.25) 하네스를 쓰면 훨씬 싸게 더 높은 점수가 나오지만, 그게 AGI로 가는 증거는 아닙니다.

▲ 목차로 돌아가기

AI가 막히는 진짜 이유 — 게임 규칙을 알려주지 않습니다

ARC-AGI-3에서 AI가 거의 0점을 받는 이유를 공식 보고서에서 뽑아봤습니다. 단순히 “어려워서”가 아닙니다. 구조적으로 AI가 잘하는 방식을 막아놨습니다.

① 목표를 스스로 찾아야 합니다

기존 AI가 잘하는 건 “이 문제를 풀어라”라는 명령을 받는 겁니다. ARC-AGI-3는 뭐가 목표인지도 안 알려줍니다. 이기는 조건 자체를 스스로 추론해야 합니다. 기술 보고서에서는 이를 “Goal-Setting” 능력이라고 부릅니다. 현재 LLM이 가장 취약한 능력입니다. (출처: arXiv 2603.24621, §2.1)

② 탐색 자체가 행동 비용입니다

ARC-AGI-3는 점수를 “몇 번 만에 풀었냐”로 매깁니다. 무작정 이것저것 눌러서 우연히 맞추면 점수가 낮게 나옵니다. 즉 쓸데없는 탐색은 낮은 점수로 직결됩니다. 이게 AI에게 특히 불리합니다. AI는 불확실한 상황에서 많은 액션을 시도하는 경향이 있거든요.

③ 암기가 통하지 않도록 설계됐습니다

기존 ARC-AGI-1, 2는 결국 학습 데이터에 유사한 패턴이 섞여 AI가 “기억해서” 풀 수 있었다는 증거가 나왔습니다. 보고서에는 Gemini 3 Deep Think가 프롬프트에 ARC-AGI 언급이 없었는데도 색상 매핑을 정확히 사용했다는 대목이 나옵니다. 훈련 데이터에 ARC-AGI 패턴이 있었다는 뜻입니다. ARC-AGI-3는 이 전략을 원천 차단하기 위해 비공개 세트를 공개 세트와 완전히 다른 분포(OOD)로 만들었습니다. (출처: arXiv 2603.24621, §1.3.3)

▲ 목차로 돌아가기

점수 계산 방식이 다른 벤치마크와 완전히 다릅니다

ARC-AGI-3의 점수 체계는 RHAE(Relative Human Action Efficiency)라는 독자 지표를 씁니다. 정답/오답이 아니라 “인간 대비 몇 번 만에 풀었냐”를 봅니다. 구체적인 계산 방식은 이렇습니다.

RHAE 점수 계산 공식 (공식 보고서 기준)

각 레벨 점수 = (인간 2위 액션 수 ÷ AI 액션 수)²

예시: 인간이 10번 만에 풀었는데 AI가 100번 걸렸다면 → (10 ÷ 100)² = 0.01 → 1점

제곱을 쓰는 이유가 있습니다. 단순 비율이면 인간의 2배 액션으로 50% 점수가 나오는데, 그건 차이를 너무 관대하게 봐준다는 겁니다. 제곱을 적용하면 인간의 2배 비효율은 25%로 떨어집니다. 훨씬 엄격하게 인간 수준 효율에 가까운지를 잡아냅니다. (출처: arXiv 2603.24621, §4.2)

거기에 레벨 가중치도 있습니다. 1레벨보다 마지막 레벨이 더 높은 가중치를 받습니다. 5레벨 기준으로 Level 5는 전체 환경 점수의 5/15, Level 1은 1/15만 기여합니다. 쉬운 첫 단계를 잘 통과했다고 점수가 올라가는 구조가 아닙니다.

한 가지 실용적인 포인트가 있습니다. ARC Prize Foundation은 평가 비용을 통제하기 위해 인간 액션 수의 5배를 초과하면 강제 종료합니다. (출처: arXiv 2603.24621, §4.3) 인간이 10번에 푸는 레벨에서 AI는 최대 50번까지만 시도할 수 있습니다. 그 이상은 쳐내는 겁니다. 그래서 공식 리더보드 점수는 이론상 최대치보다 낮게 나올 수 있습니다.

▲ 목차로 돌아가기

ARC-AGI-2와 ARC-AGI-3, 무엇이 달라졌나

직전 버전과 핵심 차이를 비교해봤습니다.

항목 ARC-AGI-2 ARC-AGI-3
환경 형식 정적 그리드 퍼즐 인터랙티브 게임
목표 제시 여부 입력→출력 패턴 제시 없음 (스스로 추론)
최고 AI 점수 약 85% (Gemini 3) 0.37%
인간 점수 100% 100%
채점 기준 정답률 액션 효율(RHAE)
총 상금 약 $100만 $200만

(출처: ARC Prize Foundation 기술 보고서, arXiv 2603.24621)

솔직히 말하면, ARC-AGI-2가 AI에게 거의 뚫렸다는 게 이번 버전이 나온 배경입니다. ARC-AGI-2에서 85%를 기록한 AI가 실제로 지능이 올라간 건지, 아니면 유사한 문제를 학습 데이터에서 많이 봐서인지 구분이 안 된다는 문제가 있었습니다. ARC-AGI-3는 그 구분을 하기 위해 나온 겁니다.

인간이 평균 7.4분 만에 풀고, 성공한 참가자들의 중간값은 8.1분이었습니다. 486명의 일반인을 486시간 이상 테스트해서 만든 기준치입니다. (출처: arXiv 2603.24621, §5.3) 이 기준치를 AI가 따라가려면 아직 한참 남았습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Symbolica의 36%는 완전히 의미 없는 건가요?
의미가 없지는 않습니다. 하네스를 활용한 에이전트 설계 방식의 가능성을 보여줬고, ARC Prize Foundation도 커뮤니티 리더보드를 별도 운영해서 이런 결과를 기록하고 있습니다. 다만 AGI 진전의 증거로 해석하면 안 됩니다. 공개 데모셋 기준 결과이고, 하네스 사용 결과이므로 공식 수치와 직접 비교할 수 없습니다. (출처: ARC Prize Foundation 커뮤니티 리더보드 안내)
Q2. ARC-AGI-3도 결국 AI가 뚫을 수 있지 않을까요?
Chollet은 같은 생각을 하고 있습니다. 그래서 공개 세트와 비공개 세트를 의도적으로 다른 분포(OOD)로 만들었습니다. 공개 세트에서 학습해도 비공개 세트에서 통하지 않도록 설계했습니다. 하지만 과거 ARC-AGI-1, 2가 결국 뚫렸듯이, 언제든 새 버전이 나올 수 있다는 게 ARC Prize Foundation의 입장이기도 합니다.
Q3. ARC-AGI-3 게임을 직접 해볼 수 있나요?
가능합니다. ARC Prize 공식 사이트(arcprize.org/tasks/ls20)에서 브라우저로 즉시 플레이할 수 있습니다. 공개 데모셋 25개 게임이 무료로 열려 있습니다. API를 통한 개발자 접근도 제공됩니다(docs.arcprize.org).
Q4. ARC Prize 2026 대회에 참여하면 상금을 받을 수 있나요?
ARC-AGI-3 트랙 총 상금은 $85만 달러입니다. Grand Prize는 100% 달성 시 $70만 달러이고, 현재까지 미청구 상태입니다. 마일스톤 상금(오픈소스 솔루션 기준)은 2026년 6월 30일, 9월 30일 두 차례 지급됩니다. Kaggle 플랫폼에서 접수 가능합니다. (출처: arcprize.org/competitions/2026/arc-agi-3)
Q5. 인간 참가자들에게는 얼마를 줬나요?
기술 보고서 §5.1에 공개돼 있습니다. 세션 참여 고정 보수 $115~$140, 환경 하나 완료할 때마다 $5 추가 지급 방식이었습니다. 총 486명이 참가했고, 2,893회 플레이가 기록됐습니다. 실제 사람으로 기준을 잡은 만큼 그 기준치도 실제 데이터입니다. (출처: arXiv 2603.24621, §5.1)

▲ 목차로 돌아가기

마치며 — AI가 0%대라는 게 절망이 아닌 이유

ARC-AGI-3에서 AI가 0%대를 받았다는 건 AI가 퇴보했다는 뜻이 아닙니다. 기존에 AI가 잘 풀던 방식, 즉 유사한 패턴 기억해서 풀기, 충분히 많이 시도해보기 같은 방식이 통하지 않는 새로운 문제가 등장했다는 겁니다.

ARC-AGI-1이 2019년에 등장해서 AI가 “추론 능력이 부족하다”는 걸 짚어냈고, 그 이후 o1, o3 같은 추론 모델이 나왔습니다. ARC-AGI-3가 지금 짚어내는 건 “AI가 모르는 환경을 탐색하고, 스스로 목표를 설정하는 능력”이 아직 없다는 겁니다. 그게 다음 돌파구를 만드는 힌트가 될 수 있습니다.

36% 발표를 보고 “AI가 드디어 AGI에 가까워졌다”고 읽으면 오해입니다. 공식 점수 0.37%를 보고 “AI는 아무 쓸모가 없다”고 읽어도 오해입니다. ARC-AGI-3는 AI가 진짜 지능으로 넘어가려면 무엇이 필요한지를 명확하게 보여주는 도구입니다. 이 도구가 다시 뚫리는 날이 오면, 그게 진짜 뉴스입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. ARC Prize Foundation 공식 발표 — arcprize.org/blog/arc-agi-3-launch
  2. ARC-AGI-3 기술 보고서 (arXiv 2603.24621) — arxiv.org/abs/2603.24621
  3. ARC Prize 2026 대회 안내 — arcprize.org/competitions/2026/arc-agi-3
  4. Symbolica Agentica SDK 공식 블로그 — symbolica.ai/blog/arc-agi-3

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 2026년 3월 25일 공개 기준이며, ARC Prize Foundation의 공식 발표 및 arXiv 2603.24621 기술 보고서를 직접 참고했습니다. 이후 리더보드 점수 및 대회 규정은 공식 사이트에서 최신 내용을 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기