ARC-AGI-3 직접 해봤습니다 — AI는 여기서 멈췄습니다

Published on

in

ARC-AGI-3 직접 해봤습니다 — AI는 여기서 멈췄습니다

2026.03.25 기준
ARC-AGI-3 공식 발표 직후

ARC-AGI-3 직접 해봤습니다 —
AI는 여기서 멈췄습니다

0.26%
GPT-5.4 최고 점수
100%
훈련 없는 일반인 점수
$200만
ARC Prize 2026 상금

ARC-AGI-3이 뭔데 이렇게 난리인가요

ARC-AGI-3는 Keras를 만든 프랑수아 숄레(François Chollet)와 Mike Knoop이 이끄는 ARC Prize Foundation이 2026년 3월 25일 Y Combinator 본사에서 공식 출시한 AI 인텔리전스 벤치마크입니다. (출처: ARC Prize Foundation 공식 블로그, arcprize.org/blog/arc-agi-3-launch, 2026.03.25)

기존 ARC-AGI 1·2와 근본적으로 다른 점은 딱 하나입니다. 정적인 문제가 아니라 인터랙티브 게임 환경이라는 것. 설명도 없고 규칙도 없고 목표도 안 알려줍니다. 그냥 화면에 뭔가 보이고, AI 에이전트가 직접 탐색하면서 규칙을 파악하고 목표를 추론해서 풀어내야 합니다.

이게 어렵냐고요? 사람은 평균 몇 분 만에 풀고, 재미있다고 합니다. 그런데 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 같은 최강 모델들이 전부 0%대를 기록했습니다. ARC-AGI-3 arXiv 논문(arXiv:2603.24621, 2026.03.24)에는 이렇게 적혀 있습니다. “Humans can solve 100% of the environments, in contrast to frontier AI systems which, as of March 2026, score below 1%.”

💡 공식 발표문과 실제 스코어를 함께 보니 이게 보였습니다

ARC-AGI-1이 나왔을 때도 “AI가 0%”라는 말이 나왔습니다. 그런데 지금은 93~94%로 포화 상태입니다. 버전3은 구조 자체가 달라서 같은 패턴이 반복되지 않습니다. 훈련 데이터로 외울 수 있는 정답이 존재하지 않는 환경이라는 게 핵심입니다.

▲ 목차로 돌아가기

AI 전부 0점인 이유가 따로 있습니다

“컴퓨팅 파워가 부족해서” “아직 업데이트가 안 돼서”가 아닙니다. 문제는 아키텍처 자체에 있습니다. 지금의 AI는 훈련 데이터에서 패턴을 찾아내는 데 탁월하지만, 완전히 낯선 환경에서 규칙을 스스로 추론하는 능력은 없습니다.

ARC-AGI-3는 이 점을 정조준합니다. 135개 환경이 전부 손으로 제작된 고유 디자인이고, 같은 패턴이 반복되지 않습니다. GPT-5.4가 실제로 게임을 시도하는 영상을 보면, 같은 동작을 계속 반복하면서 멈칩니다. 화면 속 ‘+’기호를 눌러야 한다는 것을 끝내 알아채지 못한 채 말이죠.

모델 ARC-AGI-3 점수 ARC-AGI-2 점수
👤 훈련 없는 일반인 100% ~100%
Gemini 3.1 Pro Preview 0.37% 69%
GPT-5.4 0.26% 72%
Claude Opus 4.6 0.25% 68%
Grok-4.20 0.00%

(출처: ARC Prize Foundation 공식 리더보드, arcprize.org, 2026.03.25 기준)

표를 보면 ARC-AGI-2에서는 Gemini 3.1 Pro가 69%, GPT-5.4가 72%를 냈습니다. 버전3에서는 동일 모델이 0.37%, 0.26%입니다. 같은 모델인데 점수 차이가 200배 가까이 납니다. 문제 유형이 바뀌자마자 능력이 사라진 겁니다.

▲ 목차로 돌아가기

점수 매기는 방식이 AI에게 불리한 이유

ARC-AGI-3에는 RHAE(Relative Human Action Efficiency)라는 독자 채점 방식이 있습니다. 단순히 “풀었냐/못 풀었냐”가 아니라 “얼마나 효율적으로 풀었냐”를 봅니다. 그것도 제곱을 해서 패널티를 가중합니다.

🔢 RHAE 계산 공식 (직접 따라할 수 있는 형태)

RHAE = (인간 행동 수 ÷ AI 행동 수)²

예시: 사람이 10번 만에 풀고, AI가 100번을 허비해서 겨우 풀었다면

RHAE = (10 ÷ 100)² = 0.1² = 1%

(출처: ARC-AGI-3 arXiv 논문 arXiv:2603.24621, ARC Prize Foundation)

선형이 아니라 제곱입니다. AI가 사람보다 10배 많이 헤맸다고 해서 점수가 10%가 되는 게 아니라 1%가 됩니다. 무작정 시도를 반복하는 브루트포스 전략을 원천 차단하는 설계입니다. 무한 클릭으로 우연히 맞혀도 점수가 거의 안 나오는 이유가 여기 있습니다.

인간 기준점도 따로 설정돼 있습니다. 10명의 첫 번째 플레이어 중 두 번째로 좋은 기록을 기준으로 삼습니다. 운 좋게 한 번에 맞힌 이상치(outlier)를 걷어내고, 실질적으로 낯선 환경에서 일반인이 보여주는 능력을 기준선으로 씁니다.

▲ 목차로 돌아가기

97.1%라는 숫자의 진짜 의미

인터넷 어딘가에 “Claude Opus 4.6이 ARC-AGI-3에서 97.1%를 기록했다”는 이야기가 나올 수 있습니다. 사실입니다. 단, 맥락을 같이 봐야 합니다.

그 97.1%는 연구팀이 특정 환경 하나에 맞게 설계된 전용 ‘하네스(harness)’를 만들어서 테스트한 결과입니다. 그 하네스는 그 환경에서만 통했고, 다른 환경에서는 0%였습니다. (출처: aiforautomation.io, ARC-AGI-3 분석 보고서, 2026.03.27)

💡 이 수치를 공식 발표와 같이 놓고 보면 이런 차이가 보입니다

97.1%는 “하나의 퍼즐을 뚫는 방법을 찾은 것”이고, 공식 점수 0.25%는 “처음 보는 퍼즐 135개를 일반 지능으로 푼 것”입니다. ARC-AGI-3가 측정하는 건 후자입니다. 특정 도구로 특정 퍼즐을 깨는 능력은 여기서 점수가 안 됩니다.

이게 현재 AI의 구조적 한계를 가장 잘 보여주는 사례입니다. 특정 패턴에 최적화된 도구를 만드는 건 잘 되지만, 다음 번 낯선 상황에서 그 경험이 이어지지 않습니다. 학습이 전이(transfer)되지 않는 것이죠.

▲ 목차로 돌아가기

Chollet이 직접 경고한 것

발표 후 Chollet은 X(트위터)에서 이렇게 말했습니다. “ARC-AGI is not a final exam that you pass to claim AGI. Including ARC-AGI-3.” (출처: François Chollet X 계정, @fchollet, 2026.03.26)

그는 이 벤치마크를 “AGI 달성 여부를 판별하는 시험지”로 설계하지 않았습니다. 대신 “현재 AI와 인간 지능 사이의 잔여 격차를 포착하는 도구”로 만들었다고 못박았습니다. 누군가 ARC-AGI-3를 풀었다고 해서 그게 곧 AGI가 됐다는 뜻은 아니라는 겁니다.

💡 벤치마크 설계 의도를 파고들면 보이는 것

ARC-AGI-1이 나온 뒤 AI는 결국 93%를 찍었습니다. 그런데 인간 지능은 “다음 환경”에서도 100%입니다. Chollet의 전략은 AI가 따라잡는 즉시 더 어려운 버전을 만드는 것입니다. 마치 달리는 목표물처럼 설계된 시리즈입니다.

이 관점에서 보면 “AI가 0%”라는 뉴스보다 더 중요한 건 따로 있습니다. ARC Prize 재단이 $200만을 걸고 오픈소스 솔루션을 요구한다는 점입니다. 상금을 받으려면 코드를 공개해야 합니다. 돌파구를 찾더라도 특정 기업이 독점하지 못하게 막는 구조입니다.

▲ 목차로 돌아가기

직접 해보니 이렇습니다

arcprize.org/tasks/ls20에서 첫 번째 공개 게임 ‘ls20’을 해봤습니다. 화면에는 격자 맵, 캐릭터, 노란 바, 모서리에 작은 참조 이미지가 보입니다. 설명은 없습니다. 그냥 뭔가 하면 됩니다.

몇 번 이리저리 클릭해보다가 ‘+’기호를 건드렸더니 캐릭터 방향이 바뀌었습니다. 아, 저걸 먼저 써서 방향을 맞추고 이동해야 하는 거구나. 3분 정도 걸렸습니다. 이걸 GPT-5.4는 같은 동작을 수백 번 반복하다가 포기했습니다.

솔직히 말하면, 게임 자체는 어렵지 않습니다. 하지만 “아무 정보도 없는 상태에서 직접 탐색해서 룰을 찾아내는” 그 과정이 현재 AI에게 없는 능력입니다. AI는 패턴을 찾는 데 최적화돼 있고, 탐색 자체를 설계하는 건 다른 이야기입니다.

프리뷰 컴피티션에서 1위를 차지한 StochasticGoose 에이전트(Tufa Labs, 점수 12.58%)는 CNN 기반의 강화학습 방식으로 “어떤 클릭이 화면 변화를 만드는지”부터 학습했습니다. 255,964번의 행동을 써서 18개 레벨을 완료했습니다. (출처: ARC Prize Foundation 공식 블로그, 2026.03.25) 일반인은 같은 레벨을 수십 번 만에 풀었을 텐데, 255,964번을 썼다는 것 자체가 현재 AI의 탐색 비효율을 수치로 보여줍니다.

▲ 목차로 돌아가기

Q&A

Q1. ARC-AGI-3는 무료로 해볼 수 있나요?

네, arcprize.org/tasks/ls20에서 로그인 없이 바로 플레이할 수 있습니다. 현재는 ls20, ft09, vc33 세 가지 환경이 공개돼 있고, 전체 135개 환경은 API나 Kaggle 컴피티션을 통해 사용합니다.
Q2. AI가 ARC-AGI-2는 72%인데 ARC-AGI-3는 왜 갑자기 0%인가요?

버전2까지는 ‘정적인 이미지 패턴’을 보고 답을 쓰는 방식이었습니다. 이건 대규모 훈련 데이터와 체인오브솟(chain-of-thought) 프롬프트로 어느 정도 커버가 됩니다. 버전3은 실시간으로 환경을 탐색하고, 피드백을 통해 규칙을 추론하는 방식입니다. 현재 트랜스포머 아키텍처가 최적화된 방향이 아닙니다.
Q3. $700,000 상금은 지금 당장 수령 가능한가요?

현재 미청구 상태입니다. ARC Prize 2026 컴피티션은 Kaggle에서 진행 중이며 최종 마감은 2026년 11월 2일입니다. 단, 수상하려면 솔루션을 오픈소스로 공개해야 합니다. (출처: Kaggle ARC Prize 2026 공식 페이지)
Q4. 이게 풀리면 AGI가 도래한 건가요?

Chollet 본인이 “ARC-AGI-3를 통과했다고 해서 AGI가 된 것은 아니다”라고 공식 발언했습니다. 이 벤치마크는 “다음에 넘어야 할 장벽”을 가리키는 도구입니다. ARC-AGI-1이 포화되자 2가 나왔고, 2가 포화되면 4가 나올 것입니다.
Q5. 1위를 차지한 StochasticGoose 에이전트는 결국 문제를 푼 건가요?

프리뷰 컴피티션(3개 환경, 공개 테스트) 기준 12.58%를 기록했습니다. 전체 135개 환경 기준 공식 점수가 아닙니다. 그 에이전트도 255,964번의 행동을 소비했는데, 사람이라면 수십 번이면 풀 수준이었습니다. “풀었다”기보다 “가장 덜 못 풀었다”에 가깝습니다.

▲ 목차로 돌아가기

마치며

ARC-AGI-3는 AI가 “얼마나 많이 알고 있냐”가 아니라 “얼마나 빠르게 모르는 것을 파악하느냐”를 측정합니다. 이 점에서 현재 AI는 솔직히 완패입니다. GPT-5.4든 Claude Opus 4.6이든 0%대라는 건 마케팅 수사 없이 봐야 하는 숫자입니다.

그렇다고 지금 AI 도구가 쓸모없어진 건 아닙니다. 코딩, 글쓰기, 요약, 번역에서 AI가 잘하는 건 패턴 매칭이고, 그 영역은 그대로 강합니다. 단지 “AI가 인간처럼 새로운 상황을 스스로 파악한다”는 믿음은 아직 사실이 아닙니다.

$200만 상금이 미청구 상태로 남아 있는 한, 이 격차는 현실입니다. 마감은 2026년 11월. 그 전에 누군가 ARC-AGI-3를 뚫는다면, 그날이 정말 AI 역사에서 새로운 챕터가 열리는 날이 될 겁니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. ARC Prize Foundation 공식 발표 — arcprize.org/blog/arc-agi-3-launch
  2. ARC-AGI-3 arXiv 논문 (Chollet et al., 2026.03.24) — arxiv.org/abs/2603.24621
  3. ARC Prize 2026 Kaggle 컴피티션 — kaggle.com/competitions/arc-prize-2026-arc-agi-3
  4. ARC Prize Foundation 30일 프리뷰 리포트 — arcprize.org/blog/arc-agi-3-preview-30-day-learnings
  5. François Chollet X 계정 공식 코멘트 — x.com/fchollet

본 포스팅은 2026년 3월 30일 기준으로 작성되었습니다. ARC Prize Foundation 및 관련 AI 서비스의 정책·점수·기능은 이후 업데이트로 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 arcprize.org에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글

  • 청년월세지원 신청 2026, 임대차 서류 체크
    청년월세지원 신청 2026 기준으로 나이·거주 요건, 계약서와 이체 내역, 본인·원가구 소득 확인 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민취업지원제도 신청 2026, 구직촉진수당 체크
    국민취업지원제도 신청 2026 기준으로 유형과 자격, 월 소득과 재산, 구직활동 계획 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기