2026.03.25 기준
ARC-AGI-3
IT/AI

ARC-AGI-3, AI가 0.26%인데 사람은 100%라고요?

0.26%

GPT-5.4 공식 점수

100%

인간 정답률

$2M

상금 규모

ARC-AGI-3란 무엇인가 — 그래서 이게 왜 다른가

ARC-AGI-3는 2026년 3월 25일 샌프란시스코 Y Combinator 본사에서 공개된 AI 벤치마크입니다. 만든 사람은 François Chollet과 Mike Knoop — ARC Prize 재단 공동 창업자들입니다. 공개 행사에는 OpenAI CEO 샘 올트먼도 참석해 대담을 나눴습니다. (출처: arcprize.org/blog/arc-agi-3-launch, 2026.03.25)

기존 ARC-AGI-1, 2가 “이 패턴 보고 답 맞춰봐”였다면, ARC-AGI-3는 완전히 다른 걸 묻습니다. 규칙도 없고, 목표도 없고, 설명도 없습니다. AI가 낯선 환경에 던져지면, 스스로 탐색하고, 승리 조건이 뭔지 파악하고, 최소한의 행동으로 클리어해야 합니다. 공식 논문에서는 이 네 가지 능력을 평가 기준으로 꼽습니다: 탐색, 모델링, 목표 설정, 계획 및 실행. (출처: arxiv.org/html/2603.24621v1, 2026.03.25)

64×64 격자 위에 16가지 색이 존재하는 턴제 게임 환경입니다. 게임 조작은 단순합니다 — 방향키 5개와 특정 좌표 선택뿐입니다. 복잡성은 조작이 아니라 논리에서 나오도록 설계됐습니다. 각 환경은 최소 6개 레벨로 구성되고, 레벨이 올라갈수록 앞에서 익힌 규칙들을 조합해야 합니다.

💡 공식 발표문과 실제 평가 흐름을 같이 놓고 보니 이런 구조가 보였습니다. ARC-AGI-3는 AI가 답을 잘 맞추는지 테스트하지 않습니다. “처음 보는 상황에서 얼마나 적은 시도로 규칙을 파악하는지”를 봅니다. 이 차이가 점수를 0.26%로 만든 핵심입니다.

▲ 목차로 돌아가기

0.26%의 의미 — GPT-5.4가 받은 숫자를 공식 문서로 해석했습니다

결론부터 말씀드리면, 이 숫자는 “틀린 답을 냈다”는 게 아닙니다. GPT-5.4는 문제를 이해했고, 일부 레벨을 클리어하기도 했습니다. 다만 그 과정에서 사람보다 훨씬 많은 행동을 썼고, ARC-AGI-3 점수 계산 방식은 행동 수의 낭비를 가혹하게 페널티로 반영합니다. (출처: ARC-AGI-3 Technical Report, arxiv.org/html/2603.24621v1)

공식 발표 기준 프런티어 모델 점수는 다음과 같습니다. GPT-5.4(High) 0.26%, Gemini는 0.37%입니다. 인간 점수는 100%입니다. (출처: tech.yahoo.com/ai/articles/agi-not-even-close-ai-193340709, 2026.03.26 / arcprize.org X 공식 계정, 2026.03.25)

모델	ARC-AGI-3 공식 점수	비고
인간 (일반인 테스터)	100%	기준값
Gemini (출시 시점)	0.37%	공식 리더보드
GPT-5.4 (High)	0.26%	공식 리더보드
기타 프런티어 모델	< 1%	전체 출시 시점

▲ 목차로 돌아가기

점수를 세는 방식이 독특합니다 — RHAE 계산법을 뜯어봤습니다

ARC-AGI-3의 점수 체계 이름은 RHAE(Relative Human Action Efficiency, 발음: “Ray”)입니다. 단순히 정답률이 아니라, “사람 기준 대비 얼마나 적은 행동으로 클리어했느냐”를 봅니다. 핵심은 이 비율에 제곱을 씌운다는 점입니다. (출처: arxiv.org/html/2603.24621v1, Section 4.2)

📐 RHAE 계산식 예시 — 직접 따라해볼 수 있습니다

• 인간 2등이 어떤 레벨을 10번 만에 클리어했습니다.
• AI가 같은 레벨을 100번 만에 클리어했습니다.
• 효율 비율 = 10 ÷ 100 = 0.1
• 레벨 점수 = 0.1² = 0.01, 즉 1%

→ 선형 계산이라면 10%를 받았을 텐데, 제곱 페널티로 1%가 됩니다. 10배 비효율이 90%가 아닌 99%의 감점으로 이어집니다.

왜 제곱을 씌울까요? 공식 논문의 설명은 이렇습니다. “선형 계산이면 2배 비효율에도 50% 점수를 받는다. 이래서는 인간에 근접한 AI와 완전히 비효율적인 AI를 구분하기 어렵다.” 제곱 페널티는 사람보다 조금 못 한 AI와 훨씬 못 한 AI를 수치로 갈라냅니다. (출처: arxiv.org/html/2603.24621v1, Section 4.2 Power law scoring)

레벨별 가중치도 있습니다. 5레벨 구성 환경 기준으로 레벨 1은 전체 점수의 1/15, 레벨 5는 5/15를 차지합니다. 초반 쉬운 레벨이 점수를 왜곡하지 못하도록 설계됐습니다. 그리고 비용 현실도 반영합니다 — 평가 비용이 수만 달러에 달할 수 있어, AI에게 인간 기준의 최대 5배 행동까지만 허용하고 그 이후엔 강제 컷오프합니다.

💡 이 계산 구조를 놓고 보면 0.26%의 의미가 달라집니다. AI가 “전혀 못 풀었다”는 게 아니라, 풀긴 풀었는데 사람보다 압도적으로 많은 시도를 했고, 그 낭비가 제곱으로 페널티를 받은 결과입니다.

▲ 목차로 돌아가기

ARC-AGI-1·2가 이미 포화된 이유가 충격적입니다

ARC-AGI-3가 나온 배경에는 불편한 사실이 하나 있습니다. 이전 벤치마크인 ARC-AGI-1·2가 사실상 의미를 잃었다는 것입니다. 공식 논문은 이를 정면으로 인정합니다. “우리는 Gemini 3의 추론 체인을 분석했더니, 모델이 ARC-AGI의 정수-색 매핑을 프롬프트 설명 없이도 올바르게 사용했다. 이는 ARC-AGI 데이터가 학습 데이터에 충분히 포함됐다는 강력한 증거다.” (출처: arxiv.org/html/2603.24621v1, Section 1.3.3)

쉽게 말하면 이렇습니다. AI 회사들이 ARC-AGI-1·2 풀이 데이터를 학습 데이터에 넣었거나, 비슷한 문제를 대량 생성해 학습시켰고, 모델이 진짜 추론이 아닌 기억을 꺼내 쓰는 방식으로 점수를 올렸다는 겁니다. 실제로 ARC-AGI-1에서 GPT-5.4는 93.7%를 기록합니다. 사람도 거의 다 맞히는 수준입니다. 그런데 ARC-AGI-3에서는 0.26%입니다. (출처: openai.com/index/introducing-gpt-5-4/, ARC-AGI-1 Verified 벤치마크)

💡 ARC-AGI-1에서 93.7%를 받은 모델이 ARC-AGI-3에서 0.26%를 받았습니다. 같은 모델의 이 간격이, 기존 벤치마크 점수를 “AI가 얼마나 스마트한가”의 척도로 쓸 수 없다는 걸 보여줍니다.

공식 논문은 이 상황을 ‘memorization shortcut’이라 부릅니다. AI 회사가 ARC 스타일 문제를 수백만 개 자동 생성해 학습시키는 방식으로 커버리지를 높이는 것이 기술적으로 가능하고, 실제로 일어났다고 봅니다. ARC-AGI-3는 이 방식이 통하지 않도록 공개 세트와 비공개 세트를 의도적으로 다른 분포로 설계했습니다.

▲ 목차로 돌아가기

공식 리더보드와 커뮤니티 리더보드를 나눈 진짜 이유

ARC Prize 재단은 이번에 리더보드를 두 개로 나눴습니다. 공식 리더보드와 커뮤니티 리더보드입니다. 이 구분 방식이 생각보다 훨씬 중요합니다.

공식 리더보드에 올라가는 점수는 ARC-AGI-3 환경을 미리 알고 최적화된 하네스(harness, AI에게 전략을 외부에서 주입하는 도구)를 쓰지 않은 경우만입니다. 모든 모델에 동일한 시스템 프롬프트를 씁니다. “당신은 게임을 하고 있습니다. 목표는 이기는 것입니다. 취하고 싶은 정확한 행동을 답하세요.” — 딱 이게 전부입니다. (출처: arxiv.org/html/2603.24621v1, Section 4.3.1)

커뮤니티 리더보드는 하네스 연구 결과를 올리는 공간입니다. 자기 신고 방식이고, 재단이 검증하지 않습니다. 그리고 재단이 명시적으로 경고합니다. “커뮤니티 리더보드 점수를 AGI 진전의 증거로 해석하지 마십시오.”

실제 실험 수치가 있습니다

연구진이 특정 환경(ls20, ft09, vc33)에 최적화된 하네스를 만들었습니다. 같은 Claude Opus 4.6 모델로 테스트하니, 특정 환경 TR87에서 하네스 없이 0.0%, 하네스 있을 때 97.1%가 나왔습니다. 그런데 다른 환경 BP35에서는 하네스 있어도 0.0%였습니다. 하네스가 일반화된 능력이 아니라 특정 환경 해법의 암기임을 보여주는 결과입니다. (출처: arxiv.org/html/2603.24621v1, Section 4.3.1)

이 실험이 의미하는 건 명확합니다. 하네스로 점수를 올린다 해도, 그건 그 환경만 아는 것이지 AI가 더 똑똑해진 게 아닙니다. 재단이 공식 리더보드에서 하네스를 배제한 이유가 여기 있습니다.

▲ 목차로 돌아가기

AI가 못 하는 것 vs 못 하게 막은 것 — 이 차이가 핵심입니다

ARC-AGI-3 공식 논문에는 흥미로운 언급이 있습니다. “프레임 인식과 API 형식은 한계 요인이 아니다. 제대로 된 하네스만 있으면 프런티어 모델도 환경을 실제로 풀 수 있다.” 즉, AI가 이 게임을 아예 못 하는 게 아닙니다. 올바른 전략 힌트를 손으로 짜서 넣어주면 해결이 됩니다. (출처: arxiv.org/html/2603.24621v1, Section 4.3.1)

재단은 이 점을 알면서도 일부러 공식 점수에 하네스를 허용하지 않습니다. 재단의 주장은 이렇습니다. “미래의 AGI 시스템이라면 새로운 과제에 외부 가이드 없이 스스로 접근할 수 있어야 한다.” 공식 리더보드는 그 기준으로 점수를 측정합니다.

💡 젠슨 황이 GTC 2026에서 “AGI가 왔다”고 선언한 바로 그 주에, ARC-AGI-3는 반대 방향의 숫자를 내놨습니다. 어느 쪽이 옳은지는 단정하기 어렵습니다. 다만 “어떤 방식으로 성능을 측정하느냐”에 따라 같은 AI가 세계 최고가 되기도, 0.26%가 되기도 한다는 건 분명합니다.

솔직히 말하면, 이 상황은 AI 성능 측정 자체의 신뢰성 문제를 건드립니다. ARC-AGI-1·2에서 고점을 찍은 숫자들이 진짜 추론이 아닌 데이터 암기였다면, 앞으로 나올 다른 벤치마크 점수들도 같은 의심에서 자유롭지 않습니다. 재단이 비공개 세트를 공개 세트와 일부러 다른 분포로 구성한 이유가 여기 있습니다.

$2M 상금 구조도 이 방향을 지지합니다. ARC-AGI-3 그랜드 프라이즈(700K)는 공식 점수 100%를 달성한 최초의 팀에게 주어집니다. 오픈소스 솔루션에만 해당합니다. 커뮤니티에서 어떤 팀이 하네스를 잘 짜서 높은 점수를 낸다 해도, 공식 수상과는 무관합니다. (출처: arcprize.org/competitions/2026/arc-agi-3)

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. ARC-AGI-3를 직접 플레이해볼 수 있나요?

arcprize.org/tasks/ls20 에서 브라우저로 바로 플레이할 수 있습니다. 가입이나 앱 설치 없이 접속하면 됩니다. 공개 데모 세트 환경이라 공식 평가 세트보다는 쉽게 설계됐습니다. API도 제공합니다. (출처: arcprize.org/blog/arc-agi-3-launch)

Q2. Gemini가 GPT-5.4보다 점수가 높다는 게 맞나요?

공식 리더보드 출시 기준으로 Gemini 0.37%, GPT-5.4 0.26%입니다. 두 숫자 모두 1% 미만이라, 실질적 차이보다 오차 범위에 가깝습니다. 어느 모델이 더 낫다기보다 둘 다 이 벤치마크 앞에서 비슷한 한계를 보인다고 보는 게 정확합니다. (출처: tech.yahoo.com/ai/articles/agi-not-even-close-ai-193340709, 2026.03.26)

Q3. 상금을 받으려면 어떻게 해야 하나요?

ARC Prize 2026은 두 트랙입니다. ARC-AGI-3 트랙과 ARC-AGI-2 그랜드 프라이즈 트랙입니다. 총 상금은 $2M이고, ARC-AGI-3 그랜드 프라이즈 $700K는 공식 점수 100%를 최초로 달성한 오픈소스 솔루션에게 주어집니다. Kaggle에서 공식 참가가 가능합니다. 마일스톤 상금($75K)은 6월 30일과 9월 30일 기준으로 오픈소스 제출 팀에게 지급됩니다. (출처: arcprize.org/competitions/2026/arc-agi-3)

Q4. ARC-AGI-2와 ARC-AGI-3의 차이는 뭔가요?

ARC-AGI-2는 격자 패턴을 보고 변환 규칙을 맞히는 정적 과제입니다. 사람 평균 풀이 시간 약 300초짜리 난이도입니다. ARC-AGI-3는 규칙이 공개되지 않은 동적 게임 환경에서 스스로 탐색해야 합니다. 정적 추론이 아닌 에이전틱 탐색 능력을 봅니다. GPT-5.4 기준 ARC-AGI-2는 73.3%, ARC-AGI-3는 0.26%입니다. (출처: openai.com/index/introducing-gpt-5-4/ / arcprize.org/blog/arc-agi-3-launch)

Q5. ARC-AGI-3가 AGI 달성 여부를 판단하는 기준이 되나요?

재단의 공식 입장은 이렇습니다. ARC-AGI-3 공식 점수 100%가 AGI 달성과 동일하다고 주장하지 않습니다. 다만 “인간 수준의 새로운 환경 적응력”을 측정하는 현재 가장 포화되지 않은 벤치마크라고 설명합니다. AGI 논의는 여전히 정의 자체가 논쟁 중이고, ARC-AGI-3는 그 한 축의 척도입니다. (출처: arxiv.org/html/2603.24621v1, Section 2.1)

▲ 목차로 돌아가기

마치며

솔직히 말하면, ARC-AGI-3 앞에서 AI 업계가 좀 당황한 모양새입니다. 같은 주에 젠슨 황이 AGI 선언을 하고, 같은 주에 GPT-5.4가 0.26%를 받았습니다. 어느 쪽 말이 맞냐고 묻는다면 — 둘 다 사실이고, 측정 방식이 다릅니다.

AI가 인간 전문가를 여러 업무에서 앞서는 것도 사실이고, 낯선 규칙을 스스로 파악하는 능력에서 인간과 100배 넘는 격차가 있는 것도 사실입니다. 이 두 가지가 동시에 사실일 수 있습니다. 그리고 앞으로의 AI 발전이 어느 방향으로 가야 하는지를 ARC-AGI-3는 꽤 명확하게 가리키고 있습니다.

이번 포스팅에서 수치와 계산 방식을 직접 뜯어본 이유는 하나입니다 — “AI가 이걸 못 한다”와 “AI가 이걸 훨씬 비효율적으로 한다”는 전혀 다른 이야기이고, 그 차이를 알아야 다음 업데이트가 의미 있는 건지 판단할 수 있습니다.

📎 본 포스팅 참고 자료

⚠️ 본 포스팅은 2026년 3월 30일 기준으로 작성됐습니다. AI 벤치마크 점수, 리더보드 순위, 상금 규정은 주최 측의 업데이트에 따라 달라질 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 투자 판단이나 중요한 의사결정에는 원문 공식 자료를 직접 확인하시기 바랍니다.

ARC-AGI-3, AI가 0.26%인데 사람은 100%라고요?

ARC-AGI-3란 무엇인가 — 그래서 이게 왜 다른가

0.26%의 의미 — GPT-5.4가 받은 숫자를 공식 문서로 해석했습니다

점수를 세는 방식이 독특합니다 — RHAE 계산법을 뜯어봤습니다

ARC-AGI-1·2가 이미 포화된 이유가 충격적입니다

공식 리더보드와 커뮤니티 리더보드를 나눈 진짜 이유

AI가 못 하는 것 vs 못 하게 막은 것 — 이 차이가 핵심입니다

자주 나오는 질문 5가지

마치며

📎 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

ARC-AGI-3, AI가 0.26%인데 사람은 100%라고요?

ARC-AGI-3란 무엇인가 — 그래서 이게 왜 다른가

0.26%의 의미 — GPT-5.4가 받은 숫자를 공식 문서로 해석했습니다

점수를 세는 방식이 독특합니다 — RHAE 계산법을 뜯어봤습니다

ARC-AGI-1·2가 이미 포화된 이유가 충격적입니다

공식 리더보드와 커뮤니티 리더보드를 나눈 진짜 이유

AI가 못 하는 것 vs 못 하게 막은 것 — 이 차이가 핵심입니다

자주 나오는 질문 5가지

마치며

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기