2026.03.12 기준 / Beta 0309
Artificial Analysis 공식 수치 기반

Grok 4.20, 점수 낮은데 왜 더 믿을 수 있을까요

지능지수 48점. 현재 프런티어 모델 최고 점수(57점)보다 9포인트 낮습니다. 그런데 Grok 4.20 베타는 “가장 낮은 할루시네이션율”이라는 타이틀을 달고 있습니다. 점수가 낮을수록 더 믿을 수 있다는 게 가능한 얘기일까요? 공식 수치를 직접 열어봤습니다.

Intelligence Index

48점

평균 31점 대비 +17

비할루시네이션율

78%

전체 모델 중 1위

출력 토큰 가격

$6/1M

Opus 4.6 대비 -76%

컨텍스트 창

토큰 (API 기준)

Grok 4.20이 뭔지, 먼저 한 줄로

Grok 4.20(공식 버전명 grok-4-20, 베타 빌드 0309)은 xAI가 2026년 2월 17일 공개 베타로 출시한 모델입니다. 코드명 “4.20”은 버전 4.2.0의 줄임이고, 전작 Grok 4와 구조적으로 다른 점이 하나 있습니다. 추론(Reasoning), 비추론(Non-reasoning), 멀티에이전트(Multi-agent) 세 가지 모드를 하나의 API 엔드포인트 아래 두고, 용도에 따라 선택할 수 있게 분리했습니다.

2026년 3월 12일 Artificial Analysis가 Beta 0309 버전을 공식 평가 대상으로 등록했고, 이때부터 외부 비교 수치가 공개되기 시작했습니다. 이 포스팅은 그 수치를 기반으로 작성했습니다. (출처: Artificial Analysis — Grok 4.20 Beta 0309)

기억해둘 것은 “아직 베타”라는 점입니다. xAI 공식 문서에도 “Grok 4.20 models do not support the logprobs field”처럼 아직 정식 지원이 안 되는 파라미터가 명시돼 있습니다. (출처: xAI 공식 개발자 문서)

▲ 목차로 돌아가기

48점이 낮아 보이는 이유와 실제 위치

Artificial Analysis Intelligence Index에서 Grok 4.20 Reasoning 모드는 48점을 받았습니다. 현재 프런티어 최고 점수는 57점(Gemini 3.1 Pro Preview, GPT-5.4)이고, 전체 평균은 31점입니다. 숫자만 보면 “최고 대비 -9점”이 눈에 들어오지만, 전체 분포에서는 평균 대비 +17점입니다. 상위권인 건 맞습니다.

모델	Intelligence Index	출시 시점
GPT-5.4 / Gemini 3.1 Pro Preview	57점	2026 Q1
Grok 4.20 Beta 0309 (Reasoning)	48점	2026.02 (Beta)
Grok 4	42점	2025
전체 평균	31점	—

출처: Artificial Analysis Intelligence Index (2026.03.12 기준)

전작 Grok 4 대비 +6점, Grok 4.1 Fast 대비 +9점 오른 수치입니다. 한 세대 안에서 의미 있는 도약이고, 평가 비용도 Grok 4 대비 약 70% 줄었습니다. 가격 대비 지능 효율 곡선에서 현재 파레토 프런티어에 올라있다는 게 Artificial Analysis의 판단입니다.

다만 솔직히 말하면, 지능 지수 자체는 프런티어 최상위에 있지 않습니다. “스마트함” 하나만 따지면 GPT-5.4나 Gemini 3.1 Pro Preview가 앞서 있고, Grok 4.20이 차별화되는 지점은 다른 곳에 있습니다.

▲ 목차로 돌아가기

할루시네이션율 1위, 숫자가 보여주는 것

💡 공식 발표문과 벤치마크 수치를 같이 놓고 보니, 지능지수와 신뢰도가 꼭 함께 올라가지는 않는다는 게 보였습니다.

Artificial Analysis의 AA-Omniscience 평가에서 Grok 4.20 Reasoning 모드는 비할루시네이션율 78%를 기록했습니다. 이건 지금까지 테스트된 모든 모델 중 가장 높은 수치입니다. 모르는 걸 물어봤을 때, 틀린 답 대신 “모르겠다”고 답한 비율이 78%라는 의미입니다. (출처: Artificial Analysis LinkedIn 발표, 2026.03.12)

여기서 반전이 있습니다. 지능지수 1위인 모델이 할루시네이션도 가장 적을 것이라는 예상이 자연스럽지만, 실제 수치는 그렇지 않습니다. Intelligence Index 57점짜리 모델들은 AA-Omniscience에서 Grok 4.20보다 낮은 비할루시네이션율을 기록하고 있습니다. 점수가 높다고 틀린 답을 덜 만들어내진 않는다는 뜻입니다.

실생활에서 이 차이가 중요해지는 건 검증이 어려운 전문 영역입니다. 법률 조문, 의약품 데이터, 금융 수치처럼 틀렸을 때 대가가 큰 질문에서 “모른다”고 빠져나가는 능력이 없으면, 그럴듯하게 들리는 오답이 나옵니다. 할루시네이션율 22%는 나머지 경쟁 모델이 넘지 못한 선입니다.

단, 이 수치에는 한계도 있습니다. Reddit의 실사용자 불만 스레드에서는 베타 초기(2월 21일경) 테스트 중 사실 오류가 여러 건 발견됐다는 보고가 있습니다. 공식 수치는 구조화된 평가 환경 기준이고, 일상 대화에서의 할루시네이션 빈도는 별개로 봐야 합니다.

▲ 목차로 돌아가기

2M 토큰 컨텍스트, 실제로 쓸 수 있는 범위

💡 “2M 토큰”이라는 숫자가 조건에 따라 달라진다는 걸, 공식 문서와 실제 사용 리뷰를 대조해보니 확인됩니다.

Grok 4.20의 API 컨텍스트 창은 200만 토큰입니다. 전작 Grok 4의 25만6천 토큰에서 약 8배 늘었고, Grok 4.1 Fast의 200만 토큰과 동일 수준입니다. 현재 공개된 주요 모델 중 Gemini 3.1 Pro(100만)의 두 배에 해당합니다. (출처: Artificial Analysis, 2026.03.12)

그런데 이 수치가 그대로 체감되진 않습니다. 앱 UI(grok.x.ai)에서는 컨텍스트 창이 12만8천~25만6천 토큰 수준으로 제한된다는 보고가 있습니다. DataCamp 리뷰에서도 “앱 기준 128K, API 기준 256K”라는 표현이 나옵니다. 200만 토큰 전체 활용은 API 직접 호출 방식에서만 가능합니다.

200만 토큰이 실감되는 시나리오는 명확합니다. 300개짜리 PDF 문서 묶음을 한 번에 던져넣고 패턴을 찾는 작업, 또는 대형 코드베이스 전체를 컨텍스트에 올려놓고 리팩토링을 요청하는 케이스입니다. 단순 대화나 1~2개 문서 요약이라면 200만 토큰은 실질적 의미가 없습니다.

입력 토큰 가격은 $2.00/1M입니다. 200만 토큰 전체를 채운다면 입력 비용만 $4.00가 나옵니다. 컨텍스트를 최대로 쓰는 워크로드라면 응답 품질뿐 아니라 비용 설계도 같이 따져야 합니다.

▲ 목차로 돌아가기

가격 구조: 70% 절감이 가능한 이유

💡 같은 작업에서 왜 비용 차이가 이렇게 크게 나는지, 출력 토큰 단가와 verbosity를 같이 보면 구조가 보입니다.

Grok 4.20의 공식 API 가격은 입력 $2.00/1M 토큰, 출력 $6.00/1M 토큰입니다. Claude Opus 4.6은 입력 $5.00/1M, 출력 $25.00/1M입니다. (출처: xAI 공식 개발자 문서, Anthropic 공식 가격 페이지)

항목	Grok 4.20	Claude Opus 4.6
입력 토큰	$2.00 / 1M	$5.00 / 1M
출력 토큰	$6.00 / 1M	$25.00 / 1M
Intelligence Index 평가 비용	$484	약 $1,600+
출력 토큰당 verbosity	54M (평균 13M 대비 4배)	—

출처: Artificial Analysis (2026.03.12), Anthropic 공식 가격 페이지

Grok 4.20 전체 Intelligence Index 평가에 든 비용은 $484.42였습니다. Grok 4 기준 비교 비용 대비 약 70% 줄었습니다. 단가가 낮아진 것도 이유지만, 같은 점수를 내는 데 쓰는 토큰 수 자체도 줄었기 때문입니다. 같은 작업을 더 싸게 돌릴 수 있다는 뜻입니다.

단 주의할 지점이 있습니다. Grok 4.20 Reasoning 모드는 응답이 상당히 길다는 특성이 있습니다. Artificial Analysis 평가에서 생성된 토큰 수는 5400만 개로, 전체 모델 평균(1300만 개)의 약 4배입니다. 단가는 낮지만 토큰 수가 많으면 실제 청구 금액은 예상보다 높아질 수 있습니다. 간단한 질문에 긴 답변이 돌아오는 구조라면, 짧은 답이 필요한 용도에는 맞지 않습니다.

▲ 목차로 돌아가기

멀티에이전트가 실제로 작동하는 방식

“4개의 AI가 서로 토론한다”는 설명이 많지만, xAI 공식 문서와 Artificial Analysis의 평가 보고서를 보면 구조가 좀 다릅니다. Grok 4.20의 멀티에이전트 모드는 API 1회 호출로 내부에서 여러 에이전트가 병렬로 동작합니다. 사용자 입장에서는 단일 요청이고, 에이전트 간 교환 과정은 백그라운드에서 처리됩니다.

LinkedIn 리뷰(2026.03.03)에 따르면 4개 에이전트의 역할 분담은 추론(Reasoning), 비판(Critique), 도구 호출(Tool Use), 오케스트레이션(Orchestration)입니다. 각 에이전트가 답안을 내고, 비판 에이전트가 교차 검증한 뒤, 오케스트레이터가 최종 응답을 합칩니다. 구조 자체는 단순한 사슬형이 아니라 병렬-검증 방식입니다.

Artificial Analysis는 멀티에이전트 모드의 벤치마크 평가 방법을 “현재 검토 중”이라고 밝혔습니다. 아직 Reasoning/Non-reasoning 두 가지만 공식 수치가 있고, 멀티에이전트 모드의 독립적 수치는 공개되지 않았습니다. (출처: Artificial Analysis LinkedIn, 2026.03.12)

실제로 GDPval-AA(실무 태스크 에이전트 평가) 점수는 1,062점으로, 프런티어 경쟁 모델들보다 낮고 Grok 4.1 Fast와 비슷한 수준입니다. 멀티에이전트 구조가 있다고 해서 모든 에이전트 태스크에서 강한 건 아닙니다. 일반 에이전트 작업 성능과 멀티에이전트 내부 구조는 별개입니다.

▲ 목차로 돌아가기

이 모델을 쓰면 안 되는 상황도 있습니다

솔직히 짚고 넘어갈 지점이 있습니다. Grok 4.20이 유리한 상황이 있는 만큼, 맞지 않는 상황도 분명합니다.

첫째, 짧고 정확한 답이 필요한 경우입니다. Reasoning 모드는 평균 대비 4배 많은 토큰을 출력합니다. 한두 문장 요약이 필요한 작업에서 장문 응답이 돌아오면 실용적이지 않습니다. Non-reasoning 모드는 이를 어느 정도 줄여주지만, Intelligence Index 30점(평균 이상이지만 Reasoning 대비 18점 차이)임을 감안해야 합니다.

둘째, 깊이 있는 연구 합성이 필요한 경우입니다. MindStudio AI 비교 분석에서 Grok 4.20은 “속도와 실시간성”에서는 앞서지만, 여러 출처를 종합해 근거 기반 결론을 내는 작업에서는 Claude Opus 4.6이 일관되게 더 나은 결과를 냈다는 평가가 나왔습니다.

셋째, 실시간 이벤트 기반 작업이되 SNS 데이터가 불필요한 경우입니다. Grok의 X 네이티브 연동 강점은 트위터/X 데이터 스트림에 있습니다. 학술 논문, 법률 문서, 기술 사양 분석처럼 X 데이터가 관련 없는 분야에서는 이 강점이 사라집니다.

넷째, API 안정성이 중요한 프로덕션 환경입니다. 현재 여전히 베타 상태이며, xAI 공식 문서에도 지원하지 않는 파라미터가 명시돼 있습니다. logprobs 같은 파라미터를 기존 워크플로에서 사용하고 있다면 오류가 발생합니다.

▲ 목차로 돌아가기

Q&A

Q1. Grok 4.20 베타는 지금 무료로 쓸 수 있나요?

웹 앱(grok.x.ai)과 모바일 앱에서 무료 공개 베타 접근이 가능하지만, 무료 티어의 사용량 제한이 있습니다. API를 통한 접근은 유료이며 $2.00/$6.00(입력/출력, 1M 토큰 기준) 요금이 적용됩니다. xAI Console(console.x.ai)에서 API 키를 발급받아야 합니다.

Q2. 할루시네이션율 1위라는 건 어디서 나온 수치인가요?

Artificial Analysis의 AA-Omniscience 평가에서 측정된 수치입니다. 비할루시네이션율 78%(할루시네이션율 22%)로, Artificial Analysis가 지금까지 테스트한 모든 모델 중 가장 높습니다. 2026년 3월 12일 공개된 Beta 0309 기준 수치이며, 이후 버전 업데이트로 수치가 변경될 수 있습니다.

Q3. 2M 토큰 컨텍스트를 일반 사용자가 체감하기 어려운 이유가 있나요?

앱 UI에서는 컨텍스트 창이 128K~256K 수준으로 제한됩니다. 200만 토큰 전체 활용은 API 직접 호출 방식에서만 가능합니다. 또한 200만 토큰을 채우는 비용은 입력만 $4.00이므로, 실제로 이 규모가 필요한 대용량 문서 처리 워크로드가 아니면 굳이 최대 컨텍스트를 쓸 이유가 없습니다.

Q4. 멀티에이전트 모드는 어떻게 켜나요?

API 호출 시 모델 파라미터에서 멀티에이전트 모드를 선택할 수 있습니다. xAI Console의 모델 목록 페이지에서 세 가지 모드(Reasoning/Non-reasoning/Multi-agent) 각각의 API 스트링과 가격을 확인할 수 있습니다. 앱 UI에서는 별도 설정 없이 내부 판단으로 에이전트가 작동합니다.

Q5. Grok 4.20을 Claude나 GPT-5 대신 쓸 이유가 있을까요?

“무조건 대체”보다는 “목적별 선택”이 맞는 프레임입니다. X(트위터) 실시간 데이터 연동이 필요하거나, 대용량 문서를 저비용으로 처리해야 하거나, 할루시네이션이 특히 문제가 되는 전문 질의 응답 시스템을 만들 때는 Grok 4.20이 경쟁력 있습니다. 깊이 있는 연구 합성이나 복잡한 멀티스텝 추론은 Claude Opus 4.6이 여전히 더 강합니다.

▲ 목차로 돌아가기

마치며

Grok 4.20은 “지능지수 1위”가 아닙니다. 그걸 알면서도 계속 들여다보게 되는 이유가 있습니다. 할루시네이션율 전체 1위, 출력 가격 $6/1M으로 Opus 4.6의 4분의 1, 2M 토큰 컨텍스트 창 — 이 조합이 특정 상황에서 다른 모델이 채우기 어려운 자리를 만들어냅니다.

솔직히 말하면, 아직 베타 상태라는 점이 마음에 걸립니다. 벤치마크 수치는 구조화된 환경에서 나온 것이고, 실제 프로덕션에서 사용자가 경험하는 것과 항상 일치하진 않습니다. 2월 초 베타 테스터들이 보고한 사실 오류 사례들이 0309 빌드에서 완전히 해소됐는지는 공식 이유가 밝혀지지 않았습니다.

결국 지금 시점에서 가장 좋은 접근은 실제 쓰는 태스크 유형에 맞춰 직접 비교해보는 것입니다. 숫자는 방향을 가리키는 용도고, 본인 워크플로에서의 답은 직접 시험해봐야 나옵니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅은 2026년 4월 2일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Grok 4.20은 현재 베타 상태이며 수치·기능·가격은 정식 출시 시 달라질 수 있습니다. 공식 최신 정보는 xAI 공식 문서(docs.x.ai)에서 확인하시기 바랍니다.

Grok 4.20, 점수 낮은데 왜 더 믿을 수 있을까요

Grok 4.20이 뭔지, 먼저 한 줄로

48점이 낮아 보이는 이유와 실제 위치

할루시네이션율 1위, 숫자가 보여주는 것

2M 토큰 컨텍스트, 실제로 쓸 수 있는 범위

가격 구조: 70% 절감이 가능한 이유

멀티에이전트가 실제로 작동하는 방식

이 모델을 쓰면 안 되는 상황도 있습니다

Q&A

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Grok 4.20, 점수 낮은데 왜 더 믿을 수 있을까요

Grok 4.20이 뭔지, 먼저 한 줄로

48점이 낮아 보이는 이유와 실제 위치

할루시네이션율 1위, 숫자가 보여주는 것

2M 토큰 컨텍스트, 실제로 쓸 수 있는 범위

가격 구조: 70% 절감이 가능한 이유

멀티에이전트가 실제로 작동하는 방식

이 모델을 쓰면 안 되는 상황도 있습니다

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기