2026.03.30 기준 · Grok 4.20 Beta (API 출시일: 2026.03.12)

Grok 4.20, 솔직하다고요?
가격표에 이게 있습니다

xAI가 Grok 4.20을 “역대 최저 환각률”이라고 내세웁니다. Artificial Analysis Omniscience 테스트에서 78%로 1위를 찍었으니 틀린 말은 아닙니다. 그런데 같은 측정에서 지능지수는 8위입니다. 그리고 요금표를 자세히 들여다보면, 처음 보이는 숫자가 끝이 아닙니다.

환각률 1위 78%
지능지수 8위 / 48점
컨텍스트 200만 토큰
API $2~$20 / 1M input

환각률 1위라는 타이틀, 그 뒤에 있는 숫자

Grok 4.20은 2026년 3월 24일 공식 API 문서가 게시되면서 정식 출시됐습니다. xAI가 가장 먼저 내세운 건 Artificial Analysis Omniscience 테스트에서 기록한 78% 비환각률입니다. 다른 모델이 따라오지 못한 수치입니다. (출처: Artificial Analysis Intelligence Index v4.0, 2026.03.25)

그런데 같은 기관이 매기는 지능지수(Intelligence Index) 점수는 48점, 순위는 8위입니다. 1위인 Gemini 3.1 Pro Preview와 GPT-5.4는 각각 57점이고, Claude Opus 4.6은 53점입니다. 9점 격차가 생각보다 큽니다. 솔직함과 똑똑함은 다른 축에서 측정된다는 걸 이 숫자가 보여줍니다.

💡 공식 발표문의 환각률 수치와 지능지수를 나란히 놓고 보면 xAI가 어디에 무게를 실었는지가 보입니다. “가장 정확하다”는 주장은 맞지만, “가장 똑똑하다”는 주장은 이 수치로는 성립하지 않습니다.

특화 벤치마크에서는 다릅니다. IFBench(명령 추종 정확도)에서 83%로 1위, τ²-Bench Telecom(에이전트 도구 사용)에서 97%로 2위입니다. (출처: Artificial Analysis, 2026.03) 즉 정형화된 지시를 정확하게 따르는 능력과 도구를 다루는 능력은 최상위입니다.

▲ 목차로 돌아가기

요금이 세 줄짜리인 이유

Grok 4.20 API 요금은 xAI 공식 문서(docs.x.ai/developers/models) 기준으로 입력 $2 / 출력 $6 (100만 토큰당)이 기본입니다. OpenRouter에서도 동일하게 표시됩니다. 처음 보면 Grok 4의 $3 / $15보다 저렴하고, Grok 3의 $30 / $150에 비하면 입력 기준 33%, 출력 기준 60% 낮은 수준입니다.

그런데 요금표엔 조건이 붙습니다. 컨텍스트가 20만 토큰을 넘어가는 순간 입력 $40 / 출력 $120으로 폭등합니다. 기본 요금의 20배입니다. (출처: WinBuzzer, 2026.03.25 — xAI 공식 문서 인용) 20배. 이 한 줄이 Grok 4.20의 실제 사용 비용을 결정하는 핵심 변수입니다.

구간	입력 / 1M 토큰	출력 / 1M 토큰
기본 (0~200k 토큰)	$2	$6
긴 컨텍스트 (200k+ 토큰)	$40	$120
Grok 4-Fast / 4.1 Fast 비교	$0.20	$0.50

출처: xAI 공식 문서 (docs.x.ai/developers/models, 2026.03.30 기준) / WinBuzzer (2026.03.25)

200만 토큰 컨텍스트를 쓰겠다고 결정하면 요금 계산식이 완전히 달라집니다. Grok 4.20의 저렴함은 200k 토큰 이하에서만 유효합니다.

▲ 목차로 돌아가기

200만 토큰이 기회이자 함정인 지점

Grok 4.20의 컨텍스트 창은 200만 토큰입니다. 단일 요청에 약 150만 단어에 해당하는 정보를 넣을 수 있습니다. 긴 PDF 수십 개나 코드베이스 전체를 한 번에 처리하는 작업에서 수치만 보면 매력적입니다.

그런데 200k 초과 구간 요금인 입력 $40을 실제로 적용해 봅니다. 예를 들어 50만 토큰짜리 법률 문서를 처리한다고 하면 입력 비용만 $20입니다. 같은 문서를 Claude Opus 4.6(입력 $5 / 1M 기준)에 넣으면 $2.5입니다. 긴 컨텍스트 구간에서는 Grok 4.20이 Claude Opus 4.6보다 8배 비쌉니다.

💡 공식 요금표와 컨텍스트 구간을 같이 보면 이런 차이가 나타납니다. 200만 토큰 지원 = 저렴하게 쓸 수 있다는 등식이 성립하지 않습니다.

반면 20만 토큰 이하의 짧고 반복적인 쿼리라면 상황이 바뀝니다. 입력 $2는 대부분의 경쟁 모델보다 저렴합니다. 문서 길이가 핵심 변수입니다.

▲ 목차로 돌아가기

도구 호출 요금, 실제로 계산하면 이렇게 나옵니다

xAI 공식 문서에 도구 호출 비용이 따로 표시됩니다. 토큰 요금과 별개로 청구됩니다. Grok 4.20을 에이전트 방식으로 쓸 때 이 부분이 전체 비용을 바꿉니다.

도구	비용	용도
Web Search	$5 / 1,000호출	웹 검색 + 페이지 브라우징
X Search	$5 / 1,000호출	X(트위터) 포스트 검색
Code Execution	$5 / 1,000호출	Python 코드 실행 (샌드박스)
File Attachments	$10 / 1,000호출	첨부 파일 검색
Collections Search (RAG)	$2.50 / 1,000호출	업로드된 문서 컬렉션 검색

출처: xAI 공식 문서 (docs.x.ai/developers/models, 2026.03.30 기준)

실제 계산을 해봅니다. 하루 1,000번의 에이전트 쿼리를 돌리는데 각 쿼리가 웹 검색 2회 + 코드 실행 1회를 호출한다고 가정합니다.

일 1,000쿼리 · 쿼리당 도구 3회 기준:
웹 검색: 1,000 × 2회 = 2,000호출 → $10
코드 실행: 1,000 × 1회 = 1,000호출 → $5
도구 호출 소계: $15 / 일 ($450 / 월)
여기에 토큰 비용(예: 쿼리당 평균 2,000토큰 × 1,000회 = 200만 토큰)이 $4 추가
월 실제 비용 추정: 약 $570

도구 호출을 빼고 토큰만 보면 한 달에 $120 수준입니다. 도구를 켜는 순간 5배 가까이 뜁니다. 에이전트 방식으로 Grok 4.20을 쓸 계획이라면 도구 호출 빈도가 총 비용의 핵심입니다.

▲ 목차로 돌아가기

Heavy 모드가 다중 에이전트인데, 비용 구조가 다릅니다

Heavy는 에이전트 4개가 동시에 작동합니다

Grok 4.20에는 소비자 인터페이스 기준으로 Auto, Fast, Expert, Heavy 네 가지 모드가 있습니다. Heavy 모드는 단순히 더 오래 생각하는 게 아닙니다. 최대 4개의 에이전트가 같은 질문을 독립적으로 처리한 뒤 결과를 합산하는 방식입니다. (출처: WinBuzzer, 2026.03.25)

API에서는 multi-agent 변형으로 분리돼 있습니다. 같은 $2 / 1M 입력 요금이 명시돼 있지만, 에이전트 4개가 동시에 처리하면 사실상 동일한 입력 토큰이 4회 소비됩니다. 4개 에이전트가 각각 응답을 생성하면 출력 토큰도 그만큼 쌓입니다.

💡 Heavy 모드의 요금이 단순히 1회 처리 기준으로 표시돼 있어도, 내부에서 에이전트가 병렬로 돌아가는 구조라면 실제 토큰 소비는 달라질 수 있습니다. xAI가 이 부분에 대해 공식 답변을 내놓지 않은 상태입니다. API 스택 기반으로 직접 토큰 소비를 모니터링하는 게 현실적입니다.

배치 API는 토큰 비용 50% 절감됩니다

실시간 응답이 필요 없는 배치 작업이라면 Batch API를 쓸 수 있습니다. 입력/출력/캐시/추론 토큰 모두 50% 할인입니다. 24시간 내 처리 조건이 붙습니다. (출처: xAI 공식 문서, docs.x.ai/developers/models) 단, 이미지·영상 생성은 배치 API에서도 표준 요금이 적용됩니다.

▲ 목차로 돌아가기

Grok 4.20이 진짜 유리한 상황은 따로 있습니다

지능지수 8위, 긴 컨텍스트 고요금, 도구 호출 비용까지 나열하면 Grok 4.20이 나쁜 모델처럼 보일 수 있습니다. 그렇지 않습니다. 유리한 구간이 명확하게 있습니다.

X(트위터) 실시간 데이터가 필요한 작업에서는 경쟁 모델이 따라오기 어렵습니다. 브랜드 모니터링, 금융 시장 여론 분석, 라이브 이슈 추적 등 소셜 데이터를 실시간으로 소화해야 하는 작업이라면 Grok 4.20의 X Search 네이티브 연동이 결정적인 차이를 만듭니다. Claude나 Gemini는 별도 통합 없이는 X 데이터에 접근하지 못합니다. (출처: MindStudio AI 블로그, 2026.03)

정형화된 지시를 대량으로 처리하는 작업에서도 강점이 드러납니다. IFBench 83% 1위라는 수치는 “명령을 틀리지 않고 따르는 능력”에서 현재 최상위임을 뜻합니다. API 자동화 파이프라인에서 일관된 출력 형식이 중요한 경우라면 이 특성이 실질적인 품질 차이로 이어집니다.

20만 토큰 이하 반복 쿼리는 비용 측면에서도 실용적입니다. 입력 $2는 현재 출시된 주요 플래그십 모델 중 가장 낮은 편입니다. 단순하고 짧은 쿼리를 하루 수천 번 돌리는 스택에서는 비용 효율이 나옵니다.

💡 “지능지수 8위”라는 수치만 보면 과소평가되기 쉬운데, IFBench 1위와 X 실시간 연동을 함께 보면 어떤 작업에 쓰면 되는지가 분명해집니다.

깊은 문서 분석, 복잡한 추론, 긴 컨텍스트 처리가 핵심인 작업은 다른 모델과 함께 쓰는 게 현실적입니다. Grok 4.20을 실시간 수집 단계에, Claude나 Gemini를 심층 분석 단계에 배치하는 방식이 비용과 품질을 동시에 잡는 구성입니다.

▲ 목차로 돌아가기

자주 나오는 질문

▶ Grok 4.20과 Grok 4는 다른 모델인가요?

네, 별개 모델입니다. Grok 4는 2025년 6월 출시됐고, Grok 4.20은 2026년 2월 17일 베타, 3월 24일 공식 API 문서 게시로 출시됐습니다. 공식 모델 스트링은 grok-4.20이며 Grok 4와 호환되지 않습니다. Grok 4 사용 시 reasoning_effort 파라미터를 쓰고 있었다면, Grok 4.20에서는 오류가 발생합니다. (출처: xAI 공식 문서, docs.x.ai/developers/models)

▶ Grok 4.20의 지식 컷오프 날짜는 언제인가요?

xAI 공식 문서에 Grok 3와 Grok 4의 지식 컷오프는 2024년 11월로 명시돼 있습니다. Grok 4.20에 대한 별도 컷오프 날짜는 공식 문서에서 따로 밝히지 않았습니다. 실시간 정보는 Web Search 또는 X Search 도구를 별도로 활성화해야 합니다.

▶ 환각률 78%가 높은 건가요, 낮은 건가요?

여기서 78%는 비환각률(non-hallucination rate)입니다. 즉 78%의 응답에서 환각이 발생하지 않았다는 의미입니다. Artificial Analysis Omniscience 테스트 기준으로 현재 테스트된 모델 중 가장 높은 수치입니다. (출처: Artificial Analysis Intelligence Index v4.0, 2026.03.25) 다시 말해 나머지 22%의 응답에서는 여전히 환각이 발생한다는 뜻이기도 합니다.

▶ Grok 4.20 API는 한국에서 바로 쓸 수 있나요?

xAI 공식 문서는 미국 동부(US East)와 EU 서부(EU West) 두 리전에서 프로비저닝 처리량(Provisioned Throughput)을 지원한다고 명시합니다. 한국에서 API 키를 발급해 사용하는 것은 가능하지만, 지리적 접근 제한이 계정 조건에 따라 다를 수 있습니다. xAI Console(console.x.ai)에서 모델 가용성을 직접 확인하는 게 확실합니다.

▶ Grok 4.20으로 이미지 생성도 되나요?

Grok 4.20 Beta(grok-4.20-beta)의 공식 스펙에는 텍스트 + 이미지 입력은 지원되지만, 이미지 출력(생성)은 해당 모델에 포함된 기능이 아닙니다. (출처: OpenRouter, 2026.03.12) 이미지 생성은 별도 모델을 써야 합니다. xAI의 이미지 생성 기능은 Grok Imagine 계열을 통해 제공됩니다.

▲ 목차로 돌아가기

마치며

Grok 4.20은 “가장 솔직한 AI”라는 타이틀을 환각률 수치로 증명했습니다. 그리고 요금표도 꽤 솔직합니다. 200k 초과 구간 $40, 도구 호출 별도 과금, Heavy 모드의 에이전트 병렬 처리 — 이 세 가지가 전부 공식 문서에 기재돼 있습니다. 읽지 않으면 모를 뿐입니다.

솔직히 말하면 Grok 4.20은 “X 실시간 데이터 + 짧고 반복적인 쿼리 + 명령 정확도가 중요한 작업”에 맞게 설계된 모델입니다. 그 구간에서는 현재 출시된 모델 중에서 확실한 강점을 가집니다. 그 외의 작업에서는 더 나은 선택지가 있습니다.

가격표 첫 줄만 보고 결정하면 막상 청구서에서 당황할 수 있습니다. 도구 호출 빈도와 컨텍스트 길이, 두 숫자를 먼저 계산하고 나서 선택해도 늦지 않습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

xAI 공식 개발자 문서 — Models and Pricing:
https://docs.x.ai/developers/models
WinBuzzer — xAI’s Grok 4.20 Sets Honesty Record but Trails in Intelligence (2026.03.25):
https://winbuzzer.com/2026/03/25/xai-grok-420-honesty-record-intelligence-gap-xcxwbn/
Artificial Analysis — Intelligence Index v4.0 (2026.03.25):
https://artificialanalysis.ai/evaluations/ifbench
OpenRouter — Grok 4.20 Beta Model Info (2026.03.12):
https://openrouter.ai/x-ai/grok-4.20-beta
MindStudio AI — Grok 4.20 vs Claude Opus 4.6 Real-Time Search (2026.03):
https://www.mindstudio.ai/blog/grok-420-vs-claude-opus-46-real-time-search

본 포스팅 작성 이후 xAI 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 모든 요금 수치는 2026년 3월 30일 기준 xAI 공식 문서를 바탕으로 작성됐으며, 실제 청구 금액은 사용 조건에 따라 다를 수 있습니다. 투자·구매 판단에 본 글을 단독 근거로 사용하지 마세요.

Grok 4.20, 솔직하다고요?
가격표에 이게 있습니다

환각률 1위라는 타이틀, 그 뒤에 있는 숫자

요금이 세 줄짜리인 이유

200만 토큰이 기회이자 함정인 지점

도구 호출 요금, 실제로 계산하면 이렇게 나옵니다

Heavy 모드가 다중 에이전트인데, 비용 구조가 다릅니다

Heavy는 에이전트 4개가 동시에 작동합니다

배치 API는 토큰 비용 50% 절감됩니다

Grok 4.20이 진짜 유리한 상황은 따로 있습니다

자주 나오는 질문

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Grok 4.20, 솔직하다고요? 가격표에 이게 있습니다

환각률 1위라는 타이틀, 그 뒤에 있는 숫자

요금이 세 줄짜리인 이유

200만 토큰이 기회이자 함정인 지점

도구 호출 요금, 실제로 계산하면 이렇게 나옵니다

Heavy 모드가 다중 에이전트인데, 비용 구조가 다릅니다

Heavy는 에이전트 4개가 동시에 작동합니다

배치 API는 토큰 비용 50% 절감됩니다

Grok 4.20이 진짜 유리한 상황은 따로 있습니다

자주 나오는 질문

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기