Grok 4.20, 솔직하다고요?
가격표에 이게 있습니다
xAI가 Grok 4.20을 “역대 최저 환각률”이라고 내세웁니다. Artificial Analysis Omniscience 테스트에서 78%로 1위를 찍었으니 틀린 말은 아닙니다. 그런데 같은 측정에서 지능지수는 8위입니다. 그리고 요금표를 자세히 들여다보면, 처음 보이는 숫자가 끝이 아닙니다.
지능지수 8위 / 48점
컨텍스트 200만 토큰
API $2~$20 / 1M input
환각률 1위라는 타이틀, 그 뒤에 있는 숫자
Grok 4.20은 2026년 3월 24일 공식 API 문서가 게시되면서 정식 출시됐습니다. xAI가 가장 먼저 내세운 건 Artificial Analysis Omniscience 테스트에서 기록한 78% 비환각률입니다. 다른 모델이 따라오지 못한 수치입니다. (출처: Artificial Analysis Intelligence Index v4.0, 2026.03.25)
그런데 같은 기관이 매기는 지능지수(Intelligence Index) 점수는 48점, 순위는 8위입니다. 1위인 Gemini 3.1 Pro Preview와 GPT-5.4는 각각 57점이고, Claude Opus 4.6은 53점입니다. 9점 격차가 생각보다 큽니다. 솔직함과 똑똑함은 다른 축에서 측정된다는 걸 이 숫자가 보여줍니다.
💡 공식 발표문의 환각률 수치와 지능지수를 나란히 놓고 보면 xAI가 어디에 무게를 실었는지가 보입니다. “가장 정확하다”는 주장은 맞지만, “가장 똑똑하다”는 주장은 이 수치로는 성립하지 않습니다.
특화 벤치마크에서는 다릅니다. IFBench(명령 추종 정확도)에서 83%로 1위, τ²-Bench Telecom(에이전트 도구 사용)에서 97%로 2위입니다. (출처: Artificial Analysis, 2026.03) 즉 정형화된 지시를 정확하게 따르는 능력과 도구를 다루는 능력은 최상위입니다.
요금이 세 줄짜리인 이유
Grok 4.20 API 요금은 xAI 공식 문서(docs.x.ai/developers/models) 기준으로 입력 $2 / 출력 $6 (100만 토큰당)이 기본입니다. OpenRouter에서도 동일하게 표시됩니다. 처음 보면 Grok 4의 $3 / $15보다 저렴하고, Grok 3의 $30 / $150에 비하면 입력 기준 33%, 출력 기준 60% 낮은 수준입니다.
그런데 요금표엔 조건이 붙습니다. 컨텍스트가 20만 토큰을 넘어가는 순간 입력 $40 / 출력 $120으로 폭등합니다. 기본 요금의 20배입니다. (출처: WinBuzzer, 2026.03.25 — xAI 공식 문서 인용) 20배. 이 한 줄이 Grok 4.20의 실제 사용 비용을 결정하는 핵심 변수입니다.
| 구간 | 입력 / 1M 토큰 | 출력 / 1M 토큰 |
|---|---|---|
| 기본 (0~200k 토큰) | $2 | $6 |
| 긴 컨텍스트 (200k+ 토큰) | $40 | $120 |
| Grok 4-Fast / 4.1 Fast 비교 | $0.20 | $0.50 |
출처: xAI 공식 문서 (docs.x.ai/developers/models, 2026.03.30 기준) / WinBuzzer (2026.03.25)
200만 토큰 컨텍스트를 쓰겠다고 결정하면 요금 계산식이 완전히 달라집니다. Grok 4.20의 저렴함은 200k 토큰 이하에서만 유효합니다.
200만 토큰이 기회이자 함정인 지점
Grok 4.20의 컨텍스트 창은 200만 토큰입니다. 단일 요청에 약 150만 단어에 해당하는 정보를 넣을 수 있습니다. 긴 PDF 수십 개나 코드베이스 전체를 한 번에 처리하는 작업에서 수치만 보면 매력적입니다.
그런데 200k 초과 구간 요금인 입력 $40을 실제로 적용해 봅니다. 예를 들어 50만 토큰짜리 법률 문서를 처리한다고 하면 입력 비용만 $20입니다. 같은 문서를 Claude Opus 4.6(입력 $5 / 1M 기준)에 넣으면 $2.5입니다. 긴 컨텍스트 구간에서는 Grok 4.20이 Claude Opus 4.6보다 8배 비쌉니다.
💡 공식 요금표와 컨텍스트 구간을 같이 보면 이런 차이가 나타납니다. 200만 토큰 지원 = 저렴하게 쓸 수 있다는 등식이 성립하지 않습니다.
반면 20만 토큰 이하의 짧고 반복적인 쿼리라면 상황이 바뀝니다. 입력 $2는 대부분의 경쟁 모델보다 저렴합니다. 문서 길이가 핵심 변수입니다.
도구 호출 요금, 실제로 계산하면 이렇게 나옵니다
xAI 공식 문서에 도구 호출 비용이 따로 표시됩니다. 토큰 요금과 별개로 청구됩니다. Grok 4.20을 에이전트 방식으로 쓸 때 이 부분이 전체 비용을 바꿉니다.
| 도구 | 비용 | 용도 |
|---|---|---|
| Web Search | $5 / 1,000호출 | 웹 검색 + 페이지 브라우징 |
| X Search | $5 / 1,000호출 | X(트위터) 포스트 검색 |
| Code Execution | $5 / 1,000호출 | Python 코드 실행 (샌드박스) |
| File Attachments | $10 / 1,000호출 | 첨부 파일 검색 |
| Collections Search (RAG) | $2.50 / 1,000호출 | 업로드된 문서 컬렉션 검색 |
출처: xAI 공식 문서 (docs.x.ai/developers/models, 2026.03.30 기준)
실제 계산을 해봅니다. 하루 1,000번의 에이전트 쿼리를 돌리는데 각 쿼리가 웹 검색 2회 + 코드 실행 1회를 호출한다고 가정합니다.
웹 검색: 1,000 × 2회 = 2,000호출 → $10
코드 실행: 1,000 × 1회 = 1,000호출 → $5
도구 호출 소계: $15 / 일 ($450 / 월)
여기에 토큰 비용(예: 쿼리당 평균 2,000토큰 × 1,000회 = 200만 토큰)이 $4 추가
월 실제 비용 추정: 약 $570
도구 호출을 빼고 토큰만 보면 한 달에 $120 수준입니다. 도구를 켜는 순간 5배 가까이 뜁니다. 에이전트 방식으로 Grok 4.20을 쓸 계획이라면 도구 호출 빈도가 총 비용의 핵심입니다.
Heavy 모드가 다중 에이전트인데, 비용 구조가 다릅니다
Heavy는 에이전트 4개가 동시에 작동합니다
Grok 4.20에는 소비자 인터페이스 기준으로 Auto, Fast, Expert, Heavy 네 가지 모드가 있습니다. Heavy 모드는 단순히 더 오래 생각하는 게 아닙니다. 최대 4개의 에이전트가 같은 질문을 독립적으로 처리한 뒤 결과를 합산하는 방식입니다. (출처: WinBuzzer, 2026.03.25)
API에서는 multi-agent 변형으로 분리돼 있습니다. 같은 $2 / 1M 입력 요금이 명시돼 있지만, 에이전트 4개가 동시에 처리하면 사실상 동일한 입력 토큰이 4회 소비됩니다. 4개 에이전트가 각각 응답을 생성하면 출력 토큰도 그만큼 쌓입니다.
💡 Heavy 모드의 요금이 단순히 1회 처리 기준으로 표시돼 있어도, 내부에서 에이전트가 병렬로 돌아가는 구조라면 실제 토큰 소비는 달라질 수 있습니다. xAI가 이 부분에 대해 공식 답변을 내놓지 않은 상태입니다. API 스택 기반으로 직접 토큰 소비를 모니터링하는 게 현실적입니다.
배치 API는 토큰 비용 50% 절감됩니다
실시간 응답이 필요 없는 배치 작업이라면 Batch API를 쓸 수 있습니다. 입력/출력/캐시/추론 토큰 모두 50% 할인입니다. 24시간 내 처리 조건이 붙습니다. (출처: xAI 공식 문서, docs.x.ai/developers/models) 단, 이미지·영상 생성은 배치 API에서도 표준 요금이 적용됩니다.
Grok 4.20이 진짜 유리한 상황은 따로 있습니다
지능지수 8위, 긴 컨텍스트 고요금, 도구 호출 비용까지 나열하면 Grok 4.20이 나쁜 모델처럼 보일 수 있습니다. 그렇지 않습니다. 유리한 구간이 명확하게 있습니다.
X(트위터) 실시간 데이터가 필요한 작업에서는 경쟁 모델이 따라오기 어렵습니다. 브랜드 모니터링, 금융 시장 여론 분석, 라이브 이슈 추적 등 소셜 데이터를 실시간으로 소화해야 하는 작업이라면 Grok 4.20의 X Search 네이티브 연동이 결정적인 차이를 만듭니다. Claude나 Gemini는 별도 통합 없이는 X 데이터에 접근하지 못합니다. (출처: MindStudio AI 블로그, 2026.03)
정형화된 지시를 대량으로 처리하는 작업에서도 강점이 드러납니다. IFBench 83% 1위라는 수치는 “명령을 틀리지 않고 따르는 능력”에서 현재 최상위임을 뜻합니다. API 자동화 파이프라인에서 일관된 출력 형식이 중요한 경우라면 이 특성이 실질적인 품질 차이로 이어집니다.
20만 토큰 이하 반복 쿼리는 비용 측면에서도 실용적입니다. 입력 $2는 현재 출시된 주요 플래그십 모델 중 가장 낮은 편입니다. 단순하고 짧은 쿼리를 하루 수천 번 돌리는 스택에서는 비용 효율이 나옵니다.
💡 “지능지수 8위”라는 수치만 보면 과소평가되기 쉬운데, IFBench 1위와 X 실시간 연동을 함께 보면 어떤 작업에 쓰면 되는지가 분명해집니다.
깊은 문서 분석, 복잡한 추론, 긴 컨텍스트 처리가 핵심인 작업은 다른 모델과 함께 쓰는 게 현실적입니다. Grok 4.20을 실시간 수집 단계에, Claude나 Gemini를 심층 분석 단계에 배치하는 방식이 비용과 품질을 동시에 잡는 구성입니다.
자주 나오는 질문
마치며
Grok 4.20은 “가장 솔직한 AI”라는 타이틀을 환각률 수치로 증명했습니다. 그리고 요금표도 꽤 솔직합니다. 200k 초과 구간 $40, 도구 호출 별도 과금, Heavy 모드의 에이전트 병렬 처리 — 이 세 가지가 전부 공식 문서에 기재돼 있습니다. 읽지 않으면 모를 뿐입니다.
솔직히 말하면 Grok 4.20은 “X 실시간 데이터 + 짧고 반복적인 쿼리 + 명령 정확도가 중요한 작업”에 맞게 설계된 모델입니다. 그 구간에서는 현재 출시된 모델 중에서 확실한 강점을 가집니다. 그 외의 작업에서는 더 나은 선택지가 있습니다.
가격표 첫 줄만 보고 결정하면 막상 청구서에서 당황할 수 있습니다. 도구 호출 빈도와 컨텍스트 길이, 두 숫자를 먼저 계산하고 나서 선택해도 늦지 않습니다.
본 포스팅 참고 자료
- xAI 공식 개발자 문서 — Models and Pricing:
https://docs.x.ai/developers/models - WinBuzzer — xAI’s Grok 4.20 Sets Honesty Record but Trails in Intelligence (2026.03.25):
https://winbuzzer.com/2026/03/25/xai-grok-420-honesty-record-intelligence-gap-xcxwbn/ - Artificial Analysis — Intelligence Index v4.0 (2026.03.25):
https://artificialanalysis.ai/evaluations/ifbench - OpenRouter — Grok 4.20 Beta Model Info (2026.03.12):
https://openrouter.ai/x-ai/grok-4.20-beta - MindStudio AI — Grok 4.20 vs Claude Opus 4.6 Real-Time Search (2026.03):
https://www.mindstudio.ai/blog/grok-420-vs-claude-opus-46-real-time-search
본 포스팅 작성 이후 xAI 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 모든 요금 수치는 2026년 3월 30일 기준 xAI 공식 문서를 바탕으로 작성됐으며, 실제 청구 금액은 사용 조건에 따라 다를 수 있습니다. 투자·구매 판단에 본 글을 단독 근거로 사용하지 마세요.











댓글 남기기