2026.03.20 기준
Grok 4.20 Beta 0309 기준

Grok 4.20 멀티에이전트, 4개가 낫다고요?

환각은 줄었는데 토큰은 10배 씁니다. 공식 가격표에 없는 숫자들을 확인했습니다.

4명

병렬 에이전트

65%

환각 감소(공식)

333k

토큰/1문장(실측)

$2/$6

API 입/출력 /1M

Grok 4.20은 정말 새 모델일까요?

결론부터 말씀드리면, Grok 4.20은 완전히 새로운 모델이 아닙니다. 2026년 2월 17일 xAI가 공개한 Grok 4.20의 정체는 Grok 4.1 에이전트 4개를 묶은 시스템입니다. Reddit r/singularity에서 496개의 추천을 받은 게시물이 API 응답의 메타데이터를 직접 캡처해 확인했고, xAI 직원 Adam Sliwakowski도 “베타 릴리스에 플레이스홀더 모델 ID를 써야 했지만 내부적으로는 4.20을 사용한다”고 X에서 인정했습니다.

이게 왜 중요하냐면, 버전 번호가 암시하는 것과 실제 구조가 다르기 때문입니다. Grok 4.20은 기반 모델 자체를 새로 학습한 게 아니라, 기존 Grok 4.1을 4개 인스턴스로 병렬 실행하는 시스템 아키텍처 변경에 가깝습니다. 그래서 싱글 모델 대비 성능은 오르지만, 비용은 그 이상으로 오릅니다.

💡 공식 발표문(X 게시글)과 실제 API 응답 메타데이터를 같이 놓고 보니, 이 두 가지가 서로 다른 이야기를 하고 있었습니다. xAI는 Grok 4.20을 “새로운 모델”처럼 소개했지만, 실제 API 엔드포인트가 반환하는 model_id는 Grok 4.1 기반임을 그대로 보여줬습니다. (출처: Reddit r/singularity, 2026.02.17 / xAI 직원 Adam Sliwakowski X 게시글, 2026.02.17)

▲ 목차로 돌아가기

4명이 토론하는 구조, 실제로는 어떻게 돌아가나요

Grok 4.20의 핵심은 네 명의 전문가 에이전트가 동시에 답을 만들어낸다는 것입니다. 각 에이전트에는 이름까지 붙어 있습니다. Grok(조율자)는 질문을 분해하고 최종 답변을 정리합니다. Harper(리서처)는 웹과 X의 실시간 피드(하루 약 6,800만 영어 트윗)를 바탕으로 팩트를 검증합니다. Benjamin(논리학자)은 수학·코드·단계별 추론을 담당하며 다른 에이전트의 논리를 스트레스 테스트합니다. Lucas(크리에이터)는 대안 관점을 탐색하고 표현을 다듬습니다.

에이전트들은 답변을 출력하기 전 서로의 주장을 실시간으로 교차검증합니다. 이 구조 덕분에 한 에이전트가 틀린 내용을 확신 있게 말해도 다른 에이전트가 내보내기 전에 잡아냅니다. xAI가 초기 테스트에서 환각률이 65% 줄었다고 밝힌 배경이 여기 있습니다. (출처: eWeek, 2026.02.23)

Heavy 모드가 되면 에이전트가 16개로 늘어납니다

SuperGrok $30/월 구독자는 기본 4-에이전트 외에 “Heavy” 모드를 선택할 수 있습니다. 이 모드에서는 에이전트가 16개까지 늘어나 연구 수준의 작업을 처리합니다. 문제는 에이전트 수가 늘수록 소비하는 토큰도 선형 이상으로 증가한다는 점인데, 이 부분은 아래 비용 섹션에서 구체적인 수치로 다룹니다.

▲ 목차로 돌아가기

환각 65% 감소가 맞는 말인데, 여기서 돈이 빠져나갑니다

공식 발표의 65% 환각 감소는 실제로 확인된 수치입니다. 그런데 이 품질 향상의 대가가 생각보다 훨씬 큽니다. 2026년 3월 14일 Reddit r/openrouter에 올라온 실측 게시글을 보면, 사용자가 간단한 농담 하나를 던졌는데 입력 토큰이 333,000개 소모됐습니다. 에이전트들이 서로 교차검증하는 과정에서 컨텍스트가 폭발적으로 쌓인 겁니다.

r/SillyTavernAI에서도 비슷한 사례가 나옵니다. 사용자가 약 700토큰 길이의 응답을 받으려고 했는데, 에이전트들이 7,000토큰을 소비했습니다. 즉 출력 1토큰을 만들기 위해 내부적으로 10토큰을 태운 셈입니다. (출처: Reddit r/SillyTavernAI 사용자 Acceptable_Steak8780, 2026.03.14)

실측 수치로 본 토큰 낭비 구조

• 단순 질문 1건 → 입력 토큰 333,000개 소비 (출처: Reddit r/openrouter, 2026.03.14)

• 700토큰 응답 생성 시 내부 토큰 7,000개 소모 = 10배 과잉 소비 (출처: Reddit r/SillyTavernAI, 2026.03.14)

• API 요금 $2/1M 입력 기준, 333k 토큰 = 약 $0.67 / 단 1회 질문

$2/100만 토큰이 저렴하게 느껴지지만, 응답 1개에 333k 토큰이 들어가면 동일 질문 3번이면 $2가 사라집니다. 이 숫자의 의미는 단순히 비싸다는 게 아닙니다. 에이전트 간 내부 토론이 얼마나 길어질지 예측하기 어렵기 때문에, API 비용이 사전에 통제되지 않는다는 구조적 문제가 있습니다.

▲ 목차로 돌아가기

공식 가격표에 없는 비용이 있습니다

xAI 공식 가격표는 입력/출력 토큰 단가만 보여줍니다. 그런데 Grok 4.20 멀티에이전트를 사용할 때 반드시 알아야 할 서버사이드 툴 비용이 별도로 있습니다. 에이전트가 자율적으로 도구를 호출하기 때문에 이 비용은 예측하기 어렵습니다. (출처: mem0.ai Grok API 가격 분석, 2026.03.03 기준)

도구	설명	비용 / 1,000회
웹 검색	인터넷 검색·페이지 방문	$5.00
X 검색	X 게시글·프로필 검색	$5.00
코드 실행	샌드박스 Python 실행	$5.00
파일 첨부	첨부파일 내용 검색	$10.00
라이브 검색	Grok 4 전용 고품질 소스	$25 / 1,000 소스

실제로 웹 리서치 쿼리 1건에 검색 3~5회가 트리거된다면, 토큰 비용 외에 쿼리당 $0.015~$0.025가 추가됩니다. 에이전트 4개가 각각 웹 검색을 돌린다면 이 비용은 4배로 뻥튀기될 수 있습니다. API 스펙 어디에도 “에이전트당 검색 횟수”를 제한하는 명시적 파라미터는 없습니다(확인 필요 — 2026.03.20 기준 공식 문서에 미기재).

Grok 4.1 Fast와 비용 차이가 생각보다 큽니다

사용자 XCSme는 aibenchy.com 비교 데이터를 인용하며 “Grok 4.20은 Grok 4.1 Fast보다 약간 더 똑똑하지만 10배 비싸다“고 평가했습니다. (출처: Reddit r/SillyTavernAI, 2026.03.14) 공식 가격 기준으로도 Grok 4.1 Fast는 입력 $0.20, 출력 $0.50인 반면 Grok 4.20 멀티에이전트 API는 입력 $2.00, 출력 $6.00으로, 단가 자체가 입력 10배·출력 12배 차이입니다. (출처: inworld.ai, OpenRouter 공식 페이지, 2026.03.12)

▲ 목차로 돌아가기

SuperGrok $30 vs API 직접 사용, 어느 쪽이 덜 손해일까요

솔직히 말하면 쓰임새에 따라 완전히 다릅니다. 계산을 먼저 해보겠습니다.

💡 공식 가격과 실사용 토큰 수치를 교차해보니 이런 계산이 나왔습니다

시나리오 A — 일상 질문 중심 사용자 (하루 20회 질문)

• 평균 소비 토큰 추정: 질문당 입력 50k + 출력 1k (멀티에이전트 내부 토론 포함, 실측 기반 추정)

• 월 600회 × (50k입력 × $2/1M + 1k출력 × $6/1M) = 약 $63.6/월

→ API 사용 시 SuperGrok $30보다 2배 이상 비쌉니다.

시나리오 B — 간헐적 고품질 작업 사용자 (월 50회 이하)

• 월 50회 × (50k × $2/1M + 1k × $6/1M) ≈ 약 $5.3/월

→ API가 훨씬 저렴합니다. SuperGrok 구독이 손해입니다.

이 계산에서 중요한 단서가 있습니다. 토큰 소비는 질문 성격에 따라 수십 배씩 달라집니다. 농담 하나에 333k를 소모한 실측 사례처럼, 단순한 질문에도 에이전트가 과도하게 추론을 돌릴 수 있습니다. SuperGrok 구독($30/월)은 이 불확실성을 차단하는 정액제 안전망 역할을 합니다. API는 쓴 만큼만 내지만, 얼마나 쓸지 예측하기 어렵습니다.

SuperGrok Heavy $300/월은 이런 경우에만 의미 있습니다

Grok Business의 SuperGrok Heavy 티어(월 $300/인)는 Grok 4 Heavy + 16-에이전트 Heavy 모드를 제공합니다. 이건 매일 복잡한 다단계 추론 작업을 수행하는 팀이 아니라면 과잉 투자입니다. Claude Opus 4.6 API($5/$25/1M tokens)와 비교해도 이 티어가 가성비로 앞서는 구간을 명확히 설정하기 어렵습니다(확인 필요).

▲ 목차로 돌아가기

경쟁 모델과 실제로 얼마나 차이가 나나요

Grok 4.20 Beta 0309가 Artificial Analysis Intelligence Index에서 48점을 기록했습니다. 추론 모드를 활성화했을 때 이 전체 벤치마크를 돌리는 데 $484가 들었고, 이는 Grok 4 대비 약 70% 비용 절감된 수치입니다. (출처: Artificial Analysis @ArtificialAnlys X 게시글, 2026.03.12)

모델	입력 /1M	출력 /1M	컨텍스트
Grok 4.20 Multi-Agent	$2.00	$6.00	2M
Grok 4.1 Fast	$0.20	$0.50	2M
OpenAI GPT-5.2	$1.75	$14.00	400K
Claude Sonnet 4.6	$3.00	$15.00	200K
Google Gemini 3.1 Pro	$2.00	$12.00	1M

(출처: mem0.ai Grok API Pricing, 2026.03.03 기준 / 모델 가격은 자주 변경되므로 공식 문서 재확인 필요)

표면 단가만 보면 Grok 4.20 멀티에이전트($2 입력)는 GPT-5.2($1.75 입력)와 비슷합니다. 그러나 실제 소비 토큰 수까지 감안하면 이야기가 달라집니다. 멀티에이전트 내부 토론이 누적되는 구조상, 단순 질문 하나에도 GPT-5.2의 10배 이상 토큰이 들어갈 수 있습니다. 이 부분이 가격표만 보고 선택할 때 걸리는 지점입니다.

💡 Grok 4.20이 Alpha Arena 주식 트레이딩 대회에서 유일하게 수익을 낸 AI였다는 공식 발표가 있습니다. $10k를 최대 $13.5k까지 불렸고, 4위 안에 Grok 4.20 변형이 4개나 들어갔습니다. 이 성과는 X 플랫폼 실시간 데이터와 4-에이전트 교차검증이 맞물린 특정 도메인에서의 강점을 보여줍니다. 하지만 이 조건이 일반 업무에도 동일하게 적용된다는 공식 근거는 아직 없습니다. (출처: eWeek, 2026.02.23)

▲ 목차로 돌아가기

자주 묻는 질문

Q. Grok 4.20은 무료로 쓸 수 있나요?

grok.x.ai 무료 계정에서도 Grok 4.20 Beta에 접근할 수 있습니다. 다만 응답 속도가 느리고 사용 횟수에 제한이 있습니다. 멀티에이전트 Heavy 모드(16 에이전트)는 SuperGrok $30/월 구독자 전용입니다. API 사용은 별도 요금이 청구되며 무료 티어는 없습니다. (출처: eWeek, 2026.02.23 / help.apiyi.com, 2026.02.17)

Q. Grok 4.20 API 요금이 정확히 얼마인가요?

2026년 3월 기준 OpenRouter 및 공식 API를 통한 요금은 입력 $2.00/1M 토큰, 출력 $6.00/1M 토큰입니다. 웹 검색·X 검색·코드 실행 같은 서버사이드 툴은 각각 $5/1,000회가 별도로 청구됩니다. 요금은 자주 바뀌므로 사용 전 docs.x.ai에서 반드시 재확인하세요. (출처: inworld.ai, OpenRouter, 2026.03.12)

Q. “Grok 4.20은 그냥 Grok 4.1 4개”라는 말이 맞나요?

xAI 직원 Adam Sliwakowski가 X에서 직접 “내부적으로 Grok 4.20을 사용한다”고 확인했습니다. 하지만 단순히 4.1 복사본 4개를 붙인 게 아니라, 멀티에이전트 협업을 위한 별도 훈련이 이뤄졌다고 xAI는 밝히고 있습니다. 성능이 4.1보다 높은 것은 사실이지만, 완전히 새로운 기반 모델은 아닙니다. (출처: Reddit r/singularity 게시글 원문 + xAI 직원 확인, 2026.02.17)

Q. 코딩·리서치 업무에 Grok 4.20이 실제로 도움이 되나요?

사용자 경험은 업무 특성에 따라 크게 갈립니다. Electron 앱의 복잡한 버그를 9초 만에 잡아냈다는 긍정적 후기가 있는 반면, 창작이나 단순 대화에서는 에이전트들이 과도하게 문맥을 분석해 응답이 로봇 같다는 부정적 의견도 나옵니다. 복잡한 코딩·팩트 검증 작업엔 유효하지만, 가벼운 업무엔 Grok 4.1 Fast가 비용 대비 낫습니다.

Q. 토큰 비용 폭탄을 막을 방법이 있나요?

세 가지 방법이 효과적입니다. ① console.x.ai에서 일일·월별 지출 한도를 먼저 설정하세요. ② 복잡한 작업이 아니면 Grok 4.1 Fast($0.20/$0.50)를 기본으로 쓰고, 멀티에이전트는 선택적으로 전환하세요. ③ “내 학습 데이터에서만 답하고, 명시적 요청 시에만 웹 검색하라”는 지시를 프롬프트에 넣으면 $5짜리 웹 검색 호출을 줄일 수 있습니다. 자동 프롬프트 캐싱도 활성화 상태인지 확인하세요(Grok 4 캐시 단가: $0.75/1M). (출처: mem0.ai, 2026.03.03)

▲ 목차로 돌아가기

마치며

Grok 4.20 멀티에이전트는 아키텍처 면에서 분명히 흥미로운 시도입니다. 4명이 토론해서 답을 내는 구조는 환각을 줄이는 데 실제로 효과가 있고, 주식 트레이딩 같은 실시간 팩트 의존 도메인에서 경쟁 우위도 확인됐습니다.

그런데 막상 쓸 때 걸리는 지점은 성능이 아니라 비용 예측 불가능성입니다. 단순 질문에 333k 토큰이 들어갈 수도 있다는 것, 그리고 서버사이드 툴 비용이 토큰 요금 위에 얹힌다는 것을 모르고 API 지출 한도 없이 쓰면 고통스러운 청구서를 받을 수 있습니다.

개인 의견을 말씀드리면, 지금 단계의 Grok 4.20은 일상 업무보다 특정 도메인 집중 사용에 더 잘 맞습니다. 코드 디버깅·팩트 집약적 리서치·금융 데이터 분석처럼 에이전트들의 교차검증이 실제 가치를 내는 작업이라면 충분히 고려할 만합니다. 일반 채팅이나 창작 작업이라면 Grok 4.1 Fast로도 충분하고 훨씬 저렴합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. xAI Grok의 요금, 모델 스펙, 사용 한도는 사전 공지 없이 변경될 수 있으므로 도입 전 반드시 공식 문서(docs.x.ai)에서 최신 정보를 확인하세요. 본 포스팅의 수치는 2026.03.20 기준으로 수집한 공개 자료를 바탕으로 작성됐습니다.

Grok 4.20 멀티에이전트, 4개가 낫다고요?

Grok 4.20 멀티에이전트, 4개가 낫다고요?

Grok 4.20은 정말 새 모델일까요?