Grok 4.20, 4에이전트인데 비용이 5배 나옵니다

Published on

2026년 3월 20일

2026.02.17 베타 출시 기준
공식 문서 직접 확인
IT/AI

Grok 4.20, 4에이전트인데
비용이 5배 나옵니다

결론부터 말씀드리면, Grok 4.20의 멀티에이전트 구조는 실제로 작동합니다. 환각률이 약 65% 줄었고, 2백만 토큰 컨텍스트도 공식 문서로 확인됩니다. 그런데 공식 개발자 문서를 직접 열어보면 이야기가 달라지는 부분이 있습니다. 서브에이전트가 쓴 토큰까지 전부 과금되고, max_tokens는 아예 지원이 안 됩니다. 이 두 가지가 실사용에서 어떤 의미인지 수치로 짚어봤습니다.

~4.2%

환각률 (기존 ~12%)

최대 컨텍스트 토큰

$30/$300

SuperGrok / Heavy 월정액

4 / 16

에이전트 수 (표준/Heavy)

4개 에이전트가 진짜로 따로 생각하는 건 맞습니다

Grok 4.20이 처음 공개됐을 때 “그냥 Grok 4.1 네 개 아니야?”라는 말이 Reddit r/singularity에 빠르게 퍼졌습니다. 틀린 말은 아닌데, 정확한 말도 아닙니다. xAI 공식 개발자 문서(docs.x.ai)를 보면, 4개 에이전트는 같은 쿼리에 대해 실제로 각자 독립된 추론을 수행하고 리더 에이전트(Grok/Captain)가 합성해 답변을 냅니다. 구조가 단순히 모델을 복사한 게 아니라 역할이 다릅니다.

Harper는 실시간 웹 검색과 X 파이어호스 데이터를 담당하는 리서치 에이전트입니다. Benjamin은 수학·코드·논리 검증을 맡고, Lucas는 다른 각도에서 가정에 반기를 들거나 창의적 대안을 제시하는 역할입니다. 단순히 같은 답을 네 번 내는 게 아니라 Harper가 찾은 정보를 Benjamin이 수치 검증하고, Lucas가 그 전제를 흔들어보는 방식으로 실제로 충돌이 일어납니다.

💡 공식 발표문과 실제 API 작동 흐름을 같이 놓고 보니, “에이전트가 내부 토론을 완료한 후에야 사용자에게 응답이 전달된다”는 구조가 눈에 들어왔습니다. 이건 단순한 프롬프트 앙상블이 아닌, 런타임에서 실제 병렬 추론이 발생한다는 의미입니다.

공식 문서에 따르면, 리더 에이전트의 출력(도구 호출 및 최종 응답)만 기본으로 반환되고, 서브에이전트들의 중간 추론·도구 호출은 암호화되어 저장됩니다. use_encrypted_content=True를 설정해야만 멀티턴 대화를 위한 전체 컨텍스트를 보존할 수 있습니다. (출처: xAI 공식 Multi-Agent 개발자 문서, 2026.03.20 기준)

▲ 목차로 돌아가기

환각률 65% 감소, 이 수치의 실제 조건

Grok 4.20에서 가장 많이 인용되는 수치가 “환각률을 기존 약 12%에서 4.2%로 낮췄다”는 겁니다. 이 수치가 어떤 조건에서 측정된 것인지가 중요합니다. 에이전트 구조상 Harper가 수집한 정보를 Benjamin이 검증하고, Lucas가 가정을 흔들어보는 단계를 거치기 때문에 최소 세 번의 교차 검증이 일어납니다. 단일 모델 추론에서는 이 과정이 없습니다.

그런데 이 구조에는 단일 모델에는 없는 다른 실패 경로가 생깁니다. 리더 에이전트(Grok/Captain)가 세 에이전트의 출력 중 어느 것을 신뢰할지 잘못 판단하면, 오류가 합성 레이어를 통과해버립니다. 내부 토론에서 Lucas가 반론을 냈는데 Captain이 Harper의 오정보를 채택하는 경우가 이에 해당합니다. 단일 모델 구조에는 이런 ‘조율 오류’ 경로가 없습니다.

💡 수학자 Paata Ivanisvili가 Grok 4.20 내부 베타를 사용해 Bellman 함수와 관련된 새로운 수학적 발견을 이뤄냈다는 사례(출처: adwaitx.com, 2026.02.18)가 Benjamin 에이전트의 실제 활용 가능성을 보여주는 구체적 사례로 인용됩니다. 다만 이 사례는 수학·논리 검증에 특화된 작업이었고, 일상적인 사용 시나리오와는 다릅니다.

Alpha Arena 실물 트레이딩 대회에서 Grok 4.20이 평균 12.11% 수익률로 유일하게 흑자를 낸 결과(출처: adwaitx.com)도 Harper의 X 파이어호스 실시간 데이터 접근이 핵심이었다고 분석됩니다. 이 수치는 대회 특정 조건에서의 결과이므로, 일반 투자나 정보 검색에 같은 성과를 기대하기엔 무리가 있습니다.

▲ 목차로 돌아가기

서브에이전트 토큰도 전부 청구됩니다

이 부분이 공식 문서에 명시돼 있는데 기존 한국어 포스팅에서 거의 다뤄지지 않은 내용입니다. xAI 공식 Multi-Agent 문서의 Pricing 섹션에는 이렇게 적혀 있습니다: “All tokens consumed by both the leader agent and sub-agents are billed, including input tokens, output tokens, and reasoning tokens.” 리더 에이전트뿐 아니라 서브에이전트 3개가 소비하는 입력·출력·추론 토큰 전부가 과금됩니다. (출처: xAI 공식 개발자 문서, docs.x.ai/developers/model-capabilities/text/multi-agent)

이게 실제 사용에서 어떤 의미인지 직접 계산해보겠습니다. OpenRouter 기준 Grok 4.20 Multi-Agent Beta의 입력 토큰 가격은 100만 토큰당 $2입니다. 간단한 질문 하나에 단일 모델이 1,000 입력 토큰을 쓴다고 가정하면, 4에이전트 시스템에서는 동일 쿼리를 4개 에이전트가 각자 처리하므로 이론적으로 최소 4,000 토큰이 소비됩니다. 여기에 에이전트 간 내부 토론과 추론 토큰이 더해지면 실제 소비량은 단일 모델 대비 3~5배 이상이 됩니다. (출처: OpenRouter 가격표, openrouter.ai, 2026.03.20 기준)

구분	입력 토큰 소비 (추정)	단일 모델 대비	비고
단일 모델 (Grok 4.1)	1,000 토큰	기준	단순 Q&A
Grok 4.20 (4 에이전트)	약 3,000~5,000 토큰	3~5배	추론 토큰 포함 추정
Grok 4.20 Heavy (16 에이전트)	약 12,000~20,000 토큰	12~20배	공식 문서 “significantly more tokens” 명시

※ 위 수치는 공식 문서 기술 구조 기반 추정치입니다. 실제 소비량은 쿼리 복잡도·도구 호출 횟수에 따라 다릅니다. (출처 구조 근거: xAI 공식 Multi-Agent 문서)

서버 측 도구 호출(웹 검색, X 검색, 코드 실행 등)도 에이전트 각각이 독립적으로 호출할 수 있어 도구 호출 비용도 중복으로 발생합니다. 단순한 질문에 4에이전트 모드를 켜두는 건 비용 측면에서 손해입니다. xAI가 공식 문서에서 “4에이전트는 집중된 쿼리에, 16에이전트는 복잡한 다면 분석에 사용하라”고 구분한 이유가 여기 있습니다.

▲ 목차로 돌아가기

max_tokens가 없다는 게 왜 문제인가

xAI 공식 Multi-Agent 문서 Limitations 섹션에는 이런 문장이 있습니다: “The max_tokens parameter is not currently supported by the multi-agent model variant.” 단일 모델이라면 응답 길이를 제어할 수 있지만, 멀티에이전트 모드에서는 이 파라미터가 통하지 않습니다. (출처: xAI 공식 Multi-Agent 개발자 문서)

이게 실제로 의미하는 건, 에이전트들이 얼마나 길게 추론하고 얼마나 많은 도구를 호출할지를 개발자가 제어할 수 없다는 겁니다. API를 통해 비용 상한을 간접적으로 걸 수 없으니, 복잡한 쿼리를 던지면 예상치 못한 수준의 토큰이 소비될 수 있습니다. Chat Completions API도 지원하지 않고 xAI SDK나 Responses API만 지원된다는 제약도 있습니다.

💡 공식 제약 사항 목록을 펼쳐보면, 클라이언트 측 커스텀 도구(function calling)도 지원되지 않습니다. 현재는 xAI가 제공하는 내장 도구(web_search, x_search, code_execution 등)와 원격 MCP 도구만 쓸 수 있습니다. 기존에 OpenAI 호환 도구를 함수 정의로 넘기는 방식으로 개발해 왔다면, 멀티에이전트 모드에서는 그 코드가 그대로 작동하지 않습니다.

Reddit r/SillyTavernAI에서 실사용자들도 같은 경험을 공유했습니다: “에이전트들이 대부분 과도하게 생각해서(overthink) 토큰 비용이 엄청나게 쌓여. 700토큰짜리 응답을 기대했는데 실제로 훨씬 더 많이 나왔어.” (출처: Reddit r/SillyTavernAI, 2026.03.14) 이건 max_tokens 미지원과 직결된 실사용 문제입니다.

▲ 목차로 돌아가기

Heavy 모드($300)는 어떤 경우에만 쓸 만한가

SuperGrok Heavy는 월 $300에 16에이전트 모드를 제공합니다. 공식 문서는 “16에이전트 설정은 4에이전트보다 토큰 사용량이 ‘크게 더 많다(significantly more)’고 명시하며, 복잡한 다면 연구가 필요할 때 사용하라”고 안내합니다. 4에이전트 대비 이미 비용이 3~5배 수준인데, 16에이전트는 그보다 또 수배가 될 수 있습니다. (출처: xAI 공식 Multi-Agent 개발자 문서)

Grok 4 Heavy($300/월)를 직접 써본 Reddit r/grok의 실사용자 리뷰에 따르면, “일일 쿼리 수에 한도가 있고 대기 시간이 길다”는 점이 공통적으로 언급됩니다. Medium GenAI Nexus의 분석에서도 “99%의 잠재 사용자에게는 과도하다(overkill)”라고 평가했습니다. (출처: Medium GenAI Nexus, 2025.10.10) $300이 정당한 경우는 대규모 학술 연구, 다영역 교차 분석, 투자 리서치처럼 결과물 하나의 가치가 비용을 넘어설 때로 좁혀집니다.

구분	에이전트 수	가격	적합한 작업
Fast (Grok 4.1)	단일	무료(한도)	일상 채팅, 간단 Q&A (쿼리의 80%)
Grok 4.20 Beta	4	$30/월	복잡 리서치, 다영역 코딩, 전략 분석
Grok 4.20 Heavy	16	$300/월	학술 연구, 극도 복잡 다면 문제 (소수 특수 용도)

xAI 자체도 공식 문서에서 “복잡한 연구나 다면 분석이 필요할 때 16에이전트를 쓰라”고 명시하며 모든 쿼리에 Heavy를 쓰는 걸 권장하지 않습니다. 단순 질문에 $300 플랜을 쓰면 과비용 지출이 그대로 발생합니다.

▲ 목차로 돌아가기

X Firehose 연동, 경쟁사와 실제로 다른 점

Harper 에이전트의 X 파이어호스 접근이 의미 있는 이유는 수치로 확인할 수 있습니다. X 파이어호스는 하루 약 6,800만 건의 영어 게시물을 실시간으로 처리합니다. GPT-5, Claude Opus 4.5, Gemini 3 Pro는 이 데이터 스트림에 대한 동등한 접근 권한이 없습니다. (출처: adwaitx.com 에이전트 분석, 2026.02.18) 주식 시황, 속보, 실시간 트렌드처럼 실시간성이 핵심인 쿼리에서는 이 차이가 실제로 체감됩니다.

막상 써보면 이 장점이 빛나는 상황은 명확히 제한적입니다. 과거 정보 기반 분석, 코드 작성, 수학 문제 등에서는 X 파이어호스 연동이 큰 의미가 없습니다. 실시간 정보가 필요하지 않은 작업에서는 Grok 4.20의 X 파이어호스 강점이 사실상 유효하지 않습니다. 이 부분이 “Grok 4.20이 모든 면에서 경쟁사를 앞선다”는 표현이 틀린 이유입니다.

💡 Elon Musk가 2026년 3월 18일 X에서 “매주 주요 업그레이드가 계속 나온다”고 직접 밝힌 대로(출처: @elonmusk, X 2026.03.18), Grok 4.20은 현재 베타 상태입니다. 공식 벤치마크도 아직 미공개이고, API 공개도 예정만 있습니다. 지금 확인할 수 있는 건 공식 문서에 적힌 기술 스펙과 실사용 데이터뿐입니다.

2026년 2월 17일 베타 출시 후 3월 3일 Beta 2가 나왔습니다. Beta 2에서는 ‘기능 환각(capability hallucination)’, 즉 모델이 자신이 할 수 없는 일을 할 수 있다고 잘못 주장하거나 반대로 할 수 있는 걸 못 한다고 하는 문제가 타깃으로 수정됐습니다. (출처: basenor.com, 2026.03.19 기준 업데이트) 베타 종료 시점이 3월 말로 예상되며, 그때 공식 벤치마크가 나올 것으로 보입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Grok 4.20을 무료로 쓸 수 있나요?

grok.com에서 사용 한도 내 무료 접근이 가능합니다. 한도 없이 쓰려면 SuperGrok($30/월)가 필요하고, 16에이전트 Heavy 모드는 SuperGrok Heavy($300/월)에서만 됩니다. API 공개는 아직 예정 단계입니다. (출처: basenor.com, 2026.03.20 기준)

4에이전트와 16에이전트(Heavy)의 결과물 품질 차이가 큰가요?

공식 문서는 4에이전트를 “집중 쿼리와 빠른 리서치”, 16에이전트를 “깊은 리서치와 복잡한 다면 주제”로 구분합니다. 단순 질문에서는 품질 차이가 유의미하지 않을 가능성이 높고, 비용은 크게 더 나갈 수 있습니다. 공식 비교 벤치마크는 아직 미공개입니다. (출처: xAI 공식 Multi-Agent 문서)

기존 OpenAI SDK로 Grok 4.20 멀티에이전트를 쓸 수 있나요?

안 됩니다. 공식 문서에 “Chat Completions API는 멀티에이전트 모델 변형에서 지원되지 않는다”고 명시돼 있습니다. xAI SDK 또는 Responses API만 사용 가능합니다. OpenAI 호환 함수 정의 방식의 커스텀 도구도 현재 미지원입니다. (출처: xAI 공식 Multi-Agent 개발자 문서)

에이전트 내부 토론 과정을 볼 수 있나요?

기본 설정에서는 리더 에이전트의 최종 출력과 도구 호출 결과만 반환됩니다. 서브에이전트의 중간 추론은 암호화됩니다. use_encrypted_content=True를 설정하면 멀티턴 대화에 필요한 전체 컨텍스트 보존이 가능하지만, 사람이 직접 읽을 수 있는 형태는 아닙니다. (출처: xAI 공식 Multi-Agent 문서)

Grok 4.20 베타가 언제 정식 출시되나요?

2026년 3월 말 베타 종료와 함께 공식 벤치마크 공개가 예정돼 있다고 복수의 소스에서 전해지지만, xAI가 공식 날짜를 확정 발표한 건 없습니다. Musk는 3월 18일 기준으로 매주 주요 업그레이드가 계속 진행 중이라고 밝혔습니다. (출처: @elonmusk, X 2026.03.18; basenor.com 2026.03.19 업데이트)

▲ 목차로 돌아가기

마치며 — 구조는 맞습니다, 하지만 조건이 붙습니다

Grok 4.20의 멀티에이전트 구조는 실제로 작동합니다. 환각률 감소 수치도 공식 문서와 독립 검증 자료로 뒷받침됩니다. X 파이어호스 실시간 데이터 연동도 경쟁사가 복제하기 쉽지 않은 실제 차별점입니다. 이 부분은 인정해야 합니다.

하지만 공식 문서를 직접 확인하면 명확한 제약이 있습니다. 서브에이전트 토큰 전부 과금, max_tokens 미지원, Chat Completions API 미호환, 커스텀 도구 미지원. 이 네 가지는 단순한 불편함이 아니라 사용 시나리오와 비용을 근본적으로 바꾸는 조건들입니다. 복잡한 리서치·다영역 분석 작업에는 실제로 도움이 되지만, 단순 질문을 4에이전트로 처리하는 건 비용 낭비입니다.

xAI도 공식 문서에서 “80%의 일상 쿼리는 Fast 모드로 충분하다”는 취지를 담았습니다. 어떤 작업에 어떤 모드를 쓸지 구분하는 게 Grok 4.20을 제대로 쓰는 핵심입니다. 베타 기간이 아직 진행 중이고 주요 업데이트가 매주 들어오고 있으니, 공식 벤치마크 발표 이후 수치를 한 번 더 확인할 것을 권합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅은 2026년 3월 20일 기준으로 작성되었습니다. Grok 4.20은 현재 베타 상태이며, xAI가 매주 업데이트를 진행하고 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 본문 내 수치와 기능 설명은 공개된 공식 문서 및 신뢰할 수 있는 출처를 기반으로 하였으나, 베타 기간 중 사양이 달라질 수 있으므로 중요한 결정 전에 공식 문서를 직접 확인하시기 바랍니다.

AI비용절감, 멀티에이전트AI, Grok4.20, SuperGrok, xAI

Grok 4.20, 4에이전트인데 비용이 5배 나옵니다

Grok 4.20, 4에이전트인데
비용이 5배 나옵니다

4개 에이전트가 진짜로 따로 생각하는 건 맞습니다

환각률 65% 감소, 이 수치의 실제 조건

서브에이전트 토큰도 전부 청구됩니다

max_tokens가 없다는 게 왜 문제인가

Heavy 모드($300)는 어떤 경우에만 쓸 만한가

X Firehose 연동, 경쟁사와 실제로 다른 점

자주 묻는 것들

마치며 — 구조는 맞습니다, 하지만 조건이 붙습니다

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Grok 4.20, 4에이전트인데 비용이 5배 나옵니다

Grok 4.20, 4에이전트인데비용이 5배 나옵니다

4개 에이전트가 진짜로 따로 생각하는 건 맞습니다

환각률 65% 감소, 이 수치의 실제 조건

서브에이전트 토큰도 전부 청구됩니다

max_tokens가 없다는 게 왜 문제인가

Heavy 모드($300)는 어떤 경우에만 쓸 만한가

X Firehose 연동, 경쟁사와 실제로 다른 점

자주 묻는 것들

마치며 — 구조는 맞습니다, 하지만 조건이 붙습니다

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Grok 4.20, 4에이전트인데
비용이 5배 나옵니다