2026.03.18 기준
Grok 4.20 Beta 2 기준
IT / AI

Grok 4.20, $30이면 무제한이라더니 8번 만에 끊깁니다

2026년 2월 17일 퍼블릭 베타로 공개된 Grok 4.20 — 빠른 학습 구조, 4-에이전트 협업, 256K 컨텍스트까지 내세웠습니다. 써보면 달라집니다.

8회

무료 계정 메시지 한도(체감)

$30/월

SuperGrok 구독료

4,000자

Custom Instructions 한도(기존 12,000자)

75%

SWE-bench 코딩 점수

Grok 4.20이 뭔지부터 — 출시 타임라인

결론부터 말씀드리면, Grok 4.20은 버전 번호 자체가 일론 머스크의 농담입니다. “4.20”은 인터넷 밈 숫자를 의도한 이름이고, xAI 내부에서도 이를 인정합니다. 정식 명칭은 Grok 4.2이지만 회사가 공식적으로 “Grok 4.20″이라 쓰고 있습니다. 2026년 2월 17일 퍼블릭 베타로 공개됐고, 3월 3일에 Beta 2가 나왔습니다. (출처: adwaitx.com, 2026.02.18)

xAI의 2025~2026 릴리즈 흐름을 정리하면 이렇습니다:

버전	출시일	핵심 변화	상태
Grok 4	2025.07.09	실시간 검색, 200K GPU RL 학습	정식
Grok 4 Heavy	2025.07.09	멀티에이전트 조정, 최고 벤치마크	정식
Grok 4.1	2025.11.17	감성 지능 업그레이드	정식
Grok 4.20 Beta	2026.02.17	Rapid Learning, 4-에이전트	퍼블릭 베타
Grok 4.20 Beta 2	2026.03.03	환각 감소, LaTeX 지원	퍼블릭 베타 2

이 모델에 관심이 쏠리는 이유 중 하나는 구조 자체가 기존 AI와 다르다는 점입니다. 배포 이후에 모델이 바뀌는 구조는 Grok 4.20이 처음입니다. 머스크는 X(구 트위터)를 통해 “4.2는 빠르게 학습하기 때문에 매주 개선될 것이고, 릴리즈 노트도 함께 공개할 것”이라고 밝혔습니다. (출처: @elonmusk, X, 2026.02.17)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 — “매주 좋아지는 모델”이라는 표현이 사실이라면, 지금 쓰는 Grok 4.20과 한 달 뒤의 Grok 4.20은 엄밀히 다른 모델입니다. 이 구조는 장점처럼 보이지만, 같은 질문에 대한 응답이 날짜마다 달라지는 불안정성을 의미하기도 합니다.

▲ 목차로 돌아가기

4-에이전트가 매력적으로 들리는 이유, 그리고 숨겨진 비용

Grok 4.20의 가장 눈에 띄는 기능은 “4-에이전트 협업 시스템”입니다. 하나의 쿼리를 Grok, Harper, Benjamin, Lucas라는 4개의 전문화된 에이전트가 동시에 처리한 후, 각자의 결론을 교차 검증해서 하나의 답변을 냅니다. (출처: basenor.com, 2026.03.08) 이 구조가 “동료 검토(peer review)가 모델 안에 내장된 것과 같다”는 표현으로 소개됩니다. 복잡한 코딩이나 과학적 추론 작업에서 단일 모델 대비 정확도가 올라간다는 건 맞습니다.

📌 여기서 돈이 더 나갑니다

4개의 에이전트가 병렬로 생각한 뒤 답변을 합성하는 구조는, 응답 1회에 소모되는 토큰이 단일 모델 대비 기하급수적으로 늘어납니다. Reddit r/SillyTavernAI 커뮤니티에서는 “에이전트들이 짧은 질문 하나에 ~7,000 토큰을 소모했다”는 실측 사례가 보고됐습니다. (출처: Reddit r/SillyTavernAI, 2026.03.14) 이 수치가 의미하는 건 — API 요금으로 치면 동일한 쿼리를 단일 모델에 보냈을 때보다 4배 내외의 비용이 발생할 수 있다는 것입니다.

무료 계정에서는 이 구조 때문에 메시지 한도가 훨씬 빠르게 찹니다. SuperGrok 사용자 리뷰에 따르면 Grok 4.1 시절에는 한도에 걸리지 않던 대화 길이에서 4.20은 8회 내외로 끊기는 사례가 실제로 보고되고 있습니다. (출처: Reddit r/grok, 2026.02.20) 무제한이라는 홍보 문구와 다른 체감 경험이 나오는 이유가 여기 있습니다.

에이전트들이 생각하는 과정이 처음에는 사용자에게 보였다가 Beta 2 이후 숨겨진 것도 같은 맥락입니다. 다만 에이전트 이름이 “Agent 1/2/3/4″로 바뀐 채 일부 구조는 유지됩니다.

▲ 목차로 돌아가기

$30 SuperGrok에서 실제로 막히는 지점

Grok 4.20 Beta는 grok.com에서 무료로 쓸 수 있습니다. 단, 기본값으로 열리지 않습니다. 모델 메뉴에서 “Grok 4.2″를 직접 골라야 합니다. 이 점을 놓쳐서 여전히 구버전을 쓰는 경우가 많습니다.

요금 구조는 다음과 같습니다:

플랜	월 비용	실제 조건
무료	$0	2시간당 10개 메시지, 이미지 생성 불가
SuperGrok	$30/월	“무제한” — 실제론 한도 있음(불명확)
X Premium+	$22/월(X 번들)	X 구독 포함 Grok 이용
SuperGrok Heavy	$300/월	기업·연구용, Grok 4 Heavy 수준 컴퓨팅

SuperGrok에서 실제로 막히는 첫 번째 지점은 이미지 생성입니다. xAI는 2026년 1월 이미지 생성에 제한을 걸었습니다. 성적 딥페이크 생성 악용 사례 이후 로이터가 보도한 내용에 따르면, X 프리미엄 이상 유저에게만 이미지 생성이 가능하도록 바뀌었습니다. 무료 계정에서 이미지를 요청하면 생성이 거절됩니다. (출처: Reuters, 2026.01.09)

⚠️ SuperGrok $30 플랜의 실제 무제한 범위는 공식적으로 공개되지 않습니다. “무제한”이라는 표현에도 불구하고 Reddit 사용자들 사이에서는 “슈퍼그록에서도 메시지 한도를 체감한다”는 보고가 계속 나오고 있습니다. (출처: Reddit r/grok, 2026.02.20) — xAI의 공식 고지가 없는 부분은 “확인 필요”입니다.

두 번째로 막히는 지점은 API입니다. Grok 4.20의 API 접근은 2026년 3월 현재 “얼리 액세스 / 곧 제공 예정” 상태입니다. (출처: adwaitx.com, 2026.02.18) 개발자라면 지금 당장 프로덕션에 쓸 수 없다는 의미입니다. docs.x.ai에서 업데이트를 확인해야 합니다.

▲ 목차로 돌아가기

벤치마크 1위인데 왜 개발자들은 Claude를 씁니까

Grok 4 Heavy는 2025년 기준 수학·과학 벤치마크에서 경쟁 모델을 앞섰습니다. HMMT25(수학 올림피아드) 96.7%, AIME 2025 100%, GPQA(대학원 수준 과학) 88.4~88.9%. (출처: xAI 공식 벤치마크 데이터, adwaitx.com 인용, 2025.07) 이 수치만 보면 경쟁이 끝난 것처럼 보입니다.

💡 벤치마크 수치와 개발자 실사용 선호도가 다른 이유를 수치로 보면 이렇습니다.

2026년 2월 기준 4개 주요 모델의 실전 코딩 벤치마크(SWE-bench)를 비교하면 Grok 4가 75%로 1위이긴 합니다. 그런데 GPT-5.4(74.9%), Claude Opus 4.6(74%+)와의 차이는 0.1~1%p 수준입니다. 반면 과학 추론(GPQA Diamond)에서는 Gemini 3.1 Pro가 94.3%로 앞서고, 추상 추론(ARC-AGI-2)도 Gemini 77.1%, GPT-5.4 73.3% 순입니다. (출처: gurusup.com, 2026.03.14)

지표	Grok 4	GPT-5.4	Claude 4.6	Gemini 3.1 Pro
SWE-bench(코딩)	75%	74.9%	74%+	63.8%
GPQA Diamond(과학)	~88%	92.8%	91.3%	94.3%
ARC-AGI-2	—	73.3%	—	77.1%
API 입력 요금($/1M)	$2	$2.50	$15	$2

개발자들이 Claude를 택하는 이유는 SWE-bench 1% 차이보다 생태계 때문입니다. Claude는 개발자들이 실제로 쓰는 VS Code, Cursor, GitHub Copilot 등과의 연동이 구현되어 있습니다. Grok 4.20의 API가 아직 “얼리 액세스” 상태라는 점, 그리고 X 플랫폼과의 긴밀한 연결이 오히려 한국 개발자에게는 장벽이 되는 구조입니다. (출처: gurusup.com, 2026.03.14)

반면 Grok이 명확하게 앞서는 영역은 하나입니다 — 실시간 정보 검색입니다. X(트위터) 통합으로 인해 지금 이 순간 트위터에서 일어나는 일을 다른 어떤 모델도 따라갈 수 없는 수준으로 즉시 가져옵니다. 실시간 이벤트 분석이 필요한 경우라면 Grok이 유일한 선택지에 가깝습니다.

▲ 목차로 돌아가기

Custom Instructions가 12,000자에서 4,000자로 줄어든 것의 의미

💡 기능 확장처럼 보이는 업데이트가 실제로는 기존 기능을 축소한 경우입니다 — 이 흐름을 눈치채기가 쉽지 않습니다.

Grok 4.20은 Custom Instructions(사용자 맞춤 지침) 기능을 “에이전트 커스터마이징”으로 개편했습니다. 4개의 에이전트 각각에 다른 성격·역할을 지정할 수 있다는 점에서 확장된 것처럼 보입니다. 그런데 캐릭터 한도가 기존 12,000자에서 4,000자로 줄어들었습니다. (출처: basenor.com, 2026.03.08; Reddit r/grok 확인)

4개의 에이전트에 각각 4,000자를 쓸 수 있으니 총 16,000자라고 볼 수도 있습니다. 하지만 기존에 하나의 컨텍스트로 12,000자짜리 상세한 페르소나·업무 지침·제약 조건을 모두 담아 쓰던 헤비 유저들에게는 실질적인 제한입니다. 하나의 에이전트가 담당하는 역할을 4,000자 안에 다 넣어야 하기 때문입니다.

xAI의 공식 설명은 “에이전트 정의를 간결하고 정밀하게 유지하기 위한 조치”입니다. (출처: basenor.com, 2026.03.08) 실제로 너무 긴 지침은 에이전트 간 충돌을 유발한다는 내부 판단이 반영된 것으로 보입니다. 그러나 이 변경 사항은 베타 릴리즈 노트에 작게 적혀 있을 뿐 공식 공지문을 통해 별도로 안내되지는 않았습니다.

Reddit r/grok 커뮤니티에서 이 변경 사항을 가장 먼저 정리한 스레드는 2026년 3월 11일에 등록됐습니다. 공식 문서보다 커뮤니티가 먼저 파악한 셈입니다. (출처: Reddit r/grok “Things Grok changed”, 2026.03.11)

▲ 목차로 돌아가기

Rapid Learning Architecture — 매주 좋아진다는 게 사실일까

Grok 4.20의 가장 큰 구조적 차별점은 배포 후에도 모델이 계속 학습한다는 “Rapid Learning Architecture”입니다. 기존 모델은 배포 시점이 곧 학습 종료 시점이었습니다. Grok 4.20은 실사용 피드백을 주 단위로 반영해 성능이 향상됩니다. (출처: adwaitx.com, 2026.02.18)

머스크는 “베타가 끝날 무렵에는 Grok 4보다 한 자릿수 배 더 똑똑하고 빨라질 것”이라고 예고했습니다. 2월 17일 베타 기준으로 보면, 현재 쓰는 Grok 4.20은 3월 말 베타 종료 시점의 Grok 4.20보다 실제로 성능이 낮다는 뜻이기도 합니다.

📌 그런데 이 구조에는 검증되지 않은 부분이 있습니다

매주 모델이 바뀐다는 것은 동일한 질문에 대한 응답 품질도 매주 바뀐다는 의미입니다. AI 연구자 David Shapiro는 2026년 2월 19일 서브스택에서 Grok 4.20이 여전히 구조적 결함을 갖고 있다고 분석했습니다 — “환각 감소와 지침 준수 개선”이 Beta 2의 공식 개선 사항이지만, 그것이 실제로 어느 방향으로 학습됐는지는 공식 벤치마크가 나와야 알 수 있습니다. (출처: daveshap.substack.com, 2026.02.19)

xAI가 Grok 4.20 자체에 대한 공식 벤치마크를 아직 공개하지 않았다는 점은 짚고 넘어가야 합니다. 현재 유통되는 수치는 Grok 4(2025년 7월 기준)의 벤치마크입니다. Grok 4.20의 성능 수치는 “베타 종료 후 공개 예정”입니다. (출처: adwaitx.com, 2026.02.18) 지금 시점의 Grok 4.20을 쓰면서 Grok 4 Heavy 벤치마크 수치를 기대하는 건 출발점이 다른 비교입니다.

Beta 2(2026.03.03)에서 확인된 개선 사항은 다섯 가지입니다: ① 지침 준수 강화 ② 환각 감소 ③ LaTeX 지원 개선 ④ 이미지 검색 정확도 개선 ⑤ 다중 이미지 렌더링 신뢰성 향상. (출처: basenor.com, 2026.03.08) 이 다섯 항목 중 수치로 검증된 건 현재 없습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Grok 4.20을 무료로 쓸 수 있나요?

grok.com에서 무료 접근이 가능합니다. 단, 모델 선택창에서 “Grok 4.2″를 직접 골라야 하고, 2시간당 10개 메시지 한도가 있습니다. 이미지 생성은 무료 계정에서 불가능합니다. (출처: adwaitx.com, 2026.02.18)

SuperGrok $30이면 정말 무제한인가요?

공식적으로는 “무제한”이라 표기되지만, 4-에이전트 구조로 인해 메시지당 토큰 소모가 크게 늘어납니다. Reddit 사용자들 사이에서 SuperGrok에서도 한도를 체감한다는 보고가 나오고 있습니다. 정확한 한도는 xAI가 공개하지 않은 상태입니다. (출처: Reddit r/grok, 2026.02.20 — 확인 필요)

Grok 4.20의 API를 지금 쓸 수 있나요?

2026년 3월 현재 “얼리 액세스 / 곧 제공 예정” 상태입니다. 개발자가 프로덕션에 Grok 4.20을 연동하려면 docs.x.ai를 주기적으로 확인해야 합니다. Grok 4 API(입력 $2/1M 토큰)는 이미 이용 가능합니다. (출처: adwaitx.com, 2026.02.18)

4-에이전트 시스템이 항상 더 좋은 답변을 주나요?

복잡한 추론·코딩 쿼리에서 단일 모델 대비 정확도가 높습니다. 단, 단순한 질문에도 4개 에이전트가 모두 작동하면서 토큰 소모가 과도하게 늘어날 수 있습니다. “에이전트들이 7,000 토큰을 소모했다”는 실측 사례가 보고됐습니다. (출처: Reddit r/SillyTavernAI, 2026.03.14)

Grok 4.20 베타는 언제 정식 출시되나요?

머스크는 2월 17일 발표 기준 “다음 달”(약 3월 중순~말)로 베타 종료를 예고했습니다. 베타 종료 시점에 공식 벤치마크 수치도 함께 공개될 예정입니다. 2026년 3월 12일 기준 Beta 3 개발 중임이 머스크에 의해 확인됐습니다. (출처: @elonmusk, X, 2026.03.12; basenor.com, 2026.03.08)

▲ 목차로 돌아가기

마치며 — 지금 쓸 만한가

솔직히 말하면, Grok 4.20은 지금 당장 “메인 AI 도구”로 쓰기엔 아직 베타입니다. API가 열려 있지 않고, 공식 벤치마크도 없으며, 한도 정책도 불투명합니다. 한국에서 X Premium+를 가입해 Grok에 접근하는 경로도 번거롭습니다.

그럼에도 주목할 이유는 하나 있습니다. 실시간 X 데이터를 기반으로 한 정보 검색 능력은 지금 이 시점에 어떤 모델도 따라가지 못합니다. 글로벌 트렌드 분석, X에서 실시간으로 터지는 이슈 추적, 영어권 커뮤니티 반응 파악 등에서 Grok은 실용적인 선택입니다.

Rapid Learning Architecture가 실제로 작동한다면 — 즉, 매주 의미 있는 성능 향상이 쌓인다면 — 베타 종료 시점의 Grok 4.20은 지금과 꽤 다른 모델일 수 있습니다. 지금 시점에 $30을 쓰는 건 그 베타에 참여하는 투자이기도 합니다. 기대를 낮추고 진입하면 충분히 흥미로운 도구입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

※ 본 포스팅은 2026년 3월 18일 기준으로 작성됐습니다. Grok 4.20은 현재 퍼블릭 베타 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 언제든지 변경될 수 있습니다. API 요금, 한도 정책 등 중요한 의사결정 전 docs.x.ai 및 grok.com 공식 채널을 반드시 확인하시기 바랍니다.

Grok 4.20, $30이면 무제한이라더니 8번 만에 끊깁니다

Grok 4.20이 뭔지부터 — 출시 타임라인

4-에이전트가 매력적으로 들리는 이유, 그리고 숨겨진 비용

$30 SuperGrok에서 실제로 막히는 지점

벤치마크 1위인데 왜 개발자들은 Claude를 씁니까

Custom Instructions가 12,000자에서 4,000자로 줄어든 것의 의미

Rapid Learning Architecture — 매주 좋아진다는 게 사실일까

자주 나오는 질문 5가지

마치며 — 지금 쓸 만한가

댓글 남기기응답 취소

최신 글

카테고리

Tags

Grok 4.20, $30이면 무제한이라더니 8번 만에 끊깁니다

Grok 4.20, $30이면 무제한이라더니 8번 만에 끊깁니다

Grok 4.20이 뭔지부터 — 출시 타임라인

4-에이전트가 매력적으로 들리는 이유, 그리고 숨겨진 비용

$30 SuperGrok에서 실제로 막히는 지점

벤치마크 1위인데 왜 개발자들은 Claude를 씁니까

Custom Instructions가 12,000자에서 4,000자로 줄어든 것의 의미

Rapid Learning Architecture — 매주 좋아진다는 게 사실일까

자주 나오는 질문 5가지

마치며 — 지금 쓸 만한가

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기