GLM-5.1 코딩, 월 3달러가 진짜일까요?
Claude Opus 대비 94.6% 성능, 가격은 10분의 1. 벤치마크만 보면 완벽한 대체제처럼 보입니다. 그런데 구독한 뒤 실제 코딩 작업에서 100K 이상 컨텍스트에 닿는 순간, 분위기가 달라집니다.
Claude Opus 94.6%
Lite 첫 달 프로모션
순위표 미등재
GLM-5.1, 3월 27일 출시 — 뭐가 달라졌나
2026년 3월 27일, Z.ai(구 Zhipu AI)가 GLM-5.1을 GLM Coding Plan 전체 사용자에게 공개했습니다. 포커스 키워드인 GLM-5.1 코딩 성능은 전작 GLM-5(35.4점) 대비 28% 향상된 45.3점으로, 단 한 달 만에 이 수준의 세대 교체를 이룬 것은 처음입니다.
구조적으로 GLM-5.1은 GLM-5의 MoE(Mixture of Experts) 아키텍처 기반에 추가 학습을 적용한 버전으로 추정됩니다. 총 파라미터 수나 컨텍스트 길이 같은 핵심 스펙은 출시일 현재 공식 리포트가 없어 정확한 수치는 공개되지 않은 상태입니다. GLM-5 기준으로는 744B 총 파라미터, 40B 활성화 파라미터, 200K 컨텍스트를 지원합니다.
Z.ai 글로벌 헤드 Zixuan Li는 3월 20일 트위터에서 “GLM-5.1도 오픈소스로 공개할 것”이라고 밝혔습니다. MIT 라이선스 적용 예정이며, 이 경우 서드파티 API 플랫폼을 통한 가격 경쟁도 본격화될 전망입니다.
코딩 점수 45.3점의 실체 — 벤치마크를 보는 방법
💡 공식 발표 수치와 독립 리더보드 데이터를 같이 놓고 보니 이런 차이가 보였습니다.
Z.ai가 공개한 GLM-5.1 코딩 평가 수치는 Claude Code를 테스트 프레임워크로 사용한 자체 벤치마크입니다 (출처: apiyi.com 공식 가이드, 2026.03.27). Claude에 최적화된 환경에서 45.3점을 냈다는 건, 중립적 환경에서는 더 나을 수 있다는 의미이기도 합니다.
많이 인용되는 SWE-bench Verified에서 GLM-5는 77.8점으로 상위권에 올라있습니다. Claude Opus 4.5(80.9점), Claude Opus 4.6(80.8점) 바로 아래입니다. 그런데 SWE-bench를 운영하는 Scale AI는 한 발 더 나아갔습니다.
⚠️ SWE-bench Verified의 한계
OpenAI는 2026년 초, “최전선 모델 전체가 SWE-bench Verified의 테스트 데이터로 학습되어 있다”는 사실을 확인하고 이 벤치마크 보고를 공식 중단했습니다 (출처: morphllm.com SWE-bench Pro 리더보드, 2026.03.01). 즉, 77.8%는 훈련 데이터를 암기한 결과일 수 있습니다.
오염 문제를 해결하기 위해 만든 SWE-bench Pro(1,865개 과제, Python/Go/TypeScript/JavaScript 포함)에서는 어떨까요? 2026년 3월 기준 Scale AI SEAL 리더보드에는 GLM-5 시리즈가 아예 없습니다. GLM-4.6이 9.7점으로 18위에 올라있을 뿐입니다. Pro 기준 1위는 Claude Opus 4.5로 45.9%입니다.
| 모델 | SWE-bench Verified | SWE-bench Pro (SEAL) | Z.ai 자체 코딩 평가 |
|---|---|---|---|
| Claude Opus 4.5 | 80.9% | 45.9% (1위) | 47.9점 |
| Claude Opus 4.6 | 80.8% | 미보고 | 47.9점 |
| GLM-5 | 77.8% | 미등재 | 35.4점 |
| GLM-5.1 | 미보고 | 미등재 | 45.3점 |
| GLM-4.6 | 미보고 | 9.7% (18위) | — |
(출처: morphllm.com SWE-bench Pro 리더보드 2026.03.01 / apiyi.com 공식 가이드 2026.03.27)
SWE-bench Pro는 과제당 평균 4.1개 파일을 수정해야 하고, 평균 수정 라인이 107줄입니다. Verified의 단일 파일·소규모 수정과는 완전히 다른 시험입니다. GLM-5.1의 코딩 성능은 분명히 인상적이지만, 복잡한 실제 프로덕션 코드에서의 검증은 아직 진행 중입니다.
월 3달러는 첫 달뿐 — 요금제 구조 그대로
헤드라인에 붙는 “$3/month”는 Lite 플랜의 첫 달 프로모션 가격입니다. 정가는 $10입니다. Pro는 첫 달 $15, 정가 $30입니다. Claude Pro($20) · Claude Max($100~$200)와 비교하면 여전히 저렴하지만, “$3″이 지속 가능한 가격이 아니라는 점은 미리 알아두어야 합니다.
| 요금제 | 첫 달 | 정가/월 | 5시간 요청 수 | 월 검색 |
|---|---|---|---|---|
| GLM Coding Lite | $3 | $10 | 120회 | 100회 |
| GLM Coding Pro | $15 | $30 | 600회 | 1,000회 |
| Claude Pro | $20 | $20 | — | — |
| Claude Max | $100~200 | $100~200 | — | — |
(출처: apiyi.com 공식 가이드 2026.03.27 / z.ai 요금 페이지)
지원 모델은 GLM-5.1, GLM-5, GLM-5-Turbo, GLM-4.7 네 종류입니다. Claude Code, Cline, Kilo Code, OpenCode, OpenClaw 등 주요 코딩 도구와 호환되며, Claude Code에서는 API 엔드포인트만 바꾸면 됩니다. Web Search MCP, Web Reader MCP도 포함되어 있습니다.
100K 넘으면 무너진다 — z.ai 인프라의 실제
💡 스펙표에는 200K 컨텍스트라고 나오는데, z.ai 구독 플랜에서 실제로 쓰면 다른 이야기가 나옵니다.
GLM-5.1 출시 당일(2026.03.27), Reddit r/ZaiGLM 커뮤니티에는 “출시 5시간 동안은 완벽했는데, 저녁부터 100K 컨텍스트 이상에서 gibberish(무의미한 출력)가 나온다”는 글이 올라왔습니다. 55명이 공감(upvote ratio 97%)한 게시글입니다.
실제 증언을 정리하면 이렇습니다. 40K~50K 컨텍스트에서 루프에 빠지거나 사고가 중단되는 경우가 보고됐고, 100K를 넘기면 출력이 완전히 무너지는 패턴이 반복됐습니다. 중요한 건 이게 모델 자체의 문제가 아닐 수 있다는 점입니다. 같은 GLM-5 모델을 Novita, SiliconFlow 같은 서드파티에서 fp8 정밀도로 구동하면 200K 컨텍스트까지 안정적으로 동작한다는 보고가 같은 스레드에 여럿 있습니다.
⚠️ 사용자들이 지목한 원인 (미공식, z.ai 공식 답변 없음)
- 구독자 급증에 따른 GPU 부족 → 모델 양자화(quantization) 강화 추정
- KV 캐시 처리 오류 가능성 (z.ai 인프라 이슈)
- GLM-5-Turbo는 동일 증상이 덜하다는 보고 → 아키텍처 차이일 수 있음
z.ai 측은 이 문제에 대해 공식 해명을 내놓지 않은 상태입니다.
단기적으로 긴 에이전트 루프를 돌리는 용도라면, 세션 컨텍스트가 100K를 넘기 전에 /compact 또는 요약 세션 전환으로 초기화하는 방식을 권장하는 의견이 많습니다. 장기적으로는 z.ai 인프라 개선이 없으면 이 문제가 반복될 수 있습니다.
같은 모델, 다른 경험 — 서드파티 vs z.ai 직접 구독
💡 공식 플랫폼과 서드파티 API를 같이 써본 사람들의 피드백을 모아보니 패턴이 보였습니다.
GLM-5는 MIT 오픈소스 모델이라 Novita AI, SiliconFlow, Modal 등 서드파티 제공자가 직접 모델 가중치를 올려 서비스합니다. fp8 정밀도로 구동하면 200K 컨텍스트까지 안정적이라는 보고가 다수입니다. z.ai 공식 Coding Plan과 달리, 서드파티는 사용량 기반 과금(pay-as-you-go)이 가능합니다.
GLM-5 API 공식 가격은 입력 $1.00/M 토큰, 출력 $3.20/M 토큰입니다 (출처: apiyi.com 가이드, 2026.03.27). 월 코딩 작업량이 많지 않다면 구독보다 종량제가 저렴할 수 있습니다. GLM-5.1의 API 엔드포인트는 출시일 현재 아직 공개되지 않았습니다.
| 비교 항목 | z.ai 구독 플랜 | 서드파티 API |
|---|---|---|
| 모델 | GLM-5.1 (✅) | GLM-5 (✅) / GLM-5.1 대기 |
| 100K+ 컨텍스트 안정성 | ⚠️ 불안정 보고 | ✅ fp8 기준 200K 안정 |
| 과금 방식 | 구독(월정액) | 종량제 |
| Claude Code 호환 | ✅ | ✅ (엔드포인트 변경) |
| GLM-5.1 API 이용 | ✅ 지금 가능 | ⏳ 출시 대기 |
지금 당장 GLM-5.1을 써보고 싶다면 z.ai 구독이 유일한 방법입니다. 단, 긴 세션 안정성을 우선시한다면 GLM-5.1 API 공식 출시를 기다렸다가 서드파티를 통해 접근하는 것이 낫습니다.
GLM-5.1이 진짜 유리한 조건
모든 상황에서 Claude를 GLM-5.1로 대체할 수 있는 건 아닙니다. 실제 데이터를 교차해서 보면 GLM-5.1이 확실히 유리한 시나리오와, 반대로 Claude가 여전히 필요한 상황이 구분됩니다.
- 세션당 컨텍스트가 80K 이하인 작업
- 단일 파일·함수 단위 리팩토링
- 프론트엔드 버그 수정, UI 컴포넌트 작성
- Claude 요금이 부담되는 일상 코딩
- Claude Code 워크플로우 유지하면서 비용 절감
- 100K 이상 긴 에이전트 루프
- 1M 토큰 초장문 컨텍스트 (Opus 4.6)
- 다국어 복합 코드베이스 리팩토링
- 극단적 추론 깊이가 필요한 아키텍처 설계
- 엔터프라이즈 컴플라이언스 요구사항
실용적인 접근은 이렇습니다. 일상 코딩은 GLM-5.1(월 $30 Pro 기준), 정말 복잡한 작업만 Claude Opus를 API로 종량제 호출하는 방식입니다. 이 조합이면 Claude Max($100~$200/월)보다 총비용이 낮으면서 작업 완성도는 유지할 수 있습니다.
단, 이 전략이 유효하려면 z.ai 인프라의 컨텍스트 안정성 문제가 개선되거나, GLM-5.1 API가 서드파티에서 지원되는 시점을 기다려야 합니다. 지금 당장 GLM Coding Plan에 장기 구독(분기·연간)을 맺는 건 신중하게 판단할 필요가 있습니다.
자주 묻는 질문
마치며 — 숫자보다 조건이 중요합니다
GLM-5.1 코딩 성능은 분명히 인상적입니다. Claude Opus의 94.6% 성능을 10분의 1 가격에 쓸 수 있다는 것, 오픈소스 모델이라는 것, Claude Code 워크플로우 그대로 쓸 수 있다는 것. 이 세 가지만 보면 지금 당장 구독할 이유가 충분합니다.
그런데 “77.8%”라는 숫자는 이미 오염된 벤치마크의 점수고, z.ai 직접 구독에서는 100K 컨텍스트 이상에서 성능이 무너지는 문제가 아직 해결되지 않았습니다. 같은 모델이 서드파티에서는 잘 돌아가는 걸 보면, 모델 탓이 아니라 인프라 탓입니다.
단기 코딩 세션이 주 업무이고 Claude가 부담스럽다면, 첫 달 $3짜리 Lite 플랜으로 직접 테스트해볼 가치는 있습니다. 장기 구독이나 Max 플랜 결제는 GLM-5.1 API가 서드파티에서 안정화된 뒤에 판단해도 늦지 않습니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. AI 서비스 특성상 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. GLM-5.1 공식 기술 보고서는 출시일 현재 미공개 상태이며, 일부 기술 수치는 GLM-5 공개 정보 기반 추정입니다.

댓글 남기기