GLM-4.7, Claude 가격의 1/5인데 코딩 성능은?

Published on

in

GLM-4.7, Claude 가격의 1/5인데 코딩 성능은?

2025.12.22 출시 기준
GLM-4.7 / Z.ai API 기준
2026.03.22 작성

GLM-4.7, Claude 가격의 1/5인데
코딩 성능은?

Z.ai가 2025년 12월 22일 공개한 GLM-4.7은 오픈소스 LLM 중 코딩 성능 1위를 주장합니다. SWE-bench Verified 73.8%, API 가격은 Claude Sonnet 4.5 대비 5분의 1 수준. 근데 막상 써보면 다릅니다. 제한 구조, 실제 성능 차이, 그리고 아무도 제대로 짚지 않은 약점까지 공식 수치로 정리해봤습니다.

73.8%
SWE-bench Verified
$3/월
Lite 플랜 시작가
358B
총 파라미터 (MoE)
200K
컨텍스트 윈도우

벤치마크 숫자보다 먼저 봐야 할 것

GLM-4.7 관련 글을 찾으면 대부분 “오픈소스 1위”, “GPT·Claude 급” 같은 문구가 먼저 나옵니다. 틀린 말은 아닌데, 그게 전부인 것처럼 쓴 글이 많습니다. 실제로 Z.ai 공식 블로그에 올라온 벤치마크 테이블을 보면, GLM-4.7은 SWE-bench Verified에서 73.8%를 기록합니다. 같은 시점 Claude Sonnet 4.5가 74% 수준이니, 오픈소스 모델치고는 대단히 가까운 수치입니다. (출처: Z.ai 공식 블로그, 2025.12.22)

그런데 벤치마크 하나로 “쓸 만하다”를 판단하면 나중에 반드시 실망합니다. SWE-bench는 Python 중심 코드베이스 기반이고, 순수 추론이나 사실 정확도(SimpleQA 45%)에선 격차가 꽤 납니다. 어떤 작업에 쓰냐에 따라 체감이 완전히 달라집니다.

솔직히 말하면, GLM-4.7은 코딩 전용으로 최적화된 모델입니다. 범용 AI 어시스턴트 용도로 비교하면 얘기가 달라집니다. 그 전제부터 잡고 가겠습니다.

GLM-4.7 주요 스펙과 코딩 성능 수치

모델 구조와 핵심 수치

GLM-4.7은 총 358B 파라미터의 MoE(Mixture of Experts) 구조입니다. 실제 추론 시 활성화되는 파라미터는 32B 수준으로, 같은 크기의 Dense 모델보다 속도가 훨씬 빠릅니다. API 호출 시 초당 55토큰 이상 생성되며, M 시리즈 Mac에서 로컬 실행 시 43~82 tokens/sec가 보고됩니다. (출처: docs.z.ai, 2025.12.22)

컨텍스트 윈도우는 200K 토큰, 오픈소스로 HuggingFace와 ModelScope에서 직접 내려받을 수 있습니다. MIT 라이선스라 상업적 사용도 가능합니다.

공식 벤치마크 핵심 수치

벤치마크 GLM-4.7 분야
SWE-bench Verified 73.8% 실제 코딩
LiveCodeBench v6 84.9% 실시간 코딩
Terminal Bench 2.0 41.0% 터미널 에이전트
τ²-Bench (Tool Use) 87.4% 툴 사용
AIME 2025 96% 수학
HumanEval 92% Python 코딩
SimpleQA 45% 사실 정확도
ARC-AGI 12% 추상 추론

(출처: automatio.ai/models/glm-4-7, Z.ai 공식 블로그 2025.12.22 기준)

Claude Sonnet 4.5와 실제로 얼마나 다른가

💡 공식 발표 수치와 실사용자 피드백을 같이 놓고 보니 의외의 패턴이 보였습니다 — 코딩 성능은 거의 비슷한데 범용 추론은 차이가 큽니다.

수치로 본 성능 격차

SWE-bench Verified 기준으로 GLM-4.7(73.8%)과 Claude Sonnet 4.5(74%)의 격차는 0.2%p에 불과합니다. (출처: Z.ai 공식 블로그, 2025.12.22) 실제로 동일한 코딩 작업에서 어느 쪽이 나은지 구분하기 어렵다는 뜻입니다. 코딩에 한정된 얘기지만, 이 수치 하나가 GLM-4.7의 포지셔닝을 설명합니다.

반면 범용 추론 쪽으로 넘어가면 격차가 벌어집니다. ARC-AGI 점수는 GLM-4.7이 12%입니다. Claude Opus 4.5는 37.6%를 기록했습니다. (출처: stackademic.com, 2026.01.21) 추상적 패턴 인식이나 새로운 논리 구조를 푸는 과제에서 한계가 드러납니다.

비용 차이를 직접 계산해보면

API 요금 기준으로 비교하면 이야기가 완전히 달라집니다.

실제 비용 계산 예시 — 10,000줄 코드베이스 분석 1회

  • GLM-4.7 API: 약 $0.03 (입력 $0.60/1M tokens 기준)
  • Claude Sonnet 4.5 API: 약 $0.30 (입력 $3/1M tokens 기준)
  • 차이: 10배

(출처: Reddit r/LLM 실측, 2026.01.06 / OpenRouter GLM-4.7 가격 페이지)

월 API 비용이 5인 스타트업 기준으로 $300~400이던 것이 GLM-4.7 전환 시 $52 수준으로 줄었다는 실제 사례가 있습니다. (출처: Reddit r/LLM, 2026.01.06) 비용 문제가 병목인 팀에게는 성능 격차보다 이 숫자가 더 중요할 수 있습니다.

가격이 싸다고 다가 아닌 이유

💡 “$3짜리 Claude 대체재”라는 홍보 문구 뒤에 있는 사용량 구조를 공식 문서에서 직접 확인하니, 기대와 다른 부분이 있었습니다.

GLM Coding Plan 플랜 구조 — 공식 기준

Z.ai의 GLM Coding Plan은 월 구독 방식으로 Claude Code, Cline, Roo Code 등에서 GLM-4.7을 쓸 수 있게 합니다. 플랜별 사용 한도는 아래와 같습니다. (출처: docs.z.ai/devpack/overview)

플랜 가격 5시간 한도 주간 한도
Lite $3/월 약 80 프롬프트 약 400 프롬프트
Pro $10/월~ 약 400 프롬프트 약 2,000 프롬프트
Max $30/월~ 약 1,600 프롬프트 약 8,000 프롬프트

여기서 핵심은 프롬프트 1개 = 모델 호출 15~20회라는 점입니다. 공식 문서에 딱 이렇게 나옵니다: “Each prompt is estimated to invoke the model 15~20 times.” (출처: docs.z.ai/devpack/overview) 코딩 에이전트가 자율 루프를 돌며 파일을 수정할 때 한 번의 작업이 프롬프트를 10~20개씩 소모하는 건 흔한 일입니다.

Lite 플랜(5시간 80 프롬프트)을 Claude Code와 함께 무거운 리팩토링 작업에 쓰면, 세션이 1~2시간 안에 한도에 도달할 수 있습니다. “Claude Pro의 3배 사용량”이라는 홍보 문구는 사실 API 금액 기준의 환산치이지, 실제 요청 횟수 기준이 아닙니다.

⚠️ 주의: Lite 플랜은 heavy 코딩 에이전트 작업에는 맞지 않습니다

자율 루프 중심 코딩(Roo Code, Cline 멀티스텝)보다는 단발성 코드 생성·리뷰 용도에 적합합니다. 에이전트 워크플로 기준이라면 Pro 이상을 권장합니다.

데이터 프라이버시 문제도 있습니다

Z.ai API를 직접 사용할 경우 프롬프트가 서버에 저장되고 학습에 활용될 수 있습니다. Z.ai 외에 OpenRouter를 통해 제3자 인퍼런스 서버를 이용하거나, 로컬 배포(vLLM + 멀티 GPU)를 선택하면 이 문제를 우회할 수 있습니다. 코드베이스에 민감한 내용이 있다면 이 점을 먼저 확인해야 합니다.

Preserved Thinking, 실제로 어떻게 작동하나

💡 “세션이 끊겨도 기억한다”는 인상을 주는 표현이 많은데, 공식 문서와 Z.ai AMA를 같이 보면 실제 동작 범위가 다릅니다.

Preserved Thinking의 실제 동작 범위

GLM-4.7이 새롭게 도입한 Preserved Thinking은 단일 세션(하나의 대화 스레드) 내에서 추론 블록을 재사용하는 기능입니다. “3일에 걸쳐 앱을 만들었는데 1일차 결정을 기억했다”는 식의 후기가 있지만, 이건 기술적으로 정확하지 않습니다.

Z.ai 공식 문서는 Preserved Thinking을 “single conversation thread 내에서의 연속성”으로 정의합니다. 새 세션을 열면 이전 추론 블록은 초기화됩니다. (출처: docs.z.ai/guides/capabilities/thinking-mode) Reddit LocalLLaMA AMA에서도 Z.ai 팀은 이를 “within-session mechanism”으로 명확히 했습니다.

다만 Claude Code와 함께 쓸 때 프로젝트 디렉토리의 README, 주석, 설정 파일을 컨텍스트로 읽어오기 때문에 마치 “기억하는 것처럼” 느껴질 수 있습니다. 이건 Preserved Thinking이 아니라 컨텍스트 인젝션의 효과입니다.

Turn-level Thinking으로 비용 제어 가능

GLM-4.7은 API 레벨에서 요청별로 thinking 모드를 켜고 끌 수 있습니다. 간단한 작업엔 "thinking": {"type": "disabled"}로 토큰 소모를 줄이고, 복잡한 코드 작업엔 활성화하는 방식으로 비용과 성능을 함께 조절할 수 있습니다. 이 기능은 Interleaved Thinking·Preserved Thinking·Turn-level Thinking 세 가지 모드로 나뉩니다. (출처: Z.ai 공식 블로그 2025.12.22)

GLM-4.7이 유리한 상황 vs 아닌 상황

이 상황이라면 쓸 만합니다

✅ API 비용이 병목인 팀

Claude/GPT API 비용이 월 $100 이상 나온다면, GLM-4.7로 일반 코딩 작업을 대체할 때 실질적인 절감이 가능합니다. 코딩 성능 격차는 벤치마크상 0.2%p 수준입니다.

✅ Python/TS/JS 중심 개발

SWE-bench가 Python 중심 벤치마크이므로, 실제 성능도 Python·TypeScript·JavaScript에서 가장 안정적입니다. 이 스택이 메인이라면 체감이 좋습니다.

✅ UI/프론트엔드 생성

Z.ai가 “Vibe Coding”이라 부르는 UI 생성 능력이 실사용자 피드백에서도 긍정적입니다. React 컴포넌트, 레이아웃 생성 품질이 동급 오픈소스 대비 높습니다.

✅ 오픈소스·로컬 배포 선호

MIT 라이선스, vLLM·SGLang 지원으로 HuggingFace에서 내려받아 직접 서버를 운영할 수 있습니다. 벤더 종속 없이 쓰고 싶다면 현실적인 선택지입니다.

이 상황에선 아직 아닙니다

❌ 순수 추론·수학 외 다분야

ARC-AGI 12%, SimpleQA 45%. 새로운 패턴을 발견하거나 의학·법률 등 전문 도메인 지식이 필요한 작업에서는 Claude Opus와 격차가 큽니다.

❌ 프로덕션 안전성 최우선 환경

프롬프트 인젝션 방어, 아키텍처 결정 품질에서 Claude Opus 대비 신뢰도가 낮습니다. 실사용자들도 “Opus는 더 신중하다”는 평가를 일관되게 남겼습니다.

❌ Go·Rust·Java 메인 스택

Python 이외 언어는 “competent but not as polished”라는 평가가 지배적입니다. SWE-bench Multilingual 66.7%는 비영어·비Python 환경에서 성능 감소를 시사합니다.

Q&A

GLM-4.7은 한국어로도 잘 작동하나요?
코딩 관련 작업에서는 한국어 프롬프트를 넣어도 비교적 잘 처리됩니다. 다만 SWE-bench Multilingual 66.7%는 비영어 환경에서 성능이 하락한다는 의미이고, 한국어 자연어 생성 품질은 GPT·Claude 대비 아직 거칠다는 평가가 많습니다. 코딩 보조 목적으로는 충분하지만, 한국어 콘텐츠 생성 전용으로 쓰기엔 아직 이릅니다.
Claude Code에서 GLM-4.7을 쓰려면 어떻게 설정하나요?
~/.claude/settings.json에서 환경 변수를 설정합니다.

{
"env": {
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air"
}
}

Z.ai API 키를 발급받아 ANTHROPIC_API_KEY 환경 변수에 넣으면 Claude Code가 GLM-4.7을 호출합니다. GLM Coding Plan 구독자는 z.ai/subscribe에서 키를 발급받으면 됩니다. (출처: stackademic.com, 2026.01.21)

GLM-4.7을 로컬에서 돌리려면 GPU가 어느 정도 필요한가요?
358B 파라미터 풀 모델을 돌리려면 멀티 GPU 서버 환경이 필요합니다. 개인 환경에서는 GLM-4.7-Flash(30B MoE, 3B 활성 파라미터)를 권장합니다. RTX 3090 1장으로도 4비트 양자화 기준 실용적인 속도가 나옵니다. M3 Max에서 81 tokens/sec 보고 사례가 있습니다. (출처: stackademic.com, 2026.01.21) vLLM·SGLang 모두 공식 지원합니다.
GLM-4.7-Flash와 GLM-4.7의 차이는 무엇인가요?
GLM-4.7은 358B 파라미터 플래그십 모델이고, GLM-4.7-Flash는 30B 파라미터 MoE로 3B만 활성화됩니다. Flash의 SWE-bench 점수는 59.2%로 플래그십(73.8%)보다 낮지만, API 가격이 훨씬 저렴하고 속도가 빠릅니다. Flash는 OpenRouter에서 무료로 제공하는 기간이 있었습니다. 가벼운 코딩 보조·단순 자동화 작업이라면 Flash로도 충분합니다.
데이터 프라이버시가 걱정되는데 Z.ai 대신 쓸 수 있는 방법이 있나요?
GLM-4.7 가중치는 오픈소스(MIT 라이선스)라 제3자 인퍼런스 서버를 통해 이용할 수 있습니다. OpenRouter에는 Z.ai 외에도 GLM-4.7을 호스팅하는 여러 공급자가 있습니다. 보안이 최우선이라면 vLLM으로 자체 서버를 구성하거나 GLM-4.7-Flash를 로컬에서 실행하는 방식을 선택할 수 있습니다.

마치며

GLM-4.7은 오픈소스 코딩 모델 중 지금까지 나온 것 중 가장 완성도 높은 선택지입니다. SWE-bench 73.8%라는 수치는 마케팅이 아니라 실제 Python 코드베이스에서 검증된 숫자입니다. 비용은 Claude Sonnet 4.5 대비 10분의 1 수준이고, MIT 라이선스로 상업적 사용도 자유롭습니다.

다만 “Claude를 완전히 대체할 수 있다”는 기대는 이릅니다. 순수 추론(ARC-AGI 12%), 사실 정확도(SimpleQA 45%), 비Python 언어 지원, 아키텍처 결정 신뢰도 — 이 네 가지가 아직 한계입니다. 복잡한 설계 결정과 비판적 추론은 여전히 상위 모델이 필요합니다.

제가 봤을 때 가장 현실적인 활용법은 루틴 코딩 작업은 GLM-4.7, 복잡한 아키텍처 결정은 Claude Opus로 역할을 나누는 것입니다. GLM Coding Plan의 사용 제한 구조(5시간/주간 프롬프트 한도)를 먼저 파악하고, Lite 플랜으로 작업 패턴을 확인한 뒤 플랜을 올리는 순서가 맞습니다.

“$3짜리 Claude 대체”가 아니라 “비용 최적화된 코딩 특화 보조 모델” — 이 정도 포지션이 정확합니다.

📎 본 포스팅 참고 자료

  1. Z.ai 공식 블로그 — GLM-4.7 발표 원문 (https://z.ai/blog/glm-4.7)
  2. Z.ai 공식 개발자 문서 — GLM Coding Plan 한도 (https://docs.z.ai/devpack/overview)
  3. automatio.ai — GLM-4.7 전체 벤치마크 수치 (https://automatio.ai/models/glm-4-7)
  4. Reddit r/LLM — 2주 실측 후기 (2026.01.06) (reddit.com/r/LLM)
  5. Stackademic — GLM-4.7 vs Claude Opus 4.5 실전 비교 (2026.01.21) (stackademic.com)

본 포스팅은 공개된 공식 문서와 커뮤니티 실사용 후기를 바탕으로 작성되었습니다. Z.ai 서비스 정책, 요금, UI, 기능은 작성 이후 변경될 수 있습니다. 투자·구매 결정에 앞서 공식 사이트에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기