Qwen3-Max-Thinking · 2026.01.27 공식 출시 / 모델명 qwen3-max-2026-01-23 기준
큐원3-맥스-씽킹, 무조건 좋을까요?
알리바바가 1조 파라미터급 추론 모델을 공개했습니다. 공식 자료만 보면 GPT·Claude·Gemini 전부 꺾습니다.
그런데 독립 기관이 직접 측정한 숫자는 조금 달랐습니다.
💰 API 3단계 가격 구조
🔗 Claude Code 연동 가능
🚫 오픈소스 아님
공식 발표문만 읽으면 놓치는 것들
Qwen3-Max-Thinking은 2026년 1월 27일 알리바바가 공식 발표한 추론 특화 플래그십 모델입니다. 모델명은 qwen3-max-2026-01-23이며, 공식 블로그 기준으로 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro와 비교해 19개 벤치마크에서 동등하거나 일부 초과하는 성능을 주장했습니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)
특히 눈에 띄는 수치는 에이전트형 검색 평가 HLE(Humanity’s Last Exam, 도구 포함 조건)에서 49.8점으로, GPT-5.2-Thinking(45.5)과 Gemini 3 Pro(45.8)를 모두 앞섰다는 점입니다. 코딩 성능 지표 Arena-Hard v2에서도 90.2점으로, Claude-Opus-4.5(76.7)를 크게 차이로 제쳤습니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)
그런데 이 숫자들은 전부 알리바바가 직접 측정해서 발표한 수치입니다. 독립 벤치마크 기관이 동일한 조건으로 돌렸을 때 어떤 결과가 나왔는지는 이 발표문 어디에도 없습니다. 그 차이를 다음 섹션에서 바로 확인해보겠습니다.
1조 파라미터라더니, 독립 기관 점수는 왜 달랐을까요
💡 공식 발표문과 독립 기관 측정치를 나란히 놓고 보면, 같은 모델을 다른 방식으로 평가했을 때 순위가 뒤바뀌는 경우가 확인됩니다.
독립 AI 벤치마크 기관 Artificial Analysis가 동일 모델을 직접 측정한 결과, Qwen3-Max-Thinking은 Intelligence Index 40점을 기록했습니다. 프리뷰 버전(32점)보다는 8점 올랐지만, 같은 시기 측정된 Kimi K2.5(47점), DeepSeek V3.2(42점), GLM-4.7(42점)에 모두 밀리는 순위입니다.
(출처: Artificial Analysis, Qwen3-Max-Thinking Benchmarks and Analysis, 2026.01.29)
이 수치가 의미하는 건 이렇습니다. 알리바바가 자체 측정한 HLE(도구 포함) 49.8점은 GPT와 Gemini를 앞서지만, Artificial Analysis의 AA-Omniscience(지식 정확도+환각률 복합 평가)에서는 -34점으로 Kimi K2.5(-11), DeepSeek V3.2(-23)보다 낮은 결과가 나왔습니다. 쉽게 말해, 도구를 붙였을 때 검색 성능은 강하지만, 도구 없이 지식만 묻는 상황에서는 경쟁 모델보다 오류가 더 많이 나온다는 뜻입니다.
| 모델 | AA Intelligence Index | AA-Omniscience | 자료 출처 |
|---|---|---|---|
| Qwen3-Max-Thinking | 40 | -34 | Artificial Analysis |
| Kimi K2.5 | 47 | -11 | Artificial Analysis |
| DeepSeek V3.2 | 42 | -23 | Artificial Analysis |
| GLM-4.7 | 42 | -25 (추정) | Artificial Analysis |
test-time scaling 효과는 실제로 존재합니다. 동일한 토큰 소비 범위 안에서 GPQA 90.3→92.8, LiveCodeBench v6 88.0→91.4로 개선된 수치는 공식 자료에서 확인됩니다. 다만 이 효과는 수학·코딩처럼 정답이 명확한 영역에 집중돼 있고, 지식 정확도 전반에서는 아직 개선 여지가 있습니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27; Artificial Analysis, 2026.01.29)
오픈소스인 줄 알았다면 이미 틀렸습니다
💡 “알리바바 Qwen은 오픈소스”라는 인식이 널리 퍼져 있는데, Max-Thinking 모델에는 이게 적용되지 않습니다.
알리바바의 Qwen 시리즈는 대부분 오픈웨이트(open weights)로 공개돼 왔습니다. 그래서 DeepSeek처럼 “중국 AI = 오픈소스”라는 인식이 생겼는데, Qwen3-Max-Thinking은 다릅니다. 알리바바는 이 모델의 가중치를 공개하지 않았고, Artificial Analysis도 “Proprietary”로 명시하고 있습니다.
(출처: Artificial Analysis, 2026.01.29; Reddit LocalLLaMA, 2026.01.26)
알리바바의 전략은 이렇습니다. 중소형 모델(Qwen3-235B 등)은 오픈소스로 공개해 커뮤니티를 확보하고, 최상위 플래그십 모델은 클로즈드로 유지해 API 수익을 챙기는 방식입니다. GPT와 Claude가 하는 것과 똑같은 구조입니다. 로컬 환경에서 돌리거나, 직접 파인튜닝하거나, 가중치를 확인하는 건 불가능합니다.
지정학적 리스크도 고려할 부분입니다. CIO.com이 인용한 Omdia의 리안 지에 수 애널리스트는 “알리바바 클라우드 인프라에서 구동할 경우 확장성·효율성을 별도로 점검해야 하며, 민감한 데이터가 포함되는 경우 CIO가 내부 리스크 기준 충족 여부를 직접 판단해야 한다”고 지적했습니다.
(출처: CIO.com, 2026.01.28)
API 가격, 짧은 질문할 때랑 긴 문서 넣을 때가 다릅니다
결론부터 말씀드리면, Qwen3-Max-Thinking API는 입력 토큰 길이에 따라 가격이 최대 2.5배 달라집니다. 단순히 “입력 $1.2, 출력 $6″으로만 알고 있으면 실제 청구서에서 당황할 수 있습니다.
| 입력 토큰 범위 | 입력 (1M 토큰당) | 출력 (1M 토큰당) |
|---|---|---|
| ~32K 토큰 | $1.20 | $6.00 |
| 32K~128K 토큰 | $2.40 | $12.00 |
| 128K~256K 토큰 | $3.00 | $15.00 |
이게 실생활에서 어떤 차이를 만드는지 직접 계산해볼 수 있습니다. A4 기준 약 30페이지 분량의 한국어 보고서를 맥락으로 넣을 경우(약 40,000 토큰), 입력 비용은 32K 구간 기준으로는 $0.048이지만 32K 초과 구간이 적용되면 $0.096으로 2배가 됩니다. 이 모델의 컨텍스트 창은 256K 토큰이어서 긴 문서 처리에 쓰려는 경우, 입력 토큰 구간이 어디에 걸리는지 먼저 확인하는 게 좋습니다.
(출처: Artificial Analysis, 2026.01.29)
💡 Qwen3-Max-Thinking이 출력 토큰도 많이 씁니다. Artificial Analysis 측정에 따르면 Intelligence Index 전체 실행 시 생성된 출력 토큰이 약 8,600만 개(추론 토큰 포함)였습니다. 이는 동급 GLM-4.7(1억 6,700만 개)보다 적지만, 긴 추론 체인이 필요한 작업에서는 출력 비용이 빠르게 쌓인다는 의미입니다.
Claude Code에서 Qwen3을 쓰는 방법
💡 Qwen3-Max-Thinking 공식 블로그를 읽다가 흘깃 지나치기 쉬운 부분인데, Anthropic API 호환이 된다는 게 실제로는 상당히 넓은 의미입니다.
Qwen3-Max-Thinking은 OpenAI API 호환뿐 아니라 Anthropic API 프로토콜과도 호환됩니다. 이 말은 Claude Code(Anthropic의 터미널 기반 코딩 에이전트)를 이미 사용 중이라면, 모델만 Qwen3으로 교체해서 그대로 쓸 수 있다는 뜻입니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)
설정 방법은 공식 블로그에서 제공하는 환경 변수 4줄로 끝납니다:
export ANTHROPIC_MODEL="qwen3-max-2026-01-23" export ANTHROPIC_SMALL_FAST_MODEL="qwen3-max-2026-01-23" export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/apps/anthropic export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey claude
이게 실용적인 이유는 이렇습니다. Claude Code 자체의 UI와 에이전트 루프는 그대로 유지하면서 추론 엔진만 교체할 수 있기 때문입니다. Arena-Hard v2 코딩 점수가 90.2점으로 높은 만큼, 수학·로직 집약적인 코드 작업에서는 시도해볼 만합니다. 단, Alibaba Cloud DashScope API 키가 별도로 필요하고, 알리바바 클라우드 계정 가입 후 Model Studio 서비스를 활성화해야 합니다.
막상 에이전트로 쓰면 이 부분에서 걸립니다
Qwen3-Max-Thinking은 검색(Search), 메모리(Memory), 코드 인터프리터(Code Interpreter)를 사용자 지시 없이 모델 스스로 호출합니다. 기존 추론 모델이 수학이나 논리에만 강하고 실무 도구와 분리돼 있던 한계를 넘겼다는 점에서 의미 있는 변화입니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)
그런데 Artificial Analysis의 에이전트 성능 지표 GDPval-AA(현실적 지식 업무 에이전트 평가)에서는 ELO 1170점으로 GLM-4.7(1192), DeepSeek V3.2(1186), Kimi K2.5(1316)에 모두 밀렸습니다. 이 지표는 PPT 작성이나 분석 보고서 준비 같은 실무 에이전트 태스크를 측정하는데, 도구 없는 순수 추론 능력과 도구를 붙인 에이전트 능력은 별개로 봐야 한다는 걸 잘 보여줍니다.
(출처: Artificial Analysis, 2026.01.29)
멀티모달도 없습니다. 텍스트 전용 모델이기 때문에 이미지나 PDF 파일을 직접 첨부해서 분석하는 건 현재 지원하지 않습니다. 또 이 모델은 오픈소스가 아니므로, 직접 배포(self-host)나 파인튜닝을 통한 도메인 특화 최적화도 할 수 없습니다.
(출처: Artificial Analysis, 2026.01.29)
솔직히 말하면, 도구를 붙인 HLE 49.8점은 인상적이지만 이건 웹 검색 포함 조건입니다. 내부 데이터를 주고 에이전트를 돌려야 하는 기업 환경에서는 다른 결과가 나올 가능성이 높습니다. Forrester의 찰리 다이 애널리스트가 “실제 도입 검토 시 시스템 로그 관리와 데이터 국경 간 이동 구조를 면밀히 점검해야 한다”고 강조한 이유입니다.
(출처: CIO.com, 2026.01.28)
Q&A
마치며
Qwen3-Max-Thinking은 분명히 의미 있는 모델입니다. 특히 웹 검색을 붙인 에이전트 검색 능력에서 GPT와 Gemini를 앞서는 HLE 49.8점은, 도구 연동이 핵심인 워크플로우에서 현시점 최고 수준 중 하나입니다. Arena-Hard v2 코딩 90.2점도 실제로 코드를 많이 짜야 하는 상황에서 써볼 만한 근거가 됩니다.
다만 기대했던 것과 달랐던 부분이 몇 가지 있습니다. “알리바바니까 오픈소스겠지”는 틀렸고, “공식 발표 수치가 전부겠지”도 틀렸습니다. 독립 기관 측정에서 지식 정확도(AA-Omniscience)가 -34점으로 경쟁 모델보다 낮게 나온 것, API 가격이 입력 길이에 따라 최대 2.5배 달라지는 것, 멀티모달 미지원인 것은 실제 사용 시 체감되는 한계입니다.
개인적으로는 Claude Code와 Anthropic API 호환이 가능하다는 점이 이 모델의 가장 활용도 높은 부분이라고 생각합니다. 이미 Claude Code를 쓰는 개발자라면 환경 변수 4줄만 바꿔서 추론 집약적 코딩 태스크에서 직접 비교해보는 게 가능합니다. 그게 벤치마크 숫자보다 더 정직한 답을 줄 것 같습니다.
본 포스팅 참고 자료
- Alibaba Qwen 공식 블로그 — “Pushing Qwen3-Max-Thinking Beyond its Limits” (2026.01.27)
https://qwen.ai/blog?id=qwen3-max-thinking - Artificial Analysis — “Qwen3-Max-Thinking Benchmarks and Analysis” (2026.01.29)
https://artificialanalysis.ai/articles/qwen3-max-thinking-everything-you-need-to-know - CIO.com — “주권 논의 속 출시된 알리바바 큐웬3-맥스-씽킹” (2026.01.28)
https://www.cio.com/article/4123312/ - AI타임스 — “알리바바, 가장 뛰어난 추론 모델 큐원3-맥스 싱킹 출시” (2026.01.28)
https://www.aitimes.com/news/articleView.html?idxno=206030 - GeekNews — “Qwen3-Max-Thinking 모델 공개” 요약 정리
https://news.hada.io/topic?id=26153
⚠️ 본 포스팅은 2026년 03월 19일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모델명 qwen3-max-2026-01-23 기준이며, 이후 업데이트된 버전에서는 수치·기능·가격이 달라질 수 있습니다. 최신 정보는 qwen.ai 공식 채널에서 확인하시기 바랍니다.

댓글 남기기