큐원3-맥스-씽킹, 무조건 좋을까요?

Published on

in

큐원3-맥스-씽킹, 무조건 좋을까요?

Qwen3-Max-Thinking · 2026.01.27 공식 출시 / 모델명 qwen3-max-2026-01-23 기준

큐원3-맥스-씽킹, 무조건 좋을까요?

알리바바가 1조 파라미터급 추론 모델을 공개했습니다. 공식 자료만 보면 GPT·Claude·Gemini 전부 꺾습니다.
그런데 독립 기관이 직접 측정한 숫자는 조금 달랐습니다.

🔬 19개 공식 벤치마크 비교
💰 API 3단계 가격 구조
🔗 Claude Code 연동 가능
🚫 오픈소스 아님

공식 발표문만 읽으면 놓치는 것들

Qwen3-Max-Thinking은 2026년 1월 27일 알리바바가 공식 발표한 추론 특화 플래그십 모델입니다. 모델명은 qwen3-max-2026-01-23이며, 공식 블로그 기준으로 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro와 비교해 19개 벤치마크에서 동등하거나 일부 초과하는 성능을 주장했습니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)

특히 눈에 띄는 수치는 에이전트형 검색 평가 HLE(Humanity’s Last Exam, 도구 포함 조건)에서 49.8점으로, GPT-5.2-Thinking(45.5)과 Gemini 3 Pro(45.8)를 모두 앞섰다는 점입니다. 코딩 성능 지표 Arena-Hard v2에서도 90.2점으로, Claude-Opus-4.5(76.7)를 크게 차이로 제쳤습니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)

그런데 이 숫자들은 전부 알리바바가 직접 측정해서 발표한 수치입니다. 독립 벤치마크 기관이 동일한 조건으로 돌렸을 때 어떤 결과가 나왔는지는 이 발표문 어디에도 없습니다. 그 차이를 다음 섹션에서 바로 확인해보겠습니다.

▲ 목차로 돌아가기

1조 파라미터라더니, 독립 기관 점수는 왜 달랐을까요

💡 공식 발표문과 독립 기관 측정치를 나란히 놓고 보면, 같은 모델을 다른 방식으로 평가했을 때 순위가 뒤바뀌는 경우가 확인됩니다.

독립 AI 벤치마크 기관 Artificial Analysis가 동일 모델을 직접 측정한 결과, Qwen3-Max-Thinking은 Intelligence Index 40점을 기록했습니다. 프리뷰 버전(32점)보다는 8점 올랐지만, 같은 시기 측정된 Kimi K2.5(47점), DeepSeek V3.2(42점), GLM-4.7(42점)에 모두 밀리는 순위입니다.
(출처: Artificial Analysis, Qwen3-Max-Thinking Benchmarks and Analysis, 2026.01.29)

이 수치가 의미하는 건 이렇습니다. 알리바바가 자체 측정한 HLE(도구 포함) 49.8점은 GPT와 Gemini를 앞서지만, Artificial Analysis의 AA-Omniscience(지식 정확도+환각률 복합 평가)에서는 -34점으로 Kimi K2.5(-11), DeepSeek V3.2(-23)보다 낮은 결과가 나왔습니다. 쉽게 말해, 도구를 붙였을 때 검색 성능은 강하지만, 도구 없이 지식만 묻는 상황에서는 경쟁 모델보다 오류가 더 많이 나온다는 뜻입니다.

표: 공식 벤치마크 vs 독립 기관 Intelligence Index 비교 (2026.01~02 기준)
모델 AA Intelligence Index AA-Omniscience 자료 출처
Qwen3-Max-Thinking 40 -34 Artificial Analysis
Kimi K2.5 47 -11 Artificial Analysis
DeepSeek V3.2 42 -23 Artificial Analysis
GLM-4.7 42 -25 (추정) Artificial Analysis

test-time scaling 효과는 실제로 존재합니다. 동일한 토큰 소비 범위 안에서 GPQA 90.3→92.8, LiveCodeBench v6 88.0→91.4로 개선된 수치는 공식 자료에서 확인됩니다. 다만 이 효과는 수학·코딩처럼 정답이 명확한 영역에 집중돼 있고, 지식 정확도 전반에서는 아직 개선 여지가 있습니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27; Artificial Analysis, 2026.01.29)

▲ 목차로 돌아가기

오픈소스인 줄 알았다면 이미 틀렸습니다

💡 “알리바바 Qwen은 오픈소스”라는 인식이 널리 퍼져 있는데, Max-Thinking 모델에는 이게 적용되지 않습니다.

알리바바의 Qwen 시리즈는 대부분 오픈웨이트(open weights)로 공개돼 왔습니다. 그래서 DeepSeek처럼 “중국 AI = 오픈소스”라는 인식이 생겼는데, Qwen3-Max-Thinking은 다릅니다. 알리바바는 이 모델의 가중치를 공개하지 않았고, Artificial Analysis도 “Proprietary”로 명시하고 있습니다.
(출처: Artificial Analysis, 2026.01.29; Reddit LocalLLaMA, 2026.01.26)

알리바바의 전략은 이렇습니다. 중소형 모델(Qwen3-235B 등)은 오픈소스로 공개해 커뮤니티를 확보하고, 최상위 플래그십 모델은 클로즈드로 유지해 API 수익을 챙기는 방식입니다. GPT와 Claude가 하는 것과 똑같은 구조입니다. 로컬 환경에서 돌리거나, 직접 파인튜닝하거나, 가중치를 확인하는 건 불가능합니다.

지정학적 리스크도 고려할 부분입니다. CIO.com이 인용한 Omdia의 리안 지에 수 애널리스트는 “알리바바 클라우드 인프라에서 구동할 경우 확장성·효율성을 별도로 점검해야 하며, 민감한 데이터가 포함되는 경우 CIO가 내부 리스크 기준 충족 여부를 직접 판단해야 한다”고 지적했습니다.
(출처: CIO.com, 2026.01.28)

▲ 목차로 돌아가기

API 가격, 짧은 질문할 때랑 긴 문서 넣을 때가 다릅니다

결론부터 말씀드리면, Qwen3-Max-Thinking API는 입력 토큰 길이에 따라 가격이 최대 2.5배 달라집니다. 단순히 “입력 $1.2, 출력 $6″으로만 알고 있으면 실제 청구서에서 당황할 수 있습니다.

표: Qwen3-Max-Thinking API 가격표 (2026.01 기준, Artificial Analysis)
입력 토큰 범위 입력 (1M 토큰당) 출력 (1M 토큰당)
~32K 토큰 $1.20 $6.00
32K~128K 토큰 $2.40 $12.00
128K~256K 토큰 $3.00 $15.00

이게 실생활에서 어떤 차이를 만드는지 직접 계산해볼 수 있습니다. A4 기준 약 30페이지 분량의 한국어 보고서를 맥락으로 넣을 경우(약 40,000 토큰), 입력 비용은 32K 구간 기준으로는 $0.048이지만 32K 초과 구간이 적용되면 $0.096으로 2배가 됩니다. 이 모델의 컨텍스트 창은 256K 토큰이어서 긴 문서 처리에 쓰려는 경우, 입력 토큰 구간이 어디에 걸리는지 먼저 확인하는 게 좋습니다.
(출처: Artificial Analysis, 2026.01.29)

💡 Qwen3-Max-Thinking이 출력 토큰도 많이 씁니다. Artificial Analysis 측정에 따르면 Intelligence Index 전체 실행 시 생성된 출력 토큰이 약 8,600만 개(추론 토큰 포함)였습니다. 이는 동급 GLM-4.7(1억 6,700만 개)보다 적지만, 긴 추론 체인이 필요한 작업에서는 출력 비용이 빠르게 쌓인다는 의미입니다.

▲ 목차로 돌아가기

Claude Code에서 Qwen3을 쓰는 방법

💡 Qwen3-Max-Thinking 공식 블로그를 읽다가 흘깃 지나치기 쉬운 부분인데, Anthropic API 호환이 된다는 게 실제로는 상당히 넓은 의미입니다.

Qwen3-Max-Thinking은 OpenAI API 호환뿐 아니라 Anthropic API 프로토콜과도 호환됩니다. 이 말은 Claude Code(Anthropic의 터미널 기반 코딩 에이전트)를 이미 사용 중이라면, 모델만 Qwen3으로 교체해서 그대로 쓸 수 있다는 뜻입니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)

설정 방법은 공식 블로그에서 제공하는 환경 변수 4줄로 끝납니다:

export ANTHROPIC_MODEL="qwen3-max-2026-01-23"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3-max-2026-01-23"
export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey
claude

이게 실용적인 이유는 이렇습니다. Claude Code 자체의 UI와 에이전트 루프는 그대로 유지하면서 추론 엔진만 교체할 수 있기 때문입니다. Arena-Hard v2 코딩 점수가 90.2점으로 높은 만큼, 수학·로직 집약적인 코드 작업에서는 시도해볼 만합니다. 단, Alibaba Cloud DashScope API 키가 별도로 필요하고, 알리바바 클라우드 계정 가입 후 Model Studio 서비스를 활성화해야 합니다.

▲ 목차로 돌아가기

막상 에이전트로 쓰면 이 부분에서 걸립니다

Qwen3-Max-Thinking은 검색(Search), 메모리(Memory), 코드 인터프리터(Code Interpreter)를 사용자 지시 없이 모델 스스로 호출합니다. 기존 추론 모델이 수학이나 논리에만 강하고 실무 도구와 분리돼 있던 한계를 넘겼다는 점에서 의미 있는 변화입니다.
(출처: Alibaba Qwen 공식 블로그, 2026.01.27)

그런데 Artificial Analysis의 에이전트 성능 지표 GDPval-AA(현실적 지식 업무 에이전트 평가)에서는 ELO 1170점으로 GLM-4.7(1192), DeepSeek V3.2(1186), Kimi K2.5(1316)에 모두 밀렸습니다. 이 지표는 PPT 작성이나 분석 보고서 준비 같은 실무 에이전트 태스크를 측정하는데, 도구 없는 순수 추론 능력과 도구를 붙인 에이전트 능력은 별개로 봐야 한다는 걸 잘 보여줍니다.
(출처: Artificial Analysis, 2026.01.29)

멀티모달도 없습니다. 텍스트 전용 모델이기 때문에 이미지나 PDF 파일을 직접 첨부해서 분석하는 건 현재 지원하지 않습니다. 또 이 모델은 오픈소스가 아니므로, 직접 배포(self-host)나 파인튜닝을 통한 도메인 특화 최적화도 할 수 없습니다.
(출처: Artificial Analysis, 2026.01.29)

솔직히 말하면, 도구를 붙인 HLE 49.8점은 인상적이지만 이건 웹 검색 포함 조건입니다. 내부 데이터를 주고 에이전트를 돌려야 하는 기업 환경에서는 다른 결과가 나올 가능성이 높습니다. Forrester의 찰리 다이 애널리스트가 “실제 도입 검토 시 시스템 로그 관리와 데이터 국경 간 이동 구조를 면밀히 점검해야 한다”고 강조한 이유입니다.
(출처: CIO.com, 2026.01.28)

▲ 목차로 돌아가기

Q&A

Q1. Qwen3-Max-Thinking을 무료로 써볼 수 있나요?
네, chat.qwen.ai에서 계정 없이도 일부 체험이 가능합니다. 다만 Search·Memory·Code Interpreter 등 전체 도구 기능을 사용하려면 Qwen Chat 계정이 필요합니다. API를 통해 서비스에 연동하려면 Alibaba Cloud 계정과 Model Studio 활성화가 필요합니다.
Q2. Qwen3-Max-Thinking과 DeepSeek V3.2 중 뭐가 더 낫나요?
용도에 따라 다릅니다. 독립 기관 Artificial Analysis 기준으로 DeepSeek V3.2가 Intelligence Index(42점)와 Omniscience(-23점)에서 모두 앞섭니다. 반면 웹 검색 도구를 붙인 에이전트 검색 작업(HLE w/ tools)에서는 Qwen3-Max-Thinking이 49.8점으로 앞서 있습니다. 도구 연동 에이전트면 Qwen3, 지식 정확도와 일반 추론이면 현시점엔 DeepSeek V3.2가 더 안정적인 선택입니다.
Q3. 로컬 환경(내 PC)에서 돌릴 수 있나요?
현재로선 불가능합니다. 알리바바는 Max-Thinking 모델의 가중치를 공개하지 않았습니다(클로즈드 모델). 중소형 Qwen3 모델(예: Qwen3-235B-A22B)은 오픈웨이트로 공개돼 있어 로컬 실행이 가능하지만, Max-Thinking은 API를 통해서만 사용할 수 있습니다.
Q4. 긴 문서 처리에 쓸 때 API 비용이 얼마나 나올까요?
입력 토큰 32K 이하라면 1M당 $1.20, 32K~128K 구간은 $2.40(2배), 128K~256K 구간은 $3.00(2.5배)입니다. 예를 들어 한국어 보고서 약 100페이지(약 100,000 토큰)를 입력하면 32K 초과 구간 기준이 적용돼 입력 비용만 약 $0.24가 됩니다. 추론 토큰을 포함한 출력 비용이 함께 나오므로 실제 청구 금액은 여기에 출력 토큰 비용이 더해집니다.
Q5. 한국어 처리 성능은 어느 정도인가요?
공식 벤치마크에 한국어 단독 평가 항목은 없습니다. C-Eval(중국어 과학기술 평가)에서 93.7점으로 GPT-5.2(90.5)를 앞서는 등 중국어 처리가 강점이며, 다국어 지원 모델이지만 한국어에 대한 별도 검증 수치는 확인 필요 상태입니다. 한국어 대화 품질을 직접 테스트하려면 chat.qwen.ai에서 비교 테스트해보는 게 현재로선 가장 확실한 방법입니다.

▲ 목차로 돌아가기

마치며

Qwen3-Max-Thinking은 분명히 의미 있는 모델입니다. 특히 웹 검색을 붙인 에이전트 검색 능력에서 GPT와 Gemini를 앞서는 HLE 49.8점은, 도구 연동이 핵심인 워크플로우에서 현시점 최고 수준 중 하나입니다. Arena-Hard v2 코딩 90.2점도 실제로 코드를 많이 짜야 하는 상황에서 써볼 만한 근거가 됩니다.

다만 기대했던 것과 달랐던 부분이 몇 가지 있습니다. “알리바바니까 오픈소스겠지”는 틀렸고, “공식 발표 수치가 전부겠지”도 틀렸습니다. 독립 기관 측정에서 지식 정확도(AA-Omniscience)가 -34점으로 경쟁 모델보다 낮게 나온 것, API 가격이 입력 길이에 따라 최대 2.5배 달라지는 것, 멀티모달 미지원인 것은 실제 사용 시 체감되는 한계입니다.

개인적으로는 Claude Code와 Anthropic API 호환이 가능하다는 점이 이 모델의 가장 활용도 높은 부분이라고 생각합니다. 이미 Claude Code를 쓰는 개발자라면 환경 변수 4줄만 바꿔서 추론 집약적 코딩 태스크에서 직접 비교해보는 게 가능합니다. 그게 벤치마크 숫자보다 더 정직한 답을 줄 것 같습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Alibaba Qwen 공식 블로그 — “Pushing Qwen3-Max-Thinking Beyond its Limits” (2026.01.27)
    https://qwen.ai/blog?id=qwen3-max-thinking
  2. Artificial Analysis — “Qwen3-Max-Thinking Benchmarks and Analysis” (2026.01.29)
    https://artificialanalysis.ai/articles/qwen3-max-thinking-everything-you-need-to-know
  3. CIO.com — “주권 논의 속 출시된 알리바바 큐웬3-맥스-씽킹” (2026.01.28)
    https://www.cio.com/article/4123312/
  4. AI타임스 — “알리바바, 가장 뛰어난 추론 모델 큐원3-맥스 싱킹 출시” (2026.01.28)
    https://www.aitimes.com/news/articleView.html?idxno=206030
  5. GeekNews — “Qwen3-Max-Thinking 모델 공개” 요약 정리
    https://news.hada.io/topic?id=26153

⚠️ 본 포스팅은 2026년 03월 19일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모델명 qwen3-max-2026-01-23 기준이며, 이후 업데이트된 버전에서는 수치·기능·가격이 달라질 수 있습니다. 최신 정보는 qwen.ai 공식 채널에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기