Qwen3.5, 17B만 켜서 돌린다고요? 공식 문서로 3가지 직접 확인했습니다

Published on

in

Qwen3.5, 17B만 켜서 돌린다고요? 공식 문서로 3가지 직접 확인했습니다

2026.02.16 공개 기준
Qwen3.5-397B-A17B

Qwen3.5, 17B만 켜서 돌린다고요?
공식 문서로 3가지 직접 확인했습니다

알리바바가 2026년 2월 공개한 Qwen3.5-397B-A17B, 숫자만 보면 거대 모델 같지만 실제 추론에서 켜지는 파라미터는 17B뿐입니다. 공식 발표문과 독립 평가 데이터를 같이 놓고 보니 기대와 다른 부분이 보였습니다.

397B → 17B
실제 활성 파라미터
최대 991K
컨텍스트 윈도우
201개
지원 언어·방언
Apache 2.0
오픈 라이선스

397B인데 17B만 켠다는 게 무슨 뜻인가요

Qwen3.5-397B-A17B에서 ‘A17B’가 핵심입니다. 총 파라미터는 3,970억 개인데, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 170억 개뿐입니다. 이게 가능한 이유는 희소 혼합 전문가(Sparse MoE) 아키텍처 때문입니다.

구체적으로 설명하면, 이 모델에는 총 512개의 전문가(expert) 레이어가 있는데, 매 포워드 패스마다 그 중 10개의 라우팅 전문가와 1개의 공유 전문가, 합계 11개만 깨어납니다. 나머지 501개는 잠든 채로 있습니다. (출처: Hugging Face 공식 모델 카드, 2026.02.16)

💡 공식 발표문과 모델 카드를 같이 놓고 보니 이런 차이가 보였습니다 — 397B라는 숫자는 저장 용량(모델 파일 크기)에 가깝고, 추론 비용을 결정하는 건 17B입니다. 비용 계산을 할 때 397B 기준으로 생각하면 실제보다 훨씬 비싸게 예상하게 됩니다.

이 구조가 실용적으로 의미하는 건 간단합니다. 추론 속도와 API 비용이 17B 규모에 가깝게 나온다는 점입니다. Alibaba Cloud ModelStudio 기준 API 가격은 입력 $0.60/1M 토큰, 출력 $3.60/1M 토큰입니다. (출처: maniac.ai 비교표, 2026.03.25 업데이트) Claude Opus 4.6의 입력 $5.00/1M 토큰과 비교하면 약 8.3배 저렴합니다. 밀도 모델(Dense Model) 방식으로 설계했다면 이 가격은 나오기 어렵습니다.

▲ 목차로 돌아가기

속도는 얼마나 빠르고, 실제로 쓸 수 있는 환경은

공식 발표문에 따르면 Qwen3.5-397B-A17B의 디코딩 처리량은 전작인 Qwen3-Max 대비 32K 컨텍스트 기준 8.6배, 256K 컨텍스트 기준 19.0배입니다. (출처: Qwen 공식 블로그, 2026.02.15) 단순히 빠르다는 게 아니라, 긴 컨텍스트를 쓸수록 속도 이점이 커지는 구조입니다.

로컬 실행을 고려한다면 이야기가 달라집니다. 전체 모델 가중치는 FP16 기준 수백 GB에 달합니다. Hacker News 논의(2026.02.16)에 따르면, 모델을 전부 RAM+VRAM에 올릴 수 있으면 약 5 tokens/s가 나오지만, mmap(디스크에서 직접 읽는 방식)을 써야 하면 1 tokens/s 미만으로 떨어집니다. M3 MacBook Pro 48GB RAM에서 5 t/s로 돌린 사례가 Reddit에 올라왔지만, 이는 양자화(양자화 버전) 기준입니다. (출처: Reddit r/LocalLLaMA, 2026.03.19)

💡 SGLang·vLLM·KTransformers·Hugging Face Transformers를 지원하며, 공식 권장 사항은 8 GPU 텐서 병렬 실행입니다. SGLang으로 추론 서버를 띄울 때 MTP(Multi-Token Prediction) 옵션을 주면 처리량을 추가로 높일 수 있습니다. (출처: HuggingFace 모델 카드, 2026.02.16)

Thinking 모드가 기본값인 이유

Qwen3.5는 기본적으로 Thinking 모드로 작동합니다. 응답 전에 <think>...</think> 블록에서 추론 과정을 생성한 뒤 최종 답을 내놓습니다. 빠른 응답이 필요하면 API 파라미터로 Thinking을 끌 수 있는데, 비사고 모드에서는 Temperature 0.7, TopP 0.8이 권장 설정입니다. (출처: HuggingFace 모델 카드 Best Practices, 2026.02.16) 참고로, Qwen3와 달리 /think, /nothink 소프트 스위치는 공식적으로 지원하지 않습니다.

▲ 목차로 돌아가기

벤치마크 성적, 1등이 아닌 영역이 있습니다

Alibaba 공식 발표문 기준으로는 Qwen3.5-397B-A17B가 대부분의 지표에서 경쟁 모델과 엇비슷하거나 앞서는 것처럼 보입니다. 그런데 독립 평가 기관인 Vals AI의 표준화 하네스 기준으로는 순위가 달라집니다. 같은 설정으로 돌린 SWE-bench(실제 GitHub 이슈 해결)에서 Qwen3.5는 70.40%를 기록했는데, Claude Opus 4.6은 79.20%입니다. 9포인트 차이입니다. (출처: maniac.ai, Vals AI 기준, 2026.03.25)

벤치마크 Qwen3.5 Kimi K2.5 GLM-5 Claude Opus 4.6
SWE-bench (Vals) 70.40% 68.60% 67.80% 79.20%
LiveCodeBench v6 85.33% 83.87% 81.87% 84.68%
AIME (수학) 86.04% 95.63% 91.67% 95.63%
GPQA (대학원 과학) 87.37% 84.09% 83.33% 89.65%
Vals Index (종합) 57.06% 59.74% 60.69% 65.98%

출처: maniac.ai, Vals AI 표준화 하네스 기준 (2026.03.25 업데이트)

가장 눈에 띄는 건 경쟁 코딩(LiveCodeBench)에서 Qwen3.5(85.33%)가 Claude Opus 4.6(84.68%)을 앞선다는 점입니다. 오픈 웨이트 모델이 비슷한 조건에서 프론티어 모델을 앞서는 영역이 생겼습니다. 반면 수학(AIME 86.04%)은 같은 오픈 웨이트인 Kimi K2.5(95.63%)에 비해 9.6포인트 낮습니다. 모든 걸 잘하는 모델은 없고, 용도에 따라 선택해야 합니다.

▲ 목차로 돌아가기

할루시네이션이 경쟁 모델보다 높은 이유

Qwen3.5의 성능 지표 중 가장 조심해야 할 부분이 할루시네이션 관련 지표입니다. Artificial Analysis의 AA-Omniscience Index 측정 결과, Qwen3.5-397B-A17B는 -32점을 기록했습니다. 전작 Qwen3-235B(-48점)보다 16점 개선됐지만, 경쟁 모델인 Kimi K2.5(-11점), GLM-5(-1점)과 비교하면 여전히 격차가 큽니다. (출처: Artificial Analysis, 2026.02.17)

⚠️ Artificial Analysis는 할루시네이션율을 “모른다고 해야 할 때 틀린 답을 내놓는 비율”로 측정합니다. Qwen3.5의 정확도(Accuracy)는 30%로 전작(22%)보다 올랐지만, 할루시네이션율 자체는 88%로 여전히 높습니다. 정확도가 오른 것과 할루시네이션이 줄어든 것은 별개입니다.

이 수치가 실제 사용에서 의미하는 건, 모르는 것에 대해 “모릅니다”라고 대답하기보다 그럴듯한 답을 만들어낼 가능성이 경쟁 모델보다 높다는 것입니다. 특히 도메인 전문 지식이 필요한 질문(법률·의료·세금 등)에서 검증 없이 그대로 쓰면 위험합니다. Qwen3.5가 MedQA에서 95.21%의 좋은 성적을 낸 것과 별개로, 잘 모르는 영역에서 답변 거부 빈도가 낮다는 점은 구분해서 봐야 합니다.

Vals Index 종합에서 중국 모델 중 꼴찌인 이유

Vals Index 종합 점수(57.06%)는 GLM-5(60.69%), Kimi K2.5(59.74%)보다 낮습니다. 재미있는 건 이 모델의 파라미터 규모가 397B인데도 더 큰 Kimi K2.5(1T)보다 종합 지수가 낮다는 점입니다. 크기가 성능을 보장하지 않는다는 걸 이 수치가 직접 보여줍니다. Qwen3.5는 경쟁 코딩과 긴 컨텍스트에 특화된 선택지입니다.

▲ 목차로 돌아가기

Qwen3.5-Plus와 오픈 웨이트, 뭐가 다른가요

같은 이름처럼 보이지만 성격이 꽤 다릅니다. Qwen3.5-397B-A17B(오픈 웨이트)는 HuggingFace에서 가중치를 직접 받아 로컬이나 자체 서버에서 돌릴 수 있습니다. Apache 2.0 라이선스이므로 상업적 활용도 가능합니다. 반면 Qwen3.5-Plus는 Alibaba Cloud ModelStudio에서 제공하는 호스팅 버전입니다.

항목 오픈 웨이트 Qwen3.5-Plus
기본 컨텍스트 262K 토큰 1M 토큰 (기본값)
툴 사용 직접 구성 필요 빌트인 도구 포함
라이선스 Apache 2.0 Alibaba 서비스 약관
인프라 관리 직접 관리 Alibaba Cloud 관리
Thinking 모드 enable_thinking 파라미터 동일 파라미터, 별도 처리

출처: HuggingFace 모델 카드 및 Qwen 공식 블로그 (2026.02.15)

오픈 웨이트 버전으로 긴 문서를 처리하려면 YaRN(RoPE 스케일링)을 직접 설정해야 합니다. 기본 262K를 넘는 컨텍스트를 쓰려면 config.json에 rope_parameters를 수정하거나 vLLM 실행 시 별도 인자를 넘겨야 합니다. Plus 버전은 이런 설정 없이 1M 토큰이 기본값으로 작동합니다. (출처: HuggingFace 모델 카드, Processing Ultra-Long Texts 섹션)

▲ 목차로 돌아가기

중국 오픈소스 AI 경쟁판에서 Qwen3.5의 실제 위치

2026년 2월은 중국 AI 연구소들이 동시에 대형 모델을 쏟아낸 시기입니다. GLM-5(744B/40B 활성, 2026.02.11), MiniMax M2.5(230B/10B, 2026.02.12), Kimi K2.5(1T/32B, 2026.01.26), Qwen3.5(397B/17B, 2026.02.16)가 한 달 안에 연달아 출시됐습니다. 여기에 3월 들어 MiniMax M2.7과 Xiaomi MiMo-V2-Pro까지 가세했습니다.

💡 가격표와 벤치마크를 같이 놓고 보면 이런 그림이 나옵니다 — Qwen3.5는 비용 대비 성능 면에서 Claude Opus 4.6의 8.3분의 1 가격인데, 경쟁 코딩에서는 Opus를 앞서고 법률·의료 벤치마크에서는 거의 차이가 없습니다. 비용이 핵심인 고처리량 에이전트 파이프라인이라면 검토할 만한 선택지입니다.

Artificial Analysis Intelligence Index 기준으로 Qwen3.5-397B-A17B는 오픈 웨이트 모델 중 3위입니다. 1위는 GLM-5(Reasoning, 50점), 2위는 Kimi K2.5(Reasoning, 47점), 3위가 Qwen3.5(45점)입니다. (출처: Artificial Analysis, 2026.02.17) Qwen3.5가 최강이라고 홍보되는 경우가 있는데, 오픈 웨이트 내에서도 위에 있는 모델이 두 개 더 있습니다. 파라미터 수가 가장 적은(활성 파라미터 기준) 모델이 3위를 차지했다는 점은 효율성 측면에서 주목할 만합니다.

Qwen3.5를 고를 때 가장 설득력 있는 이유는 두 가지입니다. 첫째로 컨텍스트 윈도우 991K 토큰은 이 비교군에서 가장 깁니다. 한 번에 대규모 코드베이스나 긴 문서를 통째로 넣어야 하는 작업이라면 Kimi K2.5(262K)나 GLM-5(137K)보다 유리합니다. 둘째로 Apache 2.0 라이선스로 상업적 활용이 자유롭습니다. GLM-5는 MIT 라이선스, Kimi K2.5는 수정된 MIT 라이선스로 미묘한 차이가 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Qwen3.5-397B-A17B는 무료로 쓸 수 있나요?

오픈 웨이트 모델(HuggingFace)은 Apache 2.0 라이선스로 무료이며, 상업적으로도 사용 가능합니다. Qwen Chat에서도 체험은 무료입니다. 단, API(Alibaba Cloud ModelStudio)는 입력 $0.60/1M 토큰, 출력 $3.60/1M 토큰의 유료 과금이 적용됩니다. (출처: Alibaba Cloud ModelStudio 가격 페이지)

로컬에서 돌리려면 GPU가 얼마나 필요한가요?

공식 권장 구성은 8개 GPU 텐서 병렬입니다. 양자화 없이 FP16으로 올리려면 최소 수백 GB의 VRAM 또는 RAM이 필요합니다. M3 MacBook Pro 48GB에서 양자화 버전을 5 t/s로 돌린 사례가 있지만, 실용적인 속도를 위해서는 전용 추론 서버(SGLang·vLLM)가 권장됩니다. (출처: Reddit r/LocalLLaMA, 2026.03.19)

한국어 성능은 어느 정도인가요?

Qwen3.5는 201개 언어·방언을 지원하며 한국어도 포함됩니다. 250K 어휘 사전(전작 150K)을 써 대부분의 언어에서 인코딩·디코딩 효율이 10~60% 향상됐다고 밝혔습니다. 다만 공식 발표문에서 한국어 전용 벤치마크 수치는 별도로 공개하지 않았습니다. (출처: Qwen 공식 블로그, 2026.02.15)

Thinking 모드를 항상 켜두면 더 느려지나요?

맞습니다. Thinking 모드에서는 최종 답 전에 추론 토큰을 생성하므로 출력 토큰 수가 늘어납니다. 공식 권장 최대 출력 길이는 일반 쿼리 32,768 토큰, 수학·코딩 대회 수준 문제는 81,920 토큰입니다. API 비용도 추론 토큰만큼 더 발생합니다. 빠른 응답이 필요하면 enable_thinking: false 파라미터로 끌 수 있습니다. (출처: HuggingFace 모델 카드, 2026.02.16)

이미지, 영상 입력도 되나요? 별도 모델이 필요한가요?

Qwen3.5-397B-A17B는 텍스트·이미지·영상을 하나의 모델에서 처리하는 네이티브 멀티모달 모델입니다. 별도 비전 모델이 필요하지 않습니다. 기존 Qwen3 시리즈는 텍스트 모델(Qwen3)과 비전 모델(Qwen3-VL)이 분리돼 있었는데, Qwen3.5에서 처음 통합됐습니다. (출처: Qwen 공식 블로그, 2026.02.15)

▲ 목차로 돌아가기

마치며 — 언제 쓰고, 언제 다른 걸 써야 하나

Qwen3.5-397B-A17B를 한 줄로 표현하면 “긴 컨텍스트가 필요하고, 비용에 민감하고, 경쟁 코딩류 작업이 많다면 1순위 후보”입니다. 오픈 웨이트 모델 중 컨텍스트 윈도우가 가장 넓고(991K), Apache 2.0 라이선스로 제약이 없으며, 추론에 켜지는 파라미터가 17B뿐이라 운용 비용이 크기에 비해 낮습니다.

반면 수학 추론이 핵심이라면 Kimi K2.5가, 실제 GitHub 이슈 수준의 소프트웨어 엔지니어링이라면 Claude Opus 4.6이 Vals AI 기준 더 좋은 성적을 냅니다. 할루시네이션에 예민한 도메인(법률·의료·금융 정확도)에서도 독립 평가 기준으로 경쟁 모델 대비 열위입니다. 용도를 먼저 정하고, 해당 벤치마크 기준으로 고르는 게 맞습니다.

2026년 2~3월 한 달 사이에 오픈소스 AI 모델 지형이 이 정도로 빠르게 바뀌는 걸 보면, 지금 가장 나은 모델도 한 달 뒤엔 선택지 중 하나가 됩니다. Qwen3.5 자체보다 이 모델이 나오는 과정 — RL 환경 규모 확장, 멀티모달 조기 융합, 비전·언어 분리 훈련 구조 — 이 다음 세대에 어떻게 반영될지가 더 흥미롭습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Qwen Team 공식 블로그 — Qwen3.5: Towards Native Multimodal Agents (qwen.ai/blog?id=qwen3.5)
  2. HuggingFace 공식 모델 카드 — Qwen/Qwen3.5-397B-A17B (huggingface.co/Qwen/Qwen3.5-397B-A17B)
  3. Artificial Analysis — Qwen3.5-397B-A17B: Everything you need to know (artificialanalysis.ai)
  4. maniac.ai — Chinese frontier models compared: GLM-5, MiniMax M2.5, Kimi K2.5, and Qwen 3.5 (maniac.ai, 2026.03.25 업데이트)
  5. apxml.com — Qwen3.5-397B-A17B Specifications and GPU VRAM Requirements (apxml.com)

본 포스팅은 2026년 3월 30일 기준으로 작성됐습니다. AI 서비스 특성상 업데이트로 인해 모델 기능, 가격 정책, UI, 벤치마크 수치가 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로 최신 정보는 각 공식 채널에서 반드시 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기