Qwen3.5, 397B인데 왜 1T보다 빠를까요?

Published on

in

Qwen3.5, 397B인데 왜 1T보다 빠를까요?

2026.02.16 출시 기준
Qwen3.5-397B-A17B
Apache 2.0 오픈소스

Qwen3.5, 397B인데 왜 1T보다 빠를까요?

알리바바가 2026년 2월 16일 공개한 Qwen3.5-397B-A17B는 총 3,970억 개의 파라미터를 갖고 있습니다. 그런데 공식 벤치마크에서 자사의 1조 파라미터 이전 플래그십 모델을 성능과 속도 두 가지 면에서 모두 앞섰습니다. 숫자만 보면 말이 안 되는 일인데, 이게 어떻게 가능한지 — 그리고 여기에 어떤 함정이 있는지 — 공식 문서와 독립 벤치마크 수치를 직접 확인해서 정리했습니다.

19×
256K 컨텍스트 디코딩 속도
vs Qwen3-Max
201개
지원 언어·방언
(전작 119개 → 68% 증가)
88%
여전히 남아있는
할루시네이션 발생률
512개
MoE 전문가 수
(전작 128개 대비 4배)

397B가 1T보다 빠른 이유, 구조에 있었습니다

Qwen3.5의 핵심은 MoE(Mixture-of-Experts, 전문가 혼합) 구조입니다. 총 397B 파라미터 중 실제 추론 시 활성화되는 건 17B뿐입니다. 나머지 380B는 대기 중인 전문가들이고, 입력마다 512개의 전문가 풀에서 10개만 골라서 씁니다. 결국 연산 부담은 17B짜리 밀집 모델과 비슷한 수준으로 유지됩니다.

여기에 Gated DeltaNet 선형 어텐션표준 Gated Attention을 15:1 비율로 혼합하는 하이브리드 어텐션이 더해집니다. 선형 어텐션은 긴 컨텍스트에서 기존 트랜스포머가 겪는 메모리 압박을 크게 줄여줍니다. 그 결과, 256K 컨텍스트 기준 디코딩 처리량이 전작 Qwen3-Max 대비 19배, Qwen3-235B-A22B 대비 7.2배 빠릅니다. (출처: Alibaba Qwen 공식 블로그, 2026.02.15)

💡 공식 발표문과 실제 아키텍처 설계를 같이 놓고 보니 이런 차이가 보였습니다.
MoE 구조에서 “전문가 수”가 많을수록 무조건 좋은 건 아닙니다. 전작 Qwen3 MoE의 전문가 수는 128개였는데, Qwen3.5에서는 512개로 4배 늘었습니다. 그런데 활성화 전문가 수는 10개로 동일합니다. 전문가 풀이 깊어질수록 각 전문가의 전문화 수준이 높아지고, 같은 토큰 수로 더 다양한 지식을 조합할 수 있습니다. 숫자가 4배 늘었다고 연산이 4배 무거워지는 게 아닌 이유가 여기 있습니다.

학습 인프라도 바뀌었습니다. 멀티토큰 예측(MTP) 기법으로 사전학습 수렴 속도를 높였고, FP8 훈련 파이프라인을 적용해 활성화 메모리를 약 50% 줄이면서 속도는 10% 이상 빨라졌습니다. (출처: Qwen 공식 블로그, 2026.02.15)

▲ 목차로 돌아가기

벤치마크 수치, 공식 문서와 직접 비교해봤습니다

Qwen3.5-397B-A17B의 공식 벤치마크를 GPT-5.2, Claude Opus 4.5, Gemini-3 Pro와 나란히 놓고 봤습니다. 전반적인 지식 평가(MMLU-Pro)에서 87.8점, 지시어 추종(IFBench)에서 76.5점을 기록했는데, IFBench 수치는 비교 모델 중 가장 높습니다. (출처: Qwen 공식 HuggingFace 모델카드, 2026.03.09 기준)

벤치마크 GPT-5.2 Gemini-3 Pro Claude Opus 4.5 Qwen3.5-397B
MMLU-Pro 87.4 89.8 89.5 87.8
IFBench (지시어) 75.4 70.4 58.0 76.5 ✅
SWE-bench Verified 80.0 76.2 80.9 76.4
MathVista(mini) 83.1 87.9 80.0 90.3 ✅
VITA-Bench (에이전트) 38.2 51.6 56.3 49.7

출처: Qwen 공식 HuggingFace 모델카드 (2026.03.09), Artificial Analysis Intelligence Index (2026.02.17)

IFBench 76.5점은 단순히 “지시를 잘 따른다”는 게 아니라, 복잡한 다단계 지시를 처리하는 능력을 측정합니다. 이 수치가 GPT-5.2(75.4)보다 높다는 건 에이전트 작업에서 실질적인 차이로 이어질 수 있습니다. 반면 VITA-Bench(에이전트 종합)에서는 Claude Opus 4.5(56.3)에 뒤집니다. 에이전트 성능이 벤치마크마다 다르게 나오는 이유를 그냥 지나치면 안 됩니다.

▲ 목차로 돌아가기

멀티모달, 이번엔 진짜 통합입니다

기존 알리바바 AI 모델은 텍스트 모델(Qwen3)과 비전-언어 모델(Qwen3-VL)이 별개로 분리돼 있었습니다. Qwen3.5는 이 구분을 없앴습니다. 텍스트, 이미지, 비디오를 처음부터 함께 학습시키는 얼리 퓨전(early fusion) 방식을 채택해서, 시각 정보가 언어 모델 위에 얹혀진 형태가 아닌 모델의 핵심 표현에 녹아들어 있습니다.

멀티모달 수학 벤치마크인 MathVista(mini)에서 90.3점을 기록했는데, 이는 GPT-5.2(83.1), Gemini-3 Pro(87.9), Claude Opus 4.5(80.0)를 모두 앞서는 수치입니다. (출처: Qwen 공식 HuggingFace 모델카드, 2026.03.09) 수학 문제를 시각적으로 이해하는 능력이 비전 어댑터를 붙인 방식보다 얼리 퓨전에서 더 잘 나온다는 증거입니다.

💡 비디오 입력 최적화 파라미터가 기본값으로는 보수적으로 설정돼 있습니다.
공식 문서에 따르면, 릴리즈된 video_preprocessor_config.jsonsize 파라미터가 “텍스트와 이미지 추론 효율을 위해 보수적으로 구성”돼 있습니다. 시간 단위 영상에서 제대로 된 성능을 내려면 longest_edge를 469,762,048(약 224K 비디오 토큰)로 수동으로 변경해야 합니다. (출처: Qwen 공식 HuggingFace 모델카드, Best Practices 섹션) 이 설정을 바꾸지 않으면 장시간 영상 이해 성능이 공식 발표 수치에 미치지 못할 수 있습니다.

또 하나: 컨텍스트 최대 길이는 기본 262,144 토큰이고, 호스팅 버전인 Qwen3.5-Plus에서는 100만 토큰까지 지원합니다. 오픈웨이트 버전에서 1M 컨텍스트를 쓰려면 YaRN 스케일링 기법을 별도로 설정해야 합니다.

▲ 목차로 돌아가기

로컬에서 실제로 돌리려면 이게 필요합니다

MoE 구조라서 로컬 실행이 쉬울 거라고 생각하면 여기서 걸립니다. 활성화 파라미터가 17B이지만, 모든 전문가 가중치를 메모리에 올려둬야 하기 때문에 전체 파라미터 크기만큼의 저장 공간이 필요합니다. FP16 기준 전체 모델 용량은 약 917GB입니다. (출처: apxml.com, 2026.03.11)

양자화 방식 필요 메모리 실용적 구성
FP16 (풀 정밀도) ~917 GB 멀티노드 서버 필요
FP8 ~400 GB A100 80GB × 5~8개
Q4 (4비트 양자화) ~224 GB VRAM 24GB + 시스템 RAM 256GB
Q4 KTransformers 오프로드 VRAM 24GB + RAM 192GB 소비자 GPU로 구동 가능

출처: Unsloth 공식 문서, apxml.com GPU 요구사항 가이드 (2026.03.11), Reddit LocalLLM (2026.02.28) 기준

KTransformers를 사용하면 RTX 4090(24GB VRAM) 1장에 시스템 RAM 192~256GB 구성으로도 Q4 모델을 돌릴 수 있습니다. 이 구성에서 실측된 속도는 약 25 토큰/초 수준으로, 이는 실시간 대화가 가능한 속도입니다. (출처: Unsloth 공식 문서, 2026.03.20 기준) 다만 RTX 4090 1장으로 구현하려면 MoE 레이어를 CPU-GPU 간에 분산 배치하는 오프로딩 설정이 필수입니다.

⚠️ 양자화 수준이 낮을수록 코드 할루시네이션이 심해집니다.
Reddit LocalLLaMA 실사용 후기들을 보면, Q4 미만 양자화에서 Solidity 같은 도메인 특화 언어의 함수명을 잘못 인식하거나 존재하지 않는 함수를 자신 있게 호출하는 사례가 다수 보고됩니다. 공식 Unsloth 문서도 코딩 작업에는 Q5 이상을 권장합니다. (출처: Reddit r/LocalLLaMA, 2026.03.01)

▲ 목차로 돌아가기

할루시네이션 수치, 개선됐다는 말이 반만 맞습니다

Qwen3.5의 공식 보도자료는 이전 모델보다 할루시네이션이 개선됐다고 강조합니다. 그런데 독립 분석 기관인 Artificial Analysis의 수치를 직접 확인하면 이야기가 달라집니다.

💡 공식 발표와 독립 지표를 나란히 놓으니 이런 차이가 드러났습니다.
Artificial Analysis의 AA-Omniscience Index 기준으로, Qwen3.5-397B의 할루시네이션 발생률은 88%로, 전작 Qwen3-235B의 90%에서 불과 2%p 개선에 그쳤습니다. 개선은 ‘잘 모를 때 거부하는 능력(정확도)’이 22%→30%로 높아진 데서 왔지, 실제 잘못된 답을 자신 있게 내놓는 빈도는 거의 그대로입니다. 비교 모델인 Kimi K2.5는 같은 측정에서 할루시네이션 발생률이 11%, GLM-5는 1%입니다. (출처: Artificial Analysis Intelligence Index, 2026.02.17)

이게 실무에서 어떤 의미인지 한 줄로 해석하면 이렇습니다: 모른다는 걸 잘 말하게 됐지만, 안다고 생각하고 틀리는 경우는 전작과 비슷한 빈도로 여전히 발생합니다. 중요한 사실 확인 작업이나 법률·의학 문서에 직접 사용하기 전에 반드시 검증 절차를 거쳐야 하는 이유가 여기 있습니다.

또 한 가지 주목할 변화: Qwen3에서는 프롬프트에 /think/nothink를 넣으면 추론 모드를 바꿀 수 있었는데, Qwen3.5에서는 이 소프트 스위치가 공식 지원에서 제외됐습니다. 기본값이 항상 thinking 모드이고, 비추론 모드를 원하면 API 파라미터 enable_thinking: false를 별도로 설정해야 합니다. (출처: Qwen 공식 HuggingFace 모델카드) 간단한 프롬프트에서도 추론 토큰이 먼저 소비되기 때문에, 빠른 응답이 필요한 실시간 애플리케이션에서는 API 파라미터 조정이 필수입니다.

▲ 목차로 돌아가기

공식 API vs 로컬 vs 무료 채팅, 어떻게 다를까요

지금 Qwen3.5를 쓸 수 있는 경로는 크게 세 가지입니다. 어떤 걸 선택하느냐에 따라 컨텍스트 길이와 비용이 크게 달라집니다.

방법 컨텍스트 비용 특이사항
Qwen Chat (무료) 1M 토큰 무료 사용 제한 있음, 확인 필요
Alibaba Cloud API (Qwen3.5-Plus) 1M 토큰 $0.60/$3.60
(입력/출력, 1M 토큰당)
툴 내장, 공식 지원
오픈웨이트 로컬 (HuggingFace) 262K 토큰
(YaRN 설정 시 1M)
하드웨어 비용만 Apache 2.0, 상업적 사용 가능

출처: Alibaba Cloud Model Studio 공식 요금 페이지, Qwen HuggingFace 모델카드 (2026.02.16 기준) · Qwen Chat 무료 사용 제한 세부 조건은 공식 페이지에서 확인 필요

API 가격에서 주목할 점이 하나 있습니다. VentureBeat 분석에 따르면 Qwen3.5는 Google Gemini 3 Pro 대비 약 1/18 수준의 추론 비용입니다. (출처: VentureBeat, 2026.02.18) 단순 가격 비교가 아니라, 같은 예산으로 18배 많은 토큰을 처리할 수 있다는 의미로 대규모 배치 처리나 내부 시스템 구축 시 고려할 만한 수치입니다.

오픈웨이트 모델은 Apache 2.0 라이선스로 공개됐습니다. 상업적 사용, 수정, 재배포 모두 허용되며 로열티가 없습니다. 사내 데이터를 외부 API에 보내는 것에 규제가 있는 금융·의료 환경에서 내부 배포 옵션으로 검토할 수 있습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Qwen3.5-397B는 ChatGPT나 Claude 없이 대체 가능한 모델인가요?
일부 작업에서는 GPT-5.2나 Claude Opus 4.5를 앞서는 벤치마크 결과가 있습니다. 특히 지시어 추종(IFBench 76.5점)과 수학 비주얼(MathVista 90.3점)에서는 비교 모델 전체를 앞섭니다. 다만 에이전트 종합 성능(VITA-Bench)에서는 Claude Opus 4.5(56.3점)가 Qwen3.5(49.7점)보다 높습니다. “대체”보다는 “용도에 따라 선택”이 맞는 표현입니다.
Q2. 일반 게이밍 PC로 로컬 실행이 가능한가요?
RTX 4090 (24GB VRAM) + 시스템 RAM 192GB 이상 구성이면 KTransformers를 통해 Q4 양자화 모델 실행이 가능합니다. 속도는 약 25 토큰/초 수준입니다. (출처: Unsloth 공식 문서) 다만 RAM 192GB는 일반 게이밍 PC 기준을 넘어서는 수준으로, 실질적으로는 워크스테이션급 구성이 필요합니다. 더 작은 규모의 Qwen3.5-35B-A3B는 RTX 4090 1장(24GB)으로 충분히 동작합니다.
Q3. /think, /nothink 명령어가 Qwen3.5에서 안 된다는데 대안은 있나요?
공식 문서에서 명시적으로 소프트 스위치를 지원하지 않는다고 밝혔습니다. (출처: Qwen HuggingFace 모델카드) API 사용 시 enable_thinking: false를 extra_body에 추가하면 비추론 모드로 전환됩니다. Qwen Chat 웹 인터페이스에서는 “Fast” 모드를 선택하면 동일한 효과입니다. 로컬 환경(vLLM 등)에서는 chat_template_kwargs: {enable_thinking: false}를 사용합니다.
Q4. 한국어 성능은 어느 수준인가요?
공식 벤치마크에 한국어 단독 점수는 공개되지 않았습니다. 다만 다국어 평가인 MMMLU에서 88.5점, MMLU-ProX(29개 언어 평균)에서 84.7점을 기록했습니다. 어휘(vocabulary) 크기가 150K에서 250K로 늘어 비라틴 문자(한국어 포함)의 토큰 효율이 15~40% 개선됐다고 공식 문서에 명시돼 있습니다. (출처: Qwen 공식 블로그, 2026.02.15) 실제 한국어 성능의 구체적 수치는 별도 검증이 필요합니다.
Q5. Qwen3.5 다음 모델은 언제 나오나요?
알리바바는 397B 모델이 Qwen3.5 시리즈의 첫 번째 공개임을 공식 확인했습니다. Qwen3 시리즈 패턴을 보면 이후 소규모 밀집 모델(distilled)과 추가 MoE 구성이 순차적으로 공개될 것으로 예상됩니다. 2026년 3월 24일 현재 추가 모델 출시 날짜는 공식 발표가 없는 상태입니다. Qwen 공식 채널(@Alibaba_Qwen)에서 업데이트를 확인하는 것이 가장 빠릅니다.

▲ 목차로 돌아가기

마치며

Qwen3.5-397B-A17B는 파라미터 숫자로 상대를 판단하던 방식이 더 이상 유효하지 않다는 걸 보여준 모델입니다. 397B가 1조 파라미터 모델보다 빠르고, 같은 오픈웨이트 1T 모델보다 성능이 높게 나오는 현상은 순전히 구조의 차이에서 비롯됩니다. 이 부분은 공식 수치로 충분히 확인됩니다.

그러나 할루시네이션 발생률이 88%에 머물러 있다는 점, 로컬 실행에 현실적으로 192GB 이상의 RAM이 필요하다는 점, 비디오 처리에서 기본 설정이 보수적으로 되어 있다는 점은 실제 도입 전에 반드시 확인해야 합니다. 특히 코드 생성 작업에서는 Q5 이상 양자화 수준을 지키지 않으면 벤치마크 수치와 실사용 체감이 크게 벌어질 수 있습니다.

Apache 2.0 라이선스로 상업적 사용이 자유로운 오픈웨이트 모델 중 현재 벤치마크 기준 최상위 그룹에 속하는 건 사실입니다. 비용이 민감한 대규모 배치 작업이나, 외부 API를 쓰기 어려운 보안 환경에서 가장 먼저 검토할 만한 모델입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Alibaba Qwen 공식 블로그 — “Qwen3.5: Towards Native Multimodal Agents” (qwen.ai/blog?id=qwen3.5)
  2. Qwen/Qwen3.5-397B-A17B 공식 HuggingFace 모델카드 (huggingface.co/Qwen/Qwen3.5-397B-A17B)
  3. Artificial Analysis — “Qwen3.5-397B-A17B: Everything you need to know” (artificialanalysis.ai)
  4. VentureBeat — “Alibaba’s Qwen 3.5 397B-A17 beats its larger trillion-parameter model” (venturebeat.com)
  5. Unsloth 공식 문서 — Qwen3.5 로컬 실행 가이드 (unsloth.ai/docs/models/qwen3.5)

⚠️ 본 포스팅은 2026년 3월 20일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 공식 발표 자료 및 독립 평가 기관의 측정값을 기준으로 하며, 실제 사용 환경에 따라 결과가 달라질 수 있습니다. 모든 비용과 요금 정보는 공식 페이지에서 최신 정보를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기