Qwen3.5-397B-A17B
오픈소스 AI
Qwen 3.5, 397B인데 왜 이렇게 빠를까요?
Qwen 3.5 출시 이후 “397B 파라미터라서 느리지 않을까?” 하는 의문이 많습니다. 직접 공식 문서를 뜯어보니, 실제로는 17B만 활성화되는 구조라 GPT-5.4보다 빠를 수 있습니다. 가격도 최대 9배 저렴합니다. 다만 35B 소형 모델은 긴 대화에서 예상과 다르게 막히는 지점이 있습니다. 결론부터 말씀드리면, 어떤 모델을 선택하느냐보다 어떤 컨텍스트 길이에서 쓰느냐가 더 중요합니다.
397B이지만 17B만 켜지는 구조 — 이게 핵심입니다
MoE가 뭔지 알면 속도가 이해됩니다
Qwen 3.5의 핵심 구조는 Mixture-of-Experts(MoE)입니다. 모든 파라미터가 동시에 작동하는 게 아니라, 각 토큰을 처리할 때 512개 전문가(Expert) 중에서 10개만 선택해 쓰는 방식이에요. 공식 문서에 딱 이렇게 나옵니다 — “397B total parameters, just 17B are activated per forward pass”. 쉽게 말하면, 차고에 자동차 397대를 두고 매번 17대만 꺼내 쓰는 셈입니다. (출처: Qwen 공식 블로그, 2026.02.15)
Gated DeltaNet이 추가된 이유가 있습니다
기존 트랜스포머는 긴 컨텍스트를 처리할수록 어텐션 연산 비용이 제곱으로 늘어납니다. Qwen 3.5는 여기에 선형 어텐션(Gated Delta Networks)을 혼합해서 이 문제를 줄였습니다. 32K 컨텍스트에서 Qwen3-Max 대비 8.6배, 256K에서는 19배 빠른 디코딩 속도를 공식 발표에서 확인했습니다. (출처: Hugging Face 공식 모델 카드, 2026.02.15) 1조 파라미터짜리 모델을 추월하는 속도를 397B로 낸다는 뜻입니다.
학습 효율도 다릅니다
FP8 파이프라인 도입으로 활성화 메모리를 약 50% 줄이고 학습 속도를 10% 이상 높였다고 Qwen 팀이 공개했습니다. (출처: qwen.ai 공식 블로그, 2026.02.15) 이게 의미하는 건 간단합니다 — 같은 GPU 자원으로 더 많은 토큰을 처리할 수 있습니다.
GPT-5.4보다 9배 저렴한데, 성능 차이는 얼마나 될까요
가격 차이가 생각보다 큽니다
API 비용 기준으로 직접 비교해봤습니다. GPT-5.4 입력 토큰 가격은 $2.50/M이고, Qwen3.5-Plus(397B 호스팅 버전)는 $0.26/M입니다. (출처: pricepertoken.com 기준, 2026.03 기준) 출력 토큰도 GPT-5.4가 $15/M인 반면 Qwen3.5-Plus는 $1.20/M 수준입니다. 한 달에 API를 통해 1억 토큰을 소비하는 서비스라면 입출력 합산으로 월 비용 차이가 수백만 원 단위로 벌어집니다.
| 항목 | GPT-5.4 | Qwen3.5-Plus | 차이 |
|---|---|---|---|
| 입력 가격/1M 토큰 | $2.50 | $0.26 | 약 9.6배 |
| 출력 가격/1M 토큰 | $15.00 | $1.20 | 약 12.5배 |
| 컨텍스트 창 | 128K | 1M | Qwen 우위 |
| MMLU-Pro 점수 | 87.4 | 87.8 | Qwen 소폭 우위 |
| IFBench(지시 따르기) | 75.4 | 76.5 | Qwen 소폭 우위 |
| LiveCodeBench v6 | 87.7 | 83.6 | GPT 우위 |
출처: Qwen 공식 블로그, HuggingFace 모델 카드, pricepertoken.com (2026.03 기준)
코딩 성능은 GPT-5.4가 앞섭니다
지식 평가(MMLU-Pro)나 지시 따르기(IFBench)에서는 Qwen 3.5가 GPT-5.4보다 소폭 높습니다. 반면 LiveCodeBench v6(실시간 코딩 벤치마크)은 87.7 대 83.6으로 GPT-5.4가 4.1점 앞섭니다. (출처: Qwen 공식 블로그, 2026.02.15) 코딩이 주목적이라면 가격 대비 성능을 다시 계산해볼 필요가 있습니다.
35B 모델이 막히는 조건이 따로 있습니다
가볍다고 다 되는 건 아닙니다
공식 발표를 읽으면 35B-A3B(활성 파라미터 3B)가 놀랍도록 작은 자원으로 동작한다는 인상을 받습니다. 실제로 M2 Max 같은 소비자용 하드웨어에서도 돌아가죠. 기대했던 것과 달랐던 부분이 있는데 — Reddit LocalLLaMA 커뮤니티에서 다수 사용자가 보고한 내용을 보면, 80K 토큰 이후 컨텍스트에서 코딩 작업 중 hallucination이 증가한다는 사례가 반복됩니다. (출처: reddit.com/r/LocalLLaMA, 2026.03)
어떤 작업에서 주의해야 할까요
정확히는 이렇습니다. 35B 모델을 짧은 대화나 단독 파일 단위 코드 작성에 쓸 때는 문제가 없습니다. 문제는 에이전트 방식으로 여러 파일을 동시에 다루거나, 대형 코드베이스를 맥락으로 넣을 때 — 이때 컨텍스트가 80K를 넘기면 변수명 오기, 없는 라이브러리 함수 호출, 잘못된 import 순서 등이 나타나기 시작합니다. 모델이 나쁜 게 아니라 용량 한계에 부딪히는 겁니다.
공식 문서는 35B-A3B의 컨텍스트 창을 262,144 토큰으로 표기합니다. 그러나 실제 코딩 작업에서 80K 이후 할루시네이션이 늘어나는 건, 컨텍스트 창의 크기와 모델이 그 전체를 안정적으로 처리하는 능력이 별개라는 점을 보여줍니다. 창이 크다고 끝까지 잘 쓰는 건 아닙니다.
해결책은 어디에 있을까요
397B 플래그십 모델을 API로 쓰거나, 35B를 쓸 때는 컨텍스트를 의도적으로 짧게 관리하는 것이 현실적인 대응입니다. Qwen 팀도 공식 문서에서 “최소 128K 이상의 컨텍스트 창을 유지하기를 권장한다”는 문구를 남겼지만, 이는 생각(Thinking) 기능을 보존하기 위한 권고이지 hallucination을 막는 보장은 아닙니다.
크기보다 양자화가 더 중요한 이유
모델 크기보다 quant 수준이 더 결정적입니다
실제 사용자 경험을 보면 흥미로운 패턴이 있습니다. 같은 35B 모델이라도 Q4_K_M 양자화로 실행했을 때 변수명 오기, import 오류가 빈번하지만, Q8이나 BF16에 가깝게 올리면 같은 문제가 현저히 줄어듭니다. (출처: r/LocalLLaMA 사용자 Chromix_, 2026.03 실사용 보고) 큰 모델을 낮은 quant로 쓰는 것보다, 작은 모델을 높은 quant로 쓰는 게 코딩 정확도에서 더 나을 수 있다는 뜻입니다.
KV 캐시 양자화도 영향이 큽니다
에이전트 모드에서 KV 캐시 양자화를 켜면 VRAM을 아낄 수 있지만, 그만큼 컨텍스트 정보가 압축됩니다. 커뮤니티에서 권장하는 설정은 K는 F16, V는 Q8을 유지하는 것입니다. 캐시까지 낮은 정밀도로 떨어뜨리면 긴 대화에서 일관성이 깨지는 경험이 보고됩니다. 막상 해보면 다릅니다 — VRAM을 아끼려다 결과 품질을 손상시키는 셈이 되죠.
“Qwen 3.5 나쁘다”는 평가와 “Qwen 3.5 최고다”는 평가가 동시에 존재하는 이유는, 대부분 quant 수준과 KV 캐시 설정 차이에서 옵니다. 모델 자체의 문제라기보다 실행 환경에 따라 체감이 극단적으로 갈리는 구조입니다.
권장 실행 파라미터는 이렇습니다
Qwen 공식 문서와 커뮤니티 합산 기준으로 정리하면: 사고(thinking) 모드에서는 temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0을 씁니다. 일반(instruct) 모드에서는 temperature=0.7, top_p=0.8, top_k=20이 권장됩니다. repeat_penalty는 코딩 작업에서 1.0 그대로 두는 것이 공식 가이드입니다. (출처: Hugging Face 공식 모델 카드 Best Practices 섹션, 2026.02.15)
201개 언어 지원, 한국어는 실제로 얼마나 달라졌을까요
단순히 언어 수만 늘어난 게 아닙니다
Qwen 3.5는 이전 Qwen3 시리즈의 119개 언어에서 201개로 확장됐습니다. 그런데 단순히 지원 언어 수를 늘린 것보다 주목할 만한 변화가 있습니다. 어휘 사전(Vocabulary)이 150,000개에서 250,000개로 늘어났고, 공식 블로그에 따르면 이 확장이 대부분의 언어에서 인코딩·디코딩 효율을 10~60% 높였습니다. (출처: qwen.ai 공식 블로그, 2026.02.15) 한국어처럼 형태소가 복잡한 언어에서는 같은 텍스트를 더 적은 토큰으로 처리할 수 있습니다.
토큰 효율이 비용과 직결됩니다
토큰 효율이 10% 개선된다는 건, 같은 분량의 한국어 텍스트를 처리할 때 API 호출 비용이 그만큼 줄어든다는 의미입니다. Qwen3.5-Plus가 이미 GPT-5.4보다 9배 저렴한 상태에서 토큰 효율까지 높아졌으니, 한국어 콘텐츠를 대량으로 처리해야 하는 환경에서는 비용 격차가 더 벌어집니다.
다국어 벤치마크에서의 위치
NOVA-63 다국어 이해 벤치마크에서 Qwen 3.5는 59.1점으로, GPT-5.4(54.6), Claude 4.5 Opus(56.7)보다 높습니다. (출처: Qwen 공식 블로그 벤치마크 표, 2026.02.15) 다국어 정확도에서는 프론티어 유료 모델보다 앞서는 수치입니다.
어떤 상황에서 Qwen 3.5를 고르는 게 유리할까요
이 조건이면 Qwen 3.5가 맞습니다
아래 조건 중 하나라도 해당되면 Qwen 3.5가 경쟁력 있는 선택입니다.
- API 비용을 낮춰야 하는 서비스 — 입력 기준 GPT-5.4의 10% 수준으로 같은 성능을 냅니다.
- 긴 문서를 한 번에 처리해야 하는 경우 — 1M 토큰 컨텍스트를 Qwen3.5-Plus에서 지원합니다.
- 멀티모달이 필요한 경우 — 텍스트, 이미지, 영상을 단일 모델에서 처리합니다.
- 오픈소스로 직접 호스팅하려는 경우 — 모델 가중치가 공개되어 있습니다.
- 다국어 처리가 많은 경우 — NOVA-63 다국어 벤치마크에서 GPT-5.4를 앞섭니다.
이 조건이면 다시 생각해볼 필요가 있습니다
반대로, 아래 상황에서는 Qwen 3.5 단독으로 쓰기 전에 검토가 필요합니다.
- 실시간 코딩 벤치마크(LiveCodeBench) 중심 작업 — GPT-5.4 대비 4점 이상 낮습니다.
- 35B 소형 모델로 긴 코드베이스를 다루는 경우 — 80K 초과 시 안정성이 떨어집니다.
- 낮은 quant으로 실행하는 경우 — Q4 이하에서는 hallucination 위험이 높아집니다.
- Solidity 같은 틈새 언어 전문 작업 — 학습 데이터가 적어 틈새 언어에서 정확도 차이가 납니다.
Q&A
마치며
Qwen 3.5는 “오픈소스 AI가 유료 프론티어 모델을 따라잡았다”는 말이 과장이 아닌 시대의 산물입니다. 397B 전체를 매번 돌리지 않고 17B만 쓰는 구조 덕분에, 1조 파라미터짜리 모델보다 빠르고 GPT-5.4보다 9배 저렴합니다. 다국어 토큰 효율까지 개선됐으니 한국어 중심 서비스라면 비용 절감 효과가 더 큽니다.
솔직히 말하면, 모든 상황에서 Qwen 3.5가 최선은 아닙니다. 실시간 코딩 벤치마크에서 GPT-5.4에 밀리고, 35B 소형 모델은 긴 코드베이스에서 불안합니다. 양자화 수준을 신경 쓰지 않으면 기대와 다른 결과를 받을 수 있습니다. 써보니까 결국 핵심은 모델 선택이 아니라 어떤 quant, 어떤 컨텍스트 길이, 어떤 파라미터로 쓰느냐였습니다.
API 비용을 줄이면서 멀티모달까지 한 모델에서 해결하고 싶다면, Qwen 3.5는 지금 시점에서 가장 현실적인 선택 중 하나입니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 가격 및 벤치마크 수치는 2026년 3월 24일 기준이며, API 요금 및 모델 성능은 공급사 정책에 따라 달라질 수 있습니다. 공식 최신 정보는 qwen.ai 및 Alibaba Cloud 공식 사이트를 통해 확인하시기 바랍니다.

댓글 남기기