2026.02.15 공식 출시 기준
Qwen3.5-397B-A17B
오픈소스 AI

Qwen 3.5, 397B인데 왜 이렇게 빠를까요?

Qwen 3.5 출시 이후 “397B 파라미터라서 느리지 않을까?” 하는 의문이 많습니다. 직접 공식 문서를 뜯어보니, 실제로는 17B만 활성화되는 구조라 GPT-5.4보다 빠를 수 있습니다. 가격도 최대 9배 저렴합니다. 다만 35B 소형 모델은 긴 대화에서 예상과 다르게 막히는 지점이 있습니다. 결론부터 말씀드리면, 어떤 모델을 선택하느냐보다 어떤 컨텍스트 길이에서 쓰느냐가 더 중요합니다.

총 파라미터 vs 활성 파라미터

397B → 17B

실제 추론에 쓰이는 수

GPT-5.4 대비 API 가격

약 9배 저렴

$2.50/M vs $0.26/M 입력 토큰

Qwen3-Max 대비 속도

최대 19배 빠름

256K 컨텍스트 기준

397B이지만 17B만 켜지는 구조 — 이게 핵심입니다

MoE가 뭔지 알면 속도가 이해됩니다

Qwen 3.5의 핵심 구조는 Mixture-of-Experts(MoE)입니다. 모든 파라미터가 동시에 작동하는 게 아니라, 각 토큰을 처리할 때 512개 전문가(Expert) 중에서 10개만 선택해 쓰는 방식이에요. 공식 문서에 딱 이렇게 나옵니다 — “397B total parameters, just 17B are activated per forward pass”. 쉽게 말하면, 차고에 자동차 397대를 두고 매번 17대만 꺼내 쓰는 셈입니다. (출처: Qwen 공식 블로그, 2026.02.15)

Gated DeltaNet이 추가된 이유가 있습니다

기존 트랜스포머는 긴 컨텍스트를 처리할수록 어텐션 연산 비용이 제곱으로 늘어납니다. Qwen 3.5는 여기에 선형 어텐션(Gated Delta Networks)을 혼합해서 이 문제를 줄였습니다. 32K 컨텍스트에서 Qwen3-Max 대비 8.6배, 256K에서는 19배 빠른 디코딩 속도를 공식 발표에서 확인했습니다. (출처: Hugging Face 공식 모델 카드, 2026.02.15) 1조 파라미터짜리 모델을 추월하는 속도를 397B로 낸다는 뜻입니다.

학습 효율도 다릅니다

FP8 파이프라인 도입으로 활성화 메모리를 약 50% 줄이고 학습 속도를 10% 이상 높였다고 Qwen 팀이 공개했습니다. (출처: qwen.ai 공식 블로그, 2026.02.15) 이게 의미하는 건 간단합니다 — 같은 GPU 자원으로 더 많은 토큰을 처리할 수 있습니다.

▲ 목차로 돌아가기

GPT-5.4보다 9배 저렴한데, 성능 차이는 얼마나 될까요

가격 차이가 생각보다 큽니다

API 비용 기준으로 직접 비교해봤습니다. GPT-5.4 입력 토큰 가격은 $2.50/M이고, Qwen3.5-Plus(397B 호스팅 버전)는 $0.26/M입니다. (출처: pricepertoken.com 기준, 2026.03 기준) 출력 토큰도 GPT-5.4가 $15/M인 반면 Qwen3.5-Plus는 $1.20/M 수준입니다. 한 달에 API를 통해 1억 토큰을 소비하는 서비스라면 입출력 합산으로 월 비용 차이가 수백만 원 단위로 벌어집니다.

항목	GPT-5.4	Qwen3.5-Plus	차이
입력 가격/1M 토큰	$2.50	$0.26	약 9.6배
출력 가격/1M 토큰	$15.00	$1.20	약 12.5배
컨텍스트 창	128K	1M	Qwen 우위
MMLU-Pro 점수	87.4	87.8	Qwen 소폭 우위
IFBench(지시 따르기)	75.4	76.5	Qwen 소폭 우위
LiveCodeBench v6	87.7	83.6	GPT 우위

출처: Qwen 공식 블로그, HuggingFace 모델 카드, pricepertoken.com (2026.03 기준)

코딩 성능은 GPT-5.4가 앞섭니다

지식 평가(MMLU-Pro)나 지시 따르기(IFBench)에서는 Qwen 3.5가 GPT-5.4보다 소폭 높습니다. 반면 LiveCodeBench v6(실시간 코딩 벤치마크)은 87.7 대 83.6으로 GPT-5.4가 4.1점 앞섭니다. (출처: Qwen 공식 블로그, 2026.02.15) 코딩이 주목적이라면 가격 대비 성능을 다시 계산해볼 필요가 있습니다.

▲ 목차로 돌아가기

35B 모델이 막히는 조건이 따로 있습니다

가볍다고 다 되는 건 아닙니다

공식 발표를 읽으면 35B-A3B(활성 파라미터 3B)가 놀랍도록 작은 자원으로 동작한다는 인상을 받습니다. 실제로 M2 Max 같은 소비자용 하드웨어에서도 돌아가죠. 기대했던 것과 달랐던 부분이 있는데 — Reddit LocalLLaMA 커뮤니티에서 다수 사용자가 보고한 내용을 보면, 80K 토큰 이후 컨텍스트에서 코딩 작업 중 hallucination이 증가한다는 사례가 반복됩니다. (출처: reddit.com/r/LocalLLaMA, 2026.03)

어떤 작업에서 주의해야 할까요

정확히는 이렇습니다. 35B 모델을 짧은 대화나 단독 파일 단위 코드 작성에 쓸 때는 문제가 없습니다. 문제는 에이전트 방식으로 여러 파일을 동시에 다루거나, 대형 코드베이스를 맥락으로 넣을 때 — 이때 컨텍스트가 80K를 넘기면 변수명 오기, 없는 라이브러리 함수 호출, 잘못된 import 순서 등이 나타나기 시작합니다. 모델이 나쁜 게 아니라 용량 한계에 부딪히는 겁니다.

💡 공식 스펙과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

공식 문서는 35B-A3B의 컨텍스트 창을 262,144 토큰으로 표기합니다. 그러나 실제 코딩 작업에서 80K 이후 할루시네이션이 늘어나는 건, 컨텍스트 창의 크기와 모델이 그 전체를 안정적으로 처리하는 능력이 별개라는 점을 보여줍니다. 창이 크다고 끝까지 잘 쓰는 건 아닙니다.

해결책은 어디에 있을까요

397B 플래그십 모델을 API로 쓰거나, 35B를 쓸 때는 컨텍스트를 의도적으로 짧게 관리하는 것이 현실적인 대응입니다. Qwen 팀도 공식 문서에서 “최소 128K 이상의 컨텍스트 창을 유지하기를 권장한다”는 문구를 남겼지만, 이는 생각(Thinking) 기능을 보존하기 위한 권고이지 hallucination을 막는 보장은 아닙니다.

▲ 목차로 돌아가기

크기보다 양자화가 더 중요한 이유

모델 크기보다 quant 수준이 더 결정적입니다

실제 사용자 경험을 보면 흥미로운 패턴이 있습니다. 같은 35B 모델이라도 Q4_K_M 양자화로 실행했을 때 변수명 오기, import 오류가 빈번하지만, Q8이나 BF16에 가깝게 올리면 같은 문제가 현저히 줄어듭니다. (출처: r/LocalLLaMA 사용자 Chromix_, 2026.03 실사용 보고) 큰 모델을 낮은 quant로 쓰는 것보다, 작은 모델을 높은 quant로 쓰는 게 코딩 정확도에서 더 나을 수 있다는 뜻입니다.

KV 캐시 양자화도 영향이 큽니다

에이전트 모드에서 KV 캐시 양자화를 켜면 VRAM을 아낄 수 있지만, 그만큼 컨텍스트 정보가 압축됩니다. 커뮤니티에서 권장하는 설정은 K는 F16, V는 Q8을 유지하는 것입니다. 캐시까지 낮은 정밀도로 떨어뜨리면 긴 대화에서 일관성이 깨지는 경험이 보고됩니다. 막상 해보면 다릅니다 — VRAM을 아끼려다 결과 품질을 손상시키는 셈이 되죠.

💡 여러 사용자 경험을 교차해서 보니 나온 그림입니다

“Qwen 3.5 나쁘다”는 평가와 “Qwen 3.5 최고다”는 평가가 동시에 존재하는 이유는, 대부분 quant 수준과 KV 캐시 설정 차이에서 옵니다. 모델 자체의 문제라기보다 실행 환경에 따라 체감이 극단적으로 갈리는 구조입니다.

권장 실행 파라미터는 이렇습니다

Qwen 공식 문서와 커뮤니티 합산 기준으로 정리하면: 사고(thinking) 모드에서는 temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0을 씁니다. 일반(instruct) 모드에서는 temperature=0.7, top_p=0.8, top_k=20이 권장됩니다. repeat_penalty는 코딩 작업에서 1.0 그대로 두는 것이 공식 가이드입니다. (출처: Hugging Face 공식 모델 카드 Best Practices 섹션, 2026.02.15)

▲ 목차로 돌아가기

201개 언어 지원, 한국어는 실제로 얼마나 달라졌을까요

단순히 언어 수만 늘어난 게 아닙니다

Qwen 3.5는 이전 Qwen3 시리즈의 119개 언어에서 201개로 확장됐습니다. 그런데 단순히 지원 언어 수를 늘린 것보다 주목할 만한 변화가 있습니다. 어휘 사전(Vocabulary)이 150,000개에서 250,000개로 늘어났고, 공식 블로그에 따르면 이 확장이 대부분의 언어에서 인코딩·디코딩 효율을 10~60% 높였습니다. (출처: qwen.ai 공식 블로그, 2026.02.15) 한국어처럼 형태소가 복잡한 언어에서는 같은 텍스트를 더 적은 토큰으로 처리할 수 있습니다.

토큰 효율이 비용과 직결됩니다

토큰 효율이 10% 개선된다는 건, 같은 분량의 한국어 텍스트를 처리할 때 API 호출 비용이 그만큼 줄어든다는 의미입니다. Qwen3.5-Plus가 이미 GPT-5.4보다 9배 저렴한 상태에서 토큰 효율까지 높아졌으니, 한국어 콘텐츠를 대량으로 처리해야 하는 환경에서는 비용 격차가 더 벌어집니다.

다국어 벤치마크에서의 위치

NOVA-63 다국어 이해 벤치마크에서 Qwen 3.5는 59.1점으로, GPT-5.4(54.6), Claude 4.5 Opus(56.7)보다 높습니다. (출처: Qwen 공식 블로그 벤치마크 표, 2026.02.15) 다국어 정확도에서는 프론티어 유료 모델보다 앞서는 수치입니다.

▲ 목차로 돌아가기

어떤 상황에서 Qwen 3.5를 고르는 게 유리할까요

이 조건이면 Qwen 3.5가 맞습니다

아래 조건 중 하나라도 해당되면 Qwen 3.5가 경쟁력 있는 선택입니다.

API 비용을 낮춰야 하는 서비스 — 입력 기준 GPT-5.4의 10% 수준으로 같은 성능을 냅니다.
긴 문서를 한 번에 처리해야 하는 경우 — 1M 토큰 컨텍스트를 Qwen3.5-Plus에서 지원합니다.
멀티모달이 필요한 경우 — 텍스트, 이미지, 영상을 단일 모델에서 처리합니다.
오픈소스로 직접 호스팅하려는 경우 — 모델 가중치가 공개되어 있습니다.
다국어 처리가 많은 경우 — NOVA-63 다국어 벤치마크에서 GPT-5.4를 앞섭니다.

이 조건이면 다시 생각해볼 필요가 있습니다

반대로, 아래 상황에서는 Qwen 3.5 단독으로 쓰기 전에 검토가 필요합니다.

실시간 코딩 벤치마크(LiveCodeBench) 중심 작업 — GPT-5.4 대비 4점 이상 낮습니다.
35B 소형 모델로 긴 코드베이스를 다루는 경우 — 80K 초과 시 안정성이 떨어집니다.
낮은 quant으로 실행하는 경우 — Q4 이하에서는 hallucination 위험이 높아집니다.
Solidity 같은 틈새 언어 전문 작업 — 학습 데이터가 적어 틈새 언어에서 정확도 차이가 납니다.

▲ 목차로 돌아가기

Q&A

Q. Qwen 3.5를 Ollama에서 실행하려면 어떤 VRAM이 필요한가요?

35B-A3B 모델은 Q4 양자화 기준 약 20GB VRAM에서 실행 가능합니다. RTX 5060 Ti 16GB 한 장으로는 어렵고, 두 장이나 Mac M2 Max(128GB 유니파이드 메모리) 조합이 현실적입니다. 397B 플래그십 모델은 FP8 양자화로도 90GB 이상의 VRAM이 필요해 개인 환경에서는 API 방식이 더 실용적입니다. (출처: r/LocalLLaMA, 2026.03)

Q. Qwen 3.5와 Qwen3(이전 버전)의 차이는 무엇인가요?

가장 큰 차이는 세 가지입니다. ① 네이티브 멀티모달 — Qwen3은 텍스트와 비전 모델이 분리됐지만 Qwen 3.5는 처음부터 하나로 통합됩니다. ② Gated Delta Networks 도입으로 긴 컨텍스트 처리 속도가 대폭 개선됩니다. ③ 언어 지원이 119개에서 201개로 확장됩니다. 에이전트 벤치마크 기준으로도 Qwen 3.5가 전반적으로 높습니다. (출처: qwen.ai 공식 블로그, 2026.02.15)

Q. Qwen3.5-Plus와 오픈웨이트 397B 모델의 차이는 뭔가요?

기본 모델 성능은 같지만 Qwen3.5-Plus는 알리바바 클라우드가 호스팅하는 버전으로 컨텍스트 창이 기본 1M 토큰이고, 빌트인 웹 검색과 코드 인터프리터가 통합됩니다. 오픈웨이트 모델은 가중치가 공개되어 직접 서버에 배포할 수 있지만 기본 컨텍스트 창은 262,144 토큰입니다. (출처: HuggingFace 공식 모델 카드, 2026.02.15)

Q. Thinking 모드와 Fast 모드 중 어떤 걸 써야 하나요?

Qwen Chat에서는 Auto/Thinking/Fast 세 가지를 제공합니다. 수학·코딩·복잡한 추론은 Thinking 모드가 유리하고, 일상적인 Q&A나 번역은 Fast 모드로도 충분합니다. 주의할 점은 Thinking 모드에서 Qwen 3.5는 Qwen3보다 2~5배 더 많은 토큰을 출력합니다. (출처: r/LocalLLaMA 벤치마크 비교, 2026.03) 토큰 소비가 많아지는 만큼 API 비용도 올라갑니다.

Q. OpenClaw, Claude Code 같은 코딩 에이전트 툴에 연결해서 쓸 수 있나요?

네, 가능합니다. Alibaba Cloud ModelStudio의 Qwen3.5-Plus는 OpenAI 호환 API를 제공합니다. Qwen 공식 블로그에서 OpenClaw, Claude Code, Cline, OpenCode 등 서드파티 코딩 에이전트와의 연동 사례를 직접 소개합니다. (출처: qwen.ai 공식 블로그, 2026.02.15) API 키 설정과 base URL만 바꾸면 연결됩니다.

▲ 목차로 돌아가기

마치며

Qwen 3.5는 “오픈소스 AI가 유료 프론티어 모델을 따라잡았다”는 말이 과장이 아닌 시대의 산물입니다. 397B 전체를 매번 돌리지 않고 17B만 쓰는 구조 덕분에, 1조 파라미터짜리 모델보다 빠르고 GPT-5.4보다 9배 저렴합니다. 다국어 토큰 효율까지 개선됐으니 한국어 중심 서비스라면 비용 절감 효과가 더 큽니다.

솔직히 말하면, 모든 상황에서 Qwen 3.5가 최선은 아닙니다. 실시간 코딩 벤치마크에서 GPT-5.4에 밀리고, 35B 소형 모델은 긴 코드베이스에서 불안합니다. 양자화 수준을 신경 쓰지 않으면 기대와 다른 결과를 받을 수 있습니다. 써보니까 결국 핵심은 모델 선택이 아니라 어떤 quant, 어떤 컨텍스트 길이, 어떤 파라미터로 쓰느냐였습니다.

API 비용을 줄이면서 멀티모달까지 한 모델에서 해결하고 싶다면, Qwen 3.5는 지금 시점에서 가장 현실적인 선택 중 하나입니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 가격 및 벤치마크 수치는 2026년 3월 24일 기준이며, API 요금 및 모델 성능은 공급사 정책에 따라 달라질 수 있습니다. 공식 최신 정보는 qwen.ai 및 Alibaba Cloud 공식 사이트를 통해 확인하시기 바랍니다.

Qwen 3.5, 397B인데 왜 이렇게 빠를까요?

Qwen 3.5, 397B인데 왜 이렇게 빠를까요?