Qwen 3.5, 9B가 120B를 눌렀다는 말이 진짜일까요?

Published on

2026년 3월 19일

2026.02.15 공식 출시 기준 / Qwen3.5-397B-A17B

Qwen 3.5, 9B가 120B를 눌렀다는 말이 진짜일까요?

알리바바가 2026년 2월 15일 공개한 Qwen3.5. 출시 직후 “9B 모델이 120B를 이겼다”는 말이 SNS를 달궜습니다. 공식 발표문과 실제 벤치마크 데이터를 나란히 놓고 보니, 그 수치가 맞는 맥락과 틀린 맥락이 선명하게 갈렸습니다.

397B 파라미터 / 17B 활성
201개 언어 지원
Apache 2.0 오픈소스
기본 256K 컨텍스트

Qwen 3.5가 뭔지 30초에 정리하면

Qwen 3.5는 알리바바가 2026년 2월 15일 공개한 대형 언어 모델입니다. 공식 명칭은 Qwen3.5-397B-A17B로, 총 3,970억 개의 파라미터를 가지되 추론 시에는 170억 개만 활성화하는 희소 MoE(Mixture-of-Experts) 구조를 채택했습니다. (출처: Qwen 공식 블로그, 2026.02.15)

이번 출시의 가장 큰 변화는 텍스트와 이미지를 처음부터 함께 학습한 네이티브 멀티모달이라는 점입니다. 이전 Qwen3 시리즈가 텍스트 모델과 비전 모델을 별도로 운영했다면, Qwen3.5는 단일 모델이 문서·이미지·영상·코드를 통합 처리합니다. 지원 언어도 119개에서 201개로 확장됐고, 어휘 사전 크기도 15만에서 25만으로 늘었습니다. 이 어휘 확장은 실질적으로 대부분 언어에서 토큰 처리 효율을 10~60% 개선시킵니다. 한국어처럼 형태소가 복잡한 언어일수록 이 효과가 큽니다.

라이선스는 Apache 2.0으로, 상업적 활용이 자유롭습니다. 가중치(weight)는 Hugging Face, ModelScope, GitHub에서 직접 내려받을 수 있고, Ollama나 LM Studio를 통한 로컬 구동도 가능합니다.

▲ 목차로 돌아가기

397B인데 왜 17B처럼 빠른 건지

솔직히 말하면, 파라미터 수만 보면 이 모델은 절대 빠를 것 같지 않습니다. 그런데 공식 발표에 따르면 Qwen3.5-397B-A17B는 32K 컨텍스트에서 Qwen3-Max 대비 8.6배, 256K 컨텍스트에서 19.0배 빠른 디코딩 속도를 보입니다. (출처: Qwen 공식 블로그, 2026.02.15)

이게 가능한 이유는 MoE 구조 때문입니다. 397B 파라미터 전체가 항상 연산에 참여하는 게 아니라, 각 토큰 처리 시 가장 관련 있는 전문가 네트워크 17B분만 깨어납니다. 이 구조에 더해 Gated Delta Networks와 Gated Attention을 결합한 하이브리드 어텐션이 긴 컨텍스트를 처리할 때 메모리를 덜 씁니다.

훈련 시에는 FP8 파이프라인을 채택해 활성화 메모리를 약 50% 줄이면서도 조 단위 토큰 스케일에서 10% 이상의 속도 향상을 달성했다고 공식 문서는 설명합니다. 이 수치가 의미하는 바는 하나입니다. 같은 GPU 예산으로 더 길고 복잡한 작업을 처리할 수 있다는 것입니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 19배 빠르다는 수치는 256K 컨텍스트 조건, 즉 긴 문서를 다룰 때의 수치입니다. 짧은 대화(32K 이하)에서는 8.6배 수준이며, Qwen3-Next 80B-A3B 같은 더 희소한 모델과 비교하면 그 차이는 더 좁아집니다.

▲ 목차로 돌아가기

9B 모델이 120B를 이겼다는 수치, 어디까지 사실인가

이게 이번 포스팅에서 가장 핵심입니다. 결론부터 말씀드리면, 사실이기도 하고 아니기도 합니다. 어떤 벤치마크를 고르느냐에 따라 완전히 다른 이야기가 됩니다.

Qwen3.5-9B는 GPQA Diamond(대학원 수준 추론)에서 81.7로 gpt-oss-120b의 80.1을 앞섰고, MMLU-Pro에서 82.5 대 80.8, MMMLU(다국어)에서 81.2 대 78.2를 기록했습니다. 이 세 지표만 보면 9B가 120B를 이긴 게 맞습니다. (출처: XDA Developers, 2026.03.12)

그런데 코딩 벤치마크로 넘어가면 이야기가 달라집니다. LiveCodeBench에서 Qwen3.5-9B는 65.6이지만 gpt-oss-120b는 82.7입니다. OJBench에서도 29.2 대 41.5로 크게 밀립니다. 26개 전체 벤치마크 기준으로 정리하면 Qwen3.5-9B가 10개를 이기고 gpt-oss-120b가 8개를 이겨, 사실 꽤 백중세입니다. 그런데 120B가 앞선 항목들이 하필 코딩·추론처럼 실무에서 가장 많이 쓰는 영역이라는 게 문제입니다.

📊 Qwen3.5-9B vs gpt-oss-120b 핵심 수치 비교

벤치마크	Qwen3.5-9B	gpt-oss-120b	승자
GPQA Diamond	81.7	80.1	9B ✅
MMLU-Pro	82.5	80.8	9B ✅
LiveCodeBench	65.6	82.7	120B ✅
OJBench	29.2	41.5	120B ✅
MMMLU(다국어)	81.2	78.2	9B ✅

(출처: XDA Developers 분석, 2026.03.12 / Alibaba 공식 Hugging Face 모델 카드)

더 흥미로운 건 플래그십 모델의 사이즈 역전 현상입니다. 공식 벤치마크 기준으로 Qwen3.5-35B-A3B는 Qwen3-235B-A22B보다 모든 카테고리에서 높거나 비슷한 점수를 보입니다. 크기는 약 6.7배 차이인데 성능은 35B가 앞서거나 같습니다. (출처: Qwen 공식 블로그 벤치마크 테이블, 2026.02.15) 이 수치가 의미하는 바는 결국 아키텍처 효율성이 파라미터 수를 압도하는 시대에 접어들었다는 것입니다. 단, LocalLLaMA 커뮤니티에서는 이 공식 벤치마크가 수학·논리 중심이라 자연스러운 글쓰기나 창의적 태스크에서는 235B의 “느낌”이 더 낫다는 의견도 나왔습니다. 확인 필요한 부분입니다.

▲ 목차로 돌아가기

1M 컨텍스트라는 말 뒤에 숨은 조건

여기서 걸립니다. “Qwen3.5는 1M 컨텍스트를 지원한다”는 말이 널리 퍼져 있는데, 실제로 100만 토큰 컨텍스트를 쓰려면 Qwen3.5-Plus를 써야 합니다. Plus는 Alibaba Cloud Model Studio의 유료 API 전용 서비스이며, 오픈웨이트 모델(직접 내려받을 수 있는 Qwen3.5-397B-A17B)의 기본 컨텍스트는 256K입니다. (출처: DataCamp, Qwen3.5 가이드, 2026.02.16 / Qwen 공식 블로그, 2026.02.15)

둘의 차이를 정리하면 이렇습니다.

항목	오픈웨이트 (자유 배포)	Qwen3.5-Plus (API 전용)
컨텍스트 윈도우	256K	1M
로컬 구동	가능 (Ollama 등)	불가 (API 전용)
Auto 모드(적응적 사고)	없음	있음
내장 도구(검색·코드 실행)	직접 구성 필요	내장
라이선스/비용	Apache 2.0 / 무료	토큰당 과금

256K도 충분히 길긴 합니다. A4 용지로 약 300~400페이지 분량의 텍스트를 한 번에 처리할 수 있는 수준이라, 일반 문서 분석이나 긴 코드 리뷰에는 오픈웨이트로도 충분합니다. 그러나 2시간짜리 영상을 통째로 처리하거나, 수만 줄짜리 레포지토리를 한 번에 분석하는 용도라면 Plus만이 가능합니다. 공식 블로그는 Qwen3.5-Plus에서 1M 컨텍스트로 최대 2시간 분량의 동영상을 처리할 수 있다고 명시했습니다. (출처: Qwen 공식 블로그, 2026.02.15)

▲ 목차로 돌아가기

HLE에서 28.7이 나온 이유

HLE(Humanity’s Last Exam, 인류 최후의 시험)는 박사급 전문가들이 출제한 문제로 이루어진 벤치마크입니다. 기대했던 것과 달랐습니다. Qwen3.5-397B-A17B의 HLE 점수는 28.7입니다. 반면 Gemini 3 Pro는 37.5, GPT 5.2는 35.5를 기록했습니다. (출처: Qwen 공식 블로그 벤치마크 테이블, 2026.02.15)

이 수치가 의미하는 것은, Qwen3.5가 일반 지식·다국어·에이전트 태스크에서는 경쟁 모델과 어깨를 나란히 하지만, 극한의 전문 추론 영역에서는 아직 격차가 존재한다는 것입니다. HLE는 “구글로 검색 불가능한” 수준의 생물학·물리학·화학 문제들로 구성돼 있습니다. 박사급 전문가도 65% 정도만 맞히는 시험에서 28.7이라는 수치는 절대적으로 낮지 않습니다만, Gemini 3 Pro 대비 약 24% 낮다는 건 무시하기 어렵습니다.

💡 공식 발표문에는 HLE-Verified(검증된 버전) 점수도 별도로 나옵니다. 이 버전에서 Qwen3.5는 37.6으로, Gemini 3 Pro의 HLE-Verified 48점보다는 낮지만 GPT 5.2의 43.3보다도 낮습니다. Qwen이 RL 환경 스케일링을 중심으로 훈련했기 때문에, 특정 학문적 추론보다 에이전트 실행 능력 향상에 더 집중한 결과로 보입니다.

정리하면, Qwen3.5는 “모든 영역 최강”이 아니라 “에이전트·멀티모달·다국어에서 최강급”인 모델입니다. 철학·생물·물리의 박사급 추론보다 문서 자동화와 GUI 에이전트를 원한다면 Qwen3.5가 맞는 선택이고, 학술적 추론이 최우선이라면 Gemini 3 Pro나 GPT 5.4 계열이 더 적합합니다.

▲ 목차로 돌아가기

어떤 모델 크기를 선택해야 할까

Qwen3.5 시리즈는 0.8B부터 397B까지 다양한 크기로 출시됐습니다. LocalLLaMA 커뮤니티에서 가장 많이 논의된 모델은 27B(dense)와 35B-A3B(MoE)입니다.

27B는 Dense 모델로 모든 파라미터를 매 토큰 처리에 씁니다. RTX 3090(24GB VRAM) 단일 카드에서 Q4 퀀트 기준 약 31 tok/s가 나오는 것으로 측정됐습니다. (출처: LocalLLaMA Reddit, 2026.03.07) 이 수치는 챗 인터페이스에서 자연스러운 응답 속도를 느끼기에 충분한 수준입니다. 35B-A3B는 MoE라 활성 파라미터가 3B에 불과하므로 8GB VRAM에서도 구동됩니다. 단, Thinking(사고) 모드를 켜면 체감 속도가 크게 떨어집니다.

모델	최소 VRAM(추정)	용도 추천
Qwen3.5-0.8B / 2B	~2GB	모바일·엣지 디바이스
Qwen3.5-4B / 9B	~6~10GB	일반 PC, 지식 QA, 다국어
Qwen3.5-27B	~18~20GB	코딩, 에이전트, 균형형
Qwen3.5-35B-A3B	~8GB (MoE)	저사양 고성능, 일반 작업
Qwen3.5-122B-A10B	~20GB (MoE)	전문 에이전트, 멀티모달
Qwen3.5-397B-A17B	다중 GPU 필요	서버/클라우드 추론

(VRAM 추정치는 Q4_K_M 퀀트 기준이며, 컨텍스트 길이에 따라 추가 메모리가 필요합니다. 확인 필요)

이 부분이 좀 아쉬웠습니다. 14B 모델이 라인업에서 빠졌습니다. Qwen3에서 14B를 쓰던 사람들이 자연스럽게 이어갈 모델이 없고, 9B에서 27B로 점프하는 크기 격차가 좀 큽니다. 14B급의 빈 자리를 어떤 모델로 채울지는 개인 워크플로에 맞게 테스트해보는 수밖에 없습니다.

▲ 목차로 돌아가기

Q&A

Q1. Qwen3.5를 무료로 쓸 수 있나요?

네, 오픈웨이트 모델(Qwen3.5-397B-A17B)은 Apache 2.0 라이선스로 Hugging Face와 ModelScope에서 무료로 내려받을 수 있습니다. chat.qwen.ai에서 가입 없이 체험도 가능합니다. 단, 1M 컨텍스트가 필요한 Qwen3.5-Plus는 Alibaba Cloud ModelStudio API를 통해 토큰당 과금됩니다. (출처: Qwen 공식 블로그, 2026.02.15)

Q2. RTX 3070 하나로 돌릴 수 있는 최고 모델은 어떤 건가요?

RTX 3070은 VRAM이 8GB입니다. Q4_K_M 퀀트 기준으로 Qwen3.5-9B는 VRAM 안에 들어오고, 35B-A3B(MoE)는 활성 파라미터가 3B에 불과해 역시 VRAM에 적재됩니다. 27B Dense는 18~20GB가 필요해 단독 3070으로는 어렵습니다. 에이전트·코딩 용도면 9B보다 35B-A3B를 권장합니다. (VRAM 수치는 추정)

Q3. Thinking 모드와 Fast 모드, 어떻게 다른 건가요?

Thinking 모드는 내부적으로 체인오브쏘트(chain-of-thought) 추론을 거쳐 답을 냅니다. 어려운 수학 문제나 복잡한 코딩 작업에 적합하지만 응답 속도가 느립니다. Fast 모드는 추론 토큰 없이 즉시 응답해 속도가 빠르고 비용이 낮습니다. 간단한 QA나 요약에 어울립니다. Qwen3.5-Plus에만 있는 Auto 모드는 질문 난이도를 스스로 판단해 두 모드 중 하나를 선택합니다. (출처: Qwen 공식 블로그, 2026.02.15)

Q4. Qwen3.5와 DeepSeek V3.2를 비교하면 어떻게 되나요?

공식 벤치마크 기준으로 베이스 모델을 비교하면 Qwen3.5-397B-A17B는 MMLU(88.61 vs 88.11), MMLU-Pro(76.01 vs 62.82), SuperGPQA(57.96 vs 43.46)에서 DeepSeek-V3.2-671B-A37B를 앞섭니다. DeepSeek V3.2는 파라미터가 671B로 훨씬 크지만 MMLU-Pro에서 13포인트 이상 뒤집니다. (출처: Qwen 공식 블로그 베이스 모델 비교표, 2026.02.15)

Q5. Claude Code나 OpenClaw에서 Qwen3.5 쓸 수 있나요?

공식 블로그에서 직접 언급하고 있습니다. Qwen3.5-Plus는 Alibaba Bailian API의 OpenAI 호환 엔드포인트를 통해 Claude Code, Cline, OpenClaw, OpenCode 등 서드파티 코딩 도구와 통합됩니다. 오픈웨이트 모델은 Ollama나 vLLM으로 로컬 서버를 띄운 뒤 동일한 방식으로 연결됩니다. (출처: Qwen 공식 블로그, 2026.02.15)

▲ 목차로 돌아가기

마치며

Qwen3.5는 이름값을 합니다. 하지만 “9B가 120B를 이겼다”는 말은 전체 맥락의 절반만 담은 이야기입니다. 코딩 실무에서 중요한 LiveCodeBench 기준으로는 여전히 120B 클라우드 모델이 앞섭니다. 1M 컨텍스트는 유료 API에서만 쓸 수 있습니다. HLE 같은 극한의 학문적 추론에서는 Gemini 3 Pro나 GPT 5.2보다 낮습니다.

그럼에도 Qwen3.5가 달라진 건 분명합니다. 35B-A3B가 8GB VRAM에서 235B 급 성능을 내고, 27B Dense가 RTX 3090 하나에서 31 tok/s로 돌아가는 건 1년 전 기준으로는 불가능한 일이었습니다. 에이전트 태스크와 문서 처리에서 GPT 5.2·Claude Opus 4.5와 경쟁하는 수준이 오픈소스로 무료로 풀렸다는 것, 그게 이번 출시의 진짜 의미입니다.

생각보다 간단합니다. 로컬 에이전트나 문서 자동화가 목적이라면 Qwen3.5는 현 시점 최선의 오픈소스 선택지 중 하나입니다. 코딩만이 목적이라면 Qwen3-Coder-Next가 더 맞습니다. 학문적 추론이 메인이라면 클라우드 모델을 고집할 이유가 아직은 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Qwen 공식 블로그 — Qwen3.5: Towards Native Multimodal Agents (2026.02.15) https://qwen.ai/blog?id=qwen3.5
DataCamp — Qwen3.5: Features, Access, and Benchmarks (2026.02.16) https://www.datacamp.com/blog/qwen3-5
XDA Developers — Qwen3.5-9B tops every AI benchmark right now, but that’s not how you should pick a model (2026.03.12) https://www.xda-developers.com/qwen-3-5-9b-tops-ai-benchmarks-not-how-pick-model/
Analytics Vidhya — We Tested The New Qwen3.5 Open Weight, Qwen3.5-Plus (2026.02.17) https://www.analyticsvidhya.com/blog/2026/02/qwen3-5-open-weight-qwen3-5-plus/
Reddit r/LocalLLaMA — Visualizing All Qwen 3.5 vs Qwen 3 Benchmarks (2026.03.02) https://www.reddit.com/r/LocalLLaMA/comments/1rivckt/

본 포스팅은 2026년 3월 19일 기준으로 작성됐습니다. Qwen3.5 출시 버전: Qwen3.5-397B-A17B (2026.02.15). 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 인용된 벤치마크 수치는 공식 자료 기준이며, 실사용 환경·퀀트 방식·하드웨어 구성에 따라 결과가 다를 수 있습니다.

로컬LLM, 알리바바AI, 오픈소스LLM, MoE모델, Qwen3.5

Qwen 3.5, 9B가 120B를 눌렀다는 말이 진짜일까요?

Qwen 3.5, 9B가 120B를 눌렀다는 말이 진짜일까요?

Qwen 3.5가 뭔지 30초에 정리하면

397B인데 왜 17B처럼 빠른 건지

9B 모델이 120B를 이겼다는 수치, 어디까지 사실인가

1M 컨텍스트라는 말 뒤에 숨은 조건

HLE에서 28.7이 나온 이유

어떤 모델 크기를 선택해야 할까

Q&A

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Qwen 3.5, 9B가 120B를 눌렀다는 말이 진짜일까요?

Qwen 3.5, 9B가 120B를 눌렀다는 말이 진짜일까요?

Qwen 3.5가 뭔지 30초에 정리하면

397B인데 왜 17B처럼 빠른 건지

9B 모델이 120B를 이겼다는 수치, 어디까지 사실인가

1M 컨텍스트라는 말 뒤에 숨은 조건

HLE에서 28.7이 나온 이유

어떤 모델 크기를 선택해야 할까

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기