Qwen3.5-9B 완전정복: 9B로 120B 추월,
클라우드 없이 공짜로 쓰는 법
알리바바가 2026년 3월 초 공개한 Qwen3.5-9B는 90억 파라미터로 120B급 모델을 성능 지표에서 추월했습니다.
네이티브 멀티모달(이미지·영상·텍스트 동시 처리), 26만 토큰 컨텍스트, Apache 2.0 무료 라이선스까지—
지금 이 모델을 모르면 월 수십만 원 AI 비용을 그냥 내고 있는 겁니다.
⚡ 9B → 120B급 성능
🌐 201개 언어 지원
🆓 Apache 2.0 무료
🖼️ 네이티브 멀티모달
① Qwen3.5-9B가 충격적인 진짜 이유
Qwen3.5-9B는 알리바바 클라우드 Qwen 팀이 2026년 2~3월에 걸쳐 공개한 오픈소스 멀티모달 AI 모델입니다.
“9B짜리 소형 모델이 무슨 대수냐”고 생각한다면 벤치마크 수치를 보는 순간 생각이 달라질 것입니다.
GPT 계열의 120B 오픈 소스 모델(GPT-OSS-120B)보다 멀티모달 추론·에이전트·문서 이해 전반에서 우위를 기록했고,
비전-언어 MMMU-Pro 점수에서는 70.1점으로 GPT-OSS-120B(57.2점)를 13점 차이로 압도했습니다.
무엇이 이런 역전을 가능하게 했을까요? 핵심은 두 가지입니다. 첫째, 기존 소형 모델들이 텍스트 전용 기반 위에 비전 모듈을 얹은 ‘후천적 멀티모달’이었던 반면, Qwen3.5-9B는 처음 학습 단계부터 이미지·영상·텍스트를 함께 훈련한 ‘태생적 멀티모달(Unified Vision-Language Foundation)’입니다. 둘째, 완전히 새로운 하이브리드 아키텍처를 도입해 같은 파라미터 수 대비 추론 처리량과 효율을 극적으로 끌어올렸습니다.
결과적으로 개발자 입장에서는 월정액 클라우드 API 비용 없이, 서버 한 대 또는 고성능 PC에서 GPT-4 클래스의 멀티모달 능력을 무료로 운영할 수 있게 됐습니다. 이것이 AI 커뮤니티가 이 모델에 열광하는 이유입니다.
크기의 10배가 넘는 모델들을 다수 지표에서 추월했습니다. Apache 2.0 라이선스로 상업적 활용도 무제한 무료입니다.
② 혁신 아키텍처: Gated DeltaNet + 희소 MoE의 비밀
Qwen3.5-9B의 성능 역전을 이해하려면 아키텍처를 살펴봐야 합니다. 기술 용어가 생소하더라도 걱정 마세요. 실생활 비유로 풀어드리겠습니다.
Gated DeltaNet — “기억을 압축하는 필터”
기존 Transformer 모델의 Attention 메커니즘은 문장 내 모든 토큰 간의 관계를 계산합니다. 문맥이 길어질수록 계산 비용이 기하급수적으로 증가하는 구조입니다. 반면 Qwen3.5-9B에 도입된 Gated DeltaNet은 일종의 ‘선택적 기억 필터’입니다. 불필요한 이전 정보는 게이트(Gate)로 걸러내고, 현재 처리에 중요한 정보만 선별해 상태(State)로 압축합니다. 덕분에 긴 문서를 처리할 때도 메모리와 연산량이 폭발하지 않습니다.
실제 구조를 보면 32개 레이어에 걸쳐 3개의 Gated DeltaNet 레이어 → 1개의 표준 Gated Attention 레이어를 반복하는 하이브리드 설계입니다. 고속 압축(DeltaNet)과 정밀 참조(Attention)를 교차 배치함으로써 속도와 품질을 동시에 잡은 것입니다.
희소 MoE — “전문가 팀을 필요할 때만 불러쓰다”
MoE(Mixture-of-Experts)는 하나의 거대한 신경망을 통째로 쓰는 대신, 여러 전문가 서브 네트워크 중에서 각 입력에 가장 적합한 일부만 활성화하는 방식입니다. 9B 파라미터를 전부 쓰는 것이 아니라 현재 처리하는 내용에 맞는 전문가만 호출하기 때문에, 실제 활성화되는 연산량은 훨씬 적으면서도 전체 표현력은 유지됩니다.
| 항목 | 수치 | 의미 |
|---|---|---|
| 파라미터 수 | 9B (90억) | 일반 PC GPU로 실행 가능한 수준 |
| 레이어 수 | 32 | DeltaNet 3:Attention 1 교차 배치 |
| 기본 컨텍스트 | 262,144 토큰 | A4 약 520페이지 분량 동시 처리 |
| 최대 컨텍스트 확장 | 1,010,000 토큰 | YaRN 스케일링 적용 시 |
| 지원 언어 | 201개 | 한국어 완전 지원 포함 |
| 라이선스 | Apache 2.0 | 상업적 이용·수정·배포 모두 무료 |
| 입력 모달리티 | 텍스트·이미지·영상 | 네이티브 멀티모달 (후천적 부착 아님) |
이 두 기술의 조합이 만들어낸 결과는 분명합니다. 동일한 파라미터 수를 가진 기존 모델 대비 추론 처리량(Throughput)은 대폭 증가하고, 지연 시간(Latency)과 비용은 최소화됩니다. 간단히 말해 더 빠르고, 더 저렴하게, 더 많은 맥락을 처리할 수 있습니다.
③ 벤치마크 성적표: 120B를 어떻게 이겼나
숫자로 증명되지 않으면 마케팅에 불과합니다. 허깅페이스 공식 모델 카드 기준 주요 벤치마크를 직접 확인해 봤습니다. 비교 대상으로 GPT-OSS-120B(OpenAI 오픈소스 120B 계열)와 GPT-OSS-20B를 선택했습니다.
| 벤치마크 | GPT-OSS-120B | GPT-OSS-20B | Qwen3.5-9B |
|---|---|---|---|
| MMLU-Pro (지식·STEM) | 80.8 | 74.8 | 82.5 ✅ |
| GPQA Diamond (과학 추론) | 80.1 | 71.5 | 81.7 ✅ |
| IFEval (명령어 따르기) | 88.9 | 88.2 | 91.5 ✅ |
| AA-LCR (장문맥 추론) | 50.7 | 30.7 | 63.0 ✅ |
| TAU2-Bench (에이전트) | — | — | 79.1 |
| MMMLU (다국어) | 78.2 | 69.7 | 81.2 ✅ |
| MMMU-Pro (멀티모달) | 57.2 | — | 70.1 ✅ |
| VideoMME (영상 이해) | 71.7 | — | 84.5 ✅ |
단, LiveCodeBench v6(코딩 대회 문제)에서는 65.6점으로 GPT-OSS-120B(82.7점)에 뒤집힙니다. 극도로 복잡한 알고리즘 경진 대회 수준의 코딩에서는 파라미터 차이가 아직 나타납니다. 일상적인 업무 코딩(웹 개발, 스크립트 작성, API 연동)에서는 충분한 성능을 발휘하지만, 최상위 코딩 알고리즘 과제에는 더 큰 모델이 유리할 수 있습니다.
④ 멀티모달 능력: 이미지·영상·텍스트를 한 번에
Qwen3.5-9B의 가장 차별화된 포인트는 멀티모달 처리가 ‘추가 기능’이 아닌 ‘핵심 DNA’라는 점입니다. 처음부터 멀티모달 토큰을 함께 학습했기 때문에 이미지와 텍스트를 한 문맥 안에서 자연스럽게 넘나듭니다.
비전-언어 분야 주요 성과
시각적 수학 추론 벤치마크인 MathVision에서 78.9점을 기록했는데, 이는 GPT-OSS-120B(62.2점)보다 16.7점이 높습니다. 수식이 포함된 이미지를 보고 단계별 풀이 과정을 설명하는 능력인데, 수학·과학 교육 분야에서 강력한 활용 가능성을 시사합니다. 또한 영상 이해(VideoMME) 84.5점으로 GPT-OSS-120B(71.7점)를 12.8점 차이로 압도했습니다. 영상 내 자막이 있는 경우 84.5점, 없는 경우 78.4점으로 자막 없는 영상 이해 능력도 상당히 뛰어납니다.
에이전트 능력: 컴퓨터를 스스로 조작한다
단순한 이미지 이해를 넘어, Qwen3.5-9B는 OSWorld-Verified(41.8점)와 AndroidWorld(57.8점)에서 실제 운영 체제 UI를 보고 클릭·드래그·입력 등의 작업을 자율 수행하는 능력을 보여줬습니다. 이는 ‘GUI 에이전트’ — AI가 컴퓨터 화면을 눈으로 보고 직접 조작하는 기술 — 의 실현 가능성을 소형 오픈소스 모델 수준에서 검증한 것입니다.
“이 도면 이미지 보고 면적 계산해줘”, “이 유튜브 영상 요약해줘” — 이런 요청을 로컬 환경에서 완전 무료로 처리할 수 있다는 뜻입니다.
⑤ 무료 로컬 실행 완전 가이드 (Ollama · vLLM)
Qwen3.5-9B는 Apache 2.0 라이선스로 공개되어 있어 로컬 서버에서 무료로 운영할 수 있습니다. 두 가지 방법을 소개합니다.
방법 1 — Ollama (개인·소규모 테스트 추천)
Ollama는 LLM을 로컬에서 한 줄 명령어로 실행하는 가장 간편한 도구입니다. GPU가 없어도 CPU로 동작하지만, RTX 3090 이상의 GPU가 있으면 체감 속도가 크게 향상됩니다.
ollama run qwen3.5:9b
# 처음 실행 시 약 5~6GB 모델 파일을 자동 다운로드합니다.
# 이후엔 오프라인에서도 바로 사용 가능합니다.
방법 2 — vLLM (팀·기업 서버 배포 추천)
vLLM은 높은 처리량과 동시 사용자 지원이 필요한 서버 환경에 최적화된 프레임워크입니다. 최신 버전(nightly)이 Qwen3.5를 공식 지원합니다.
uv pip install vllm –torch-backend=auto \
–extra-index-url https://wheels.vllm.ai/nightly
# API 서버 실행 (기본 262,144 토큰 컨텍스트)
vllm serve Qwen/Qwen3.5-9B \
–port 8000 \
–tensor-parallel-size 1 \
–max-model-len 262144 \
–reasoning-parser qwen3
실행 후 http://localhost:8000/v1에서 OpenAI 호환 API가 활성화됩니다. 기존에 ChatGPT API를 쓰던 코드에서 엔드포인트 URL과 모델명만 바꾸면 즉시 연동됩니다. 이 점이 개발자들이 특히 환호하는 이유입니다.
4비트 양자화(Q4) 적용 시 약 6~7GB로 줄어들어 RTX 3060(12GB) 이상이면 쾌적하게 동작합니다.
맥북 M2/M3 시리즈도 Metal 가속으로 원활하게 실행됩니다.
⑥ 실전 활용 시나리오 5가지
Qwen3.5-9B의 특징을 가장 잘 살릴 수 있는 실전 활용 사례를 정리했습니다. 이미 현장에서 활용 중인 케이스들을 기반으로 선정했습니다.
⑦ Qwen3.5-9B vs 경쟁 모델 비교
같은 소형 오픈소스 모델 카테고리에서 Qwen3.5-9B의 위치를 확인해봅니다. 현재 기준(2026년 3월)으로 유력한 경쟁자들과 비교합니다.
| 모델 | 파라미터 | 컨텍스트 | 멀티모달 | 라이선스 | 주목 포인트 |
|---|---|---|---|---|---|
| Qwen3.5-9B | 9B | 262K (최대 1M) | ✅ 네이티브 | Apache 2.0 | 120B급 성능·최장 컨텍스트 |
| Llama 4 Scout | 17B-A5B (MoE) | 10M | ✅ 네이티브 | Llama 4 커뮤니티 | 초장 컨텍스트 특화 |
| Gemini 3.0 Flash | 비공개 | 100K | ✅ | 유료 API | 구글 생태계 연동 |
| Qwen3-8B | 8B | 128K | ❌ (텍스트 전용) | Apache 2.0 | 전작 텍스트 특화 |
| Gemma 3 9B | 9B | 128K | ✅ | Gemma Terms | 구글 소형 멀티모달 |
Llama 4 Scout의 1000만 토큰 컨텍스트는 압도적이지만, 실제 VRAM 요구량과 추론 속도 면에서 일반 서버에서 운영하기 부담스러운 수준입니다. Qwen3.5-9B는 컨텍스트 길이·멀티모달 완성도·라이선스 자유도·실제 배포 난이도를 종합했을 때 현시점 최적의 균형점을 제공합니다. 제 개인적인 판단으로는, 기업 내부 AI 도구를 처음 구축하려는 팀에게 가장 먼저 시도해볼 것을 권장하고 싶습니다.
❓ 자주 묻는 질문 (Q&A)
Qwen3.5-9B는 완전 무료인가요? 상업적으로 써도 되나요?
한국어 처리 성능은 어느 정도인가요?
Thinking Mode(추론 모드)란 무엇인가요?
<think>...</think> 태그로 감싸진 내부 추론 과정이 포함됩니다. 복잡한 수학 문제나 논리 추론에서 성능이 향상되지만, 간단한 채팅 응답에는 속도가 느려질 수 있습니다. API 호출 시 enable_thinking: false 파라미터로 끄면 일반 대화 모드로 전환되어 훨씬 빠른 응답을 받을 수 있습니다.
맥북(Apple Silicon)에서도 실행할 수 있나요?
이전 모델 Qwen3-8B와 비교해서 얼마나 나아졌나요?
✍️ 마치며 — 총평
Qwen3.5-9B는 단순한 모델 업데이트가 아닙니다. “소형 모델은 대형 모델의 하위 호환”이라는 공식을 깨뜨린 구조적 혁신입니다. Gated DeltaNet과 희소 MoE의 조합, 그리고 처음부터 멀티모달 토큰을 함께 학습시킨 설계는 9B라는 제한된 파라미터 수에서 최대 성능을 끌어내는 데 성공했습니다.
개인적으로 가장 인상적인 점은 262K 기본 컨텍스트와 1M까지의 확장 가능성입니다. 기업에서 수백 페이지짜리 계약서나 기술 문서를 AI로 처리하려 할 때 가장 큰 장벽이 컨텍스트 제한이었는데, 이 모델이 그 벽을 상당 부분 무너뜨렸습니다. Apache 2.0 라이선스까지 더해지면, 현재 기준으로 소형 오픈소스 AI 중 가장 실용적인 선택지임은 분명합니다.
다만 아직 한계도 있습니다. 극도로 복잡한 코딩 알고리즘 경진 대회 수준의 과제나, 아주 섬세한 한국어 문화적 뉘앙스 처리에서는 아직 개선 여지가 남아 있습니다. 이 점은 사용 목적에 따라 충분히 감안하고 선택하시기 바랍니다. 그럼에도 불구하고, 지금 이 시점에서 Qwen3.5-9B를 모르고 있다면 상당히 손해 보고 있는 것이 맞습니다.
※ 본 포스팅은 공개된 공식 벤치마크 및 기술 문서를 바탕으로 작성된 정보성 콘텐츠입니다.
벤치마크 수치는 실제 환경·하드웨어·사용 방식에 따라 차이가 있을 수 있습니다.
모델 라이선스, 최신 업데이트 사항은 공식 허깅페이스 및 Qwen 공식 블로그를 통해 반드시 확인하시기 바랍니다.
참고 출처: Hugging Face Qwen/Qwen3.5-9B 모델 카드 (2026.03), IT조선 AI 트렌드 칼럼 (2026.03),
Qwen 공식 블로그.











댓글 남기기