Qwen3.5-9B: GPT-120B를 꺾은
9B 오픈소스 AI, 지금 안 쓰면 손해

2026년 3월 초, 알리바바 Qwen 팀이 공개한 Qwen3.5-9B가 전 세계 AI 커뮤니티를 뒤흔들었습니다.
파라미터 수가 자신보다 13배 많은 OpenAI gpt-oss-120B를 대학원 수준 추론·멀티언어 벤치마크에서 앞질렀고,
노트북 한 대로 로컬 실행까지 됩니다. Apache 2.0 라이선스로 상업적 이용도 무료입니다.
한국어 블로그에는 아직 아무도 제대로 다루지 않은 이 모델, 지금 바로 정리해 드립니다.

🏆 GPQA Diamond 81.7점
📄 컨텍스트 26만 토큰
🌐 201개 언어 지원
🆓 Apache 2.0 무료 상업 이용
💻 노트북 로컬 실행 가능

Qwen3.5-9B가 뭐길래 세계가 놀랐나

Qwen3.5-9B는 알리바바 클라우드 Qwen 팀이 2026년 2월 말~3월 초에 걸쳐 공개한 소형 네이티브 멀티모달 언어 모델입니다.
핵심 시리즈는 0.8B·2B·4B·9B 네 가지로 구성되며, 그 중 9B 모델이 이번 주 글로벌 AI 커뮤니티에서 가장 뜨거운 화제를 몰고 있습니다.

이 모델이 이례적인 이유는 단순히 “성능이 좋다”는 수준을 넘어서기 때문입니다.
공식 허깅페이스 페이지와 VentureBeat 보도에 따르면, Qwen3.5-9B는 파라미터 수 기준으로 자신보다 13.5배 큰 OpenAI의 오픈소스 모델 gpt-oss-120B를
대학원 수준 추론 벤치마크인 GPQA Diamond(81.7 vs 80.1)와 멀티언어 지식 평가(MMMLU 81.2 vs 78.2)에서 앞질렀습니다.
AI 교육자 Paul Couvert는 “이게 어떻게 가능한 거냐(How is this even possible?!)”며 X(구 트위터)에서 충격을 표했습니다.

무엇보다 실용적인 강점은 접근성입니다. 허깅페이스와 ModelScope에 가중치가 공개됐고, Apache 2.0 라이선스라 기업·개인 모두 로열티 없이 상업적으로 쓸 수 있습니다.
M1 맥북 에어 같은 일반 노트북에서도 로컬 실행이 가능하다는 점이 개발자 커뮤니티에서 입소문을 타고 있습니다.

💡 인사이트: “좋은 AI는 비싸다”는 공식이 무너지고 있습니다. 9B라는 초소형 모델이 120B를 이겼다는 것은 단순한 숫자 싸움이 아니라,
AI 인프라를 클라우드에 의존하지 않고 엣지·로컬에서 구현하는 시대가 실질적으로 열렸음을 뜻합니다.
특히 개인정보 규제가 강한 한국의 금융·의료·법률 분야 기업에게 이 변화는 선택이 아닌 전략적 기회입니다.

▲ 목차로 돌아가기

하이브리드 아키텍처: 왜 9B가 120B를 이겼나

Qwen3.5-9B의 성능 비결은 효율적 하이브리드 아키텍처(Efficient Hybrid Architecture)에 있습니다.
기존 트랜스포머 구조에서 벗어나, 두 가지 핵심 기술을 결합했습니다. 첫째는 Gated Delta Networks(선형 어텐션의 일종)이고,
둘째는 희소 MoE(Mixture-of-Experts)입니다.

Gated Delta Networks — 메모리 장벽을 깬 핵심

일반적인 트랜스포머는 입력 길이가 길어질수록 메모리 사용량이 기하급수적으로 늘어나는 “메모리 장벽” 문제가 있습니다.
Gated Delta Networks는 이 문제를 선형 연산으로 해결해 추론 속도를 크게 높이고, 긴 컨텍스트에서도 지연이 최소화됩니다.
덕분에 기본 컨텍스트 창이 262,144 토큰(약 26만 토큰), YaRN 스케일링 적용 시 최대 1,010,000 토큰(약 100만 토큰)까지 확장됩니다.
A4 용지 약 2,000페이지 분량의 문서를 한 번에 처리할 수 있는 셈입니다.

네이티브 멀티모달 — 나중에 붙인 게 아닙니다

기존 많은 모델들은 텍스트 모델에 비전 인코더를 “나중에 추가(bolted-on)”하는 방식을 썼습니다.
Qwen3.5-9B는 처음부터 이미지·텍스트·비디오 토큰을 동시에 학습하는 얼리 퓨전(Early Fusion) 방식으로 설계됐습니다.
이 덕분에 화면 UI 요소 읽기, 영상 속 객체 카운팅 같은 작업을 기존 동급 모델 대비 월등히 잘 수행합니다.

RL 기반 에이전트 훈련 — 백만 개 환경에서 단련됐습니다

단순 지도학습을 넘어, 백만 개(million-agent) 규모의 에이전트 환경에서 강화학습(RL)을 수행했습니다.
이를 통해 모델은 점점 복잡해지는 멀티스텝 목표를 달성하는 “인간 수준의 판단력”을 갖추게 됩니다.
현실 세계에서의 적응성이 단순 벤치마크 점수보다 더 중요한 이유가 여기 있습니다.

표 1. Qwen3.5-9B 주요 아키텍처 스펙 (출처: Hugging Face 공식 모델 카드)
항목	스펙
총 파라미터	9B (90억 개)
기본 컨텍스트 길이	262,144 토큰 (최대 1,010,000)
히든 차원	4,096
레이어 수	32개
지원 언어	201개 언어·방언
라이선스	Apache 2.0 (상업적 이용 무료)
아키텍처	Gated DeltaNet + 희소 MoE 하이브리드
멀티모달	이미지·텍스트·비디오 네이티브 지원

▲ 목차로 돌아가기

벤치마크 성적표 완전 해부

숫자가 모든 것을 말하지는 않지만, Qwen3.5-9B의 벤치마크 성적은 단순히 좋은 수준을 넘어 “이게 어떻게 가능하지?” 하는 반응을 이끌어냈습니다.
XDA Developers는 “26개 벤치마크 중 Qwen3.5-9B가 10개 분야에서 1위를 차지했고, 전반적으로 GPT-OSS-120B보다 우위”라고 보도했습니다.

표 2. 주요 벤치마크 비교표 (출처: Qwen3.5 공식 허깅페이스 카드, 2026.03)
벤치마크	Qwen3.5-9B	GPT-OSS-120B	Gemini 2.5 Flash-Lite
GPQA Diamond (대학원 추론)	81.7 ✅	80.1	—
MMMLU (멀티언어 지식)	81.2 ✅	78.2	—
MMMU-Pro (시각 추론)	70.1 ✅	—	59.7
Video-MME w/ subs (영상 이해)	84.5 ✅	—	74.6
HMMT Feb 25 (수학)	83.2 ✅	90.0	—
OmniDocBench 1.5 (문서 인식)	87.7 ✅	—	79.4
AA-LCR (긴 컨텍스트)	63.0 ✅	50.7	—
TAU2-Bench (에이전트)	79.1 ✅	—	—

다만 공정하게 짚어야 할 부분이 있습니다. “Towards Deep Learning” 분석에 따르면,
Qwen3.5-9B는 MoE 아키텍처 덕분에 총 파라미터는 9B이지만 실제 추론 시 활성화되는 파라미터는 더 많습니다.
즉, “13배 작다”는 표현은 총 파라미터 기준이며, 실제 연산 비용 차이는 13배보다 훨씬 줄어듭니다.
그럼에도 불구하고 노트북 수준의 하드웨어로 실행할 수 있다는 실용적 가치는 부정할 수 없습니다.

💡 필자 의견: 벤치마크 점수보다 제가 더 주목하는 수치는 TAU2-Bench 79.1점입니다.
이 지표는 실제 현실 세계의 에이전트 작업 수행 능력을 측정하는 것으로, GPT-4급 모델들이 57점대에 머물 때
9B 모델이 79점을 기록했다는 건 “생각하고 행동하는 AI 에이전트”로서의 실용성이 월등하다는 뜻입니다.

▲ 목차로 돌아가기

로컬 설치 완전 가이드 (Ollama·vLLM)

Qwen3.5-9B는 클라우드 API 없이도 내 컴퓨터에서 직접 실행할 수 있습니다.
가장 쉬운 방법은 Ollama, 고성능 서빙이 필요하다면 vLLM을 추천합니다.

방법 1: Ollama (가장 쉬운 방법 — 입문자 추천)

Ollama는 터미널 명령어 두 줄로 LLM을 로컬에서 실행할 수 있는 오픈소스 도구입니다.
Windows·macOS·Linux 모두 지원하며, 설치 후 아래 명령어를 실행하면 자동으로 모델을 다운로드하고 실행합니다.

# 1. Ollama 공식 사이트(https://ollama.com)에서 설치 후
# 2. 터미널에서 실행
ollama run qwen3.5:9b
# 멀티모달(이미지 처리) 사용 시
ollama run qwen3.5:9b-instruct

RAM 6GB 이상이면 기본 실행이 가능하며, GPU가 있으면 자동으로 가속됩니다.
M1/M2/M3 맥북 에어에서도 원활하게 돌아간다는 커뮤니티 보고가 다수입니다.

방법 2: vLLM (고성능 서빙 — 개발자·기업 추천)

API 서버 형태로 Qwen3.5-9B를 배포하고 싶다면 vLLM을 사용하세요.
OpenAI 호환 API를 제공해서 기존에 ChatGPT API를 사용하던 코드를 거의 수정 없이 전환할 수 있습니다.

# vLLM 나이틀리 버전 설치
pip install vllm --torch-backend=auto \
--extra-index-url https://wheels.vllm.ai/nightly
# API 서버 실행 (컨텍스트 262,144 토큰 기준)
vllm serve Qwen/Qwen3.5-9B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3
# 멀티모달(이미지·비디오) 지원 시
# 위 명령어에 아래 옵션 추가:
# --media-io-kwargs '{"video": {"num_frames": -1}}'

⚙️ 최소 하드웨어 요건: 6GB RAM(또는 VRAM)으로 Q4 양자화 버전 실행 가능.
풀 정밀도(FP16) 실행은 최소 18GB VRAM 권장.
일반 사무용 노트북(8GB RAM)에서는 4비트 양자화 GGUF 버전을 통해 실행할 수 있습니다.

▲ 목차로 돌아가기

실전 활용법 5가지: 직장인·개발자·크리에이터

Qwen3.5-9B가 일반 한국어 사용자에게 실질적으로 어떤 가치를 줄 수 있는지 구체적으로 정리했습니다.

대용량 문서 분석 (보고서·계약서·논문)
컨텍스트 창이 26만 토큰이므로 100페이지짜리 PDF를 통째로 넣고 “핵심 조항만 뽑아줘”, “리스크 요소를 분석해줘” 같은 질문이 가능합니다.
OmniDocBench에서 87.7점을 기록해 OCR·레이아웃 파싱 성능도 검증됐습니다.

코드 저장소 전체 리팩토링 (개발자 필수)
최대 100만 토큰 컨텍스트로 대형 프로젝트 전체를 한 번에 분석할 수 있습니다.
Qwen Code(터미널 에이전트)와 연동하면 “이 레거시 코드를 TypeScript로 마이그레이션해줘” 같은 명령을 자동 수행합니다.

스크린샷·UI 자동화 (RPA 대체)
네이티브 멀티모달 구조 덕분에 화면 캡처를 넣고 “이 버튼 클릭 후 다음 단계를 수행해줘” 같은 UI 자동화가 가능합니다.
OSWorld 벤치마크(41.8점)에서 상위권을 기록해 실제 데스크탑 에이전트로의 활용이 검증됐습니다.

한국어·다국어 번역 및 문서 현지화
201개 언어를 지원하며 MMMLU에서 81.2점, WMT24++ 번역 품질 평가에서 72.6점을 기록했습니다.
외국 기업 문서나 글로벌 서비스 현지화 작업에 클라우드 API 비용 없이 활용할 수 있습니다.

영상 콘텐츠 자동 분석 (유튜버·미디어)
Video-MME 벤치마크 84.5점으로 Gemini 2.5 Flash-Lite(74.6점)를 크게 앞섭니다.
영상을 올리면 “챕터 별 요약”, “자막 없이 내용 분석” 등이 가능해 콘텐츠 크리에이터의 편집 시간을 대폭 줄여줍니다.

▲ 목차로 돌아가기

주의사항과 솔직한 한계

Qwen3.5-9B는 분명히 뛰어난 모델이지만, 맹신하면 곤란합니다. VentureBeat과 커뮤니티 분석을 종합한 솔직한 주의사항을 정리했습니다.

① 에이전트 워크플로우의 ‘오류 연쇄’ 위험

멀티스텝 에이전트 작업에서 초반 추론 오류가 누적되면 완전히 엉뚱한 방향으로 흘러가는 “오류 연쇄(Hallucination Cascade)” 현상이 발생할 수 있습니다.
중요한 결정이 포함된 자동화 작업에는 반드시 중간 검증 단계를 삽입하는 것이 좋습니다.

② 레거시 코드 디버깅보다 신규 코드 작성에 강함

OJBench(복잡한 프로그래밍 문제) 점수는 29.2점으로 GPT-OSS-120B(41.5점)에 비해 낮습니다.
이미 존재하는 복잡한 레거시 코드를 수정하거나 디버깅하는 용도보다는, 새로운 기능을 처음부터 작성하는 “그린필드 코딩”에 더 적합합니다.

③ 중국 기업 제품 — 데이터 거주 이슈

알리바바 클라우드 API를 사용할 경우 데이터가 중국 서버를 경유합니다. 금융·의료·국방 분야의 민감 데이터 처리 시에는
반드시 Apache 2.0 오픈 가중치를 자체 서버에 직접 설치하는 온프레미스 방식을 선택해야 합니다.

④ VRAM 요구량 — “소형”이지만 만만치 않습니다

9B 파라미터라도 풀 정밀도 실행에는 약 18GB VRAM이 필요합니다. 가정용 RTX 3080(10GB)에서는 양자화 버전만 실행 가능합니다.
최고 성능을 내려면 RTX 4090(24GB) 이상이 권장됩니다.

💡 필자 총평: 위 한계들은 모두 알려진 트레이드오프이며, 이 모델의 가치를 훼손하지 않습니다.
특히 클라우드 종속 탈피, 오프라인 환경 배포, 대용량 문서 처리 세 가지 측면에서
현재 이 가격대(무료)에 이 성능을 내는 대안은 사실상 없습니다.

▲ 목차로 돌아가기

Q&A 5선 — 자주 묻는 질문

Q1. Qwen3.5-9B와 ChatGPT의 차이는 무엇인가요?

ChatGPT(GPT-4o)는 OpenAI의 상용 클라우드 서비스로, 사용 시 데이터가 OpenAI 서버로 전송되고 유료 플랜이 필요합니다.
반면 Qwen3.5-9B는 Apache 2.0 오픈소스로 가중치가 공개돼 있어, 자신의 로컬 컴퓨터나 자체 서버에 직접 설치해 완전히 오프라인으로 사용할 수 있습니다.
성능 면에서도 대학원 수준 추론과 멀티언어 지식 평가에서는 오히려 Qwen3.5-9B가 OpenAI의 gpt-oss-120B를 앞섰습니다.
단, ChatGPT는 웹 검색·DALL-E 이미지 생성 등 통합 서비스가 제공된다는 점에서 편의성은 다릅니다.

Q2. 한국어 성능은 어떤가요? 실제로 잘 되나요?

공식적으로 201개 언어를 지원하며, MMMLU(멀티언어 지식 벤치마크)에서 81.2점을 기록해 gpt-oss-120B(78.2점)를 앞섰습니다.
특히 글로벌 언어 명령 수행(MAXIFE) 평가에서도 83.4점으로 우수한 성적을 보입니다.
커뮤니티 사용 후기에서도 “한국어 응답 품질이 생각보다 훨씬 자연스럽다”는 반응이 많습니다.
단, 한국어 특화 파인튜닝이 된 모델(예: EXAONE, HyperCLOVA)과 비교 시 일부 한국 문화·법률 지식에서는 차이가 있을 수 있습니다.

Q3. 상업적으로 사용해도 되나요? 비용이 발생하나요?

네, 완전히 무료입니다. Apache 2.0 라이선스는 로열티 없이 상업적 사용, 수정, 재배포가 모두 허용됩니다.
가중치를 허깅페이스나 ModelScope에서 무료로 다운로드해 자체 서버에 배포하면 추가 비용이 발생하지 않습니다.
다만 알리바바 클라우드의 DashScope API를 통해 사용할 경우 API 호출 비용이 발생하니 이 점은 구분해야 합니다.

Q4. 일반 노트북(RTX 3060, 16GB RAM)에서 실행 가능한가요?

RTX 3060 12GB VRAM 환경에서는 Q4_K_M 양자화 버전(GGUF 포맷)으로 실행 가능합니다. 커뮤니티 보고에 따르면
12GB VRAM + 32GB RAM 구성의 RTX 3060 환경에서 llama.cpp로 실행되는 것이 확인됐습니다.
응답 속도는 풀 VRAM 환경 대비 느리지만, 일상적인 문서 분석이나 코드 작성 용도로는 충분히 실용적입니다.
M1 맥북 에어(8GB RAM) 환경에서도 0.8B~4

로컬AI설치, 멀티모달AI, 알리바바AI, 오픈소스AI, Qwen3.5-9B

Qwen3.5-9B: GPT-120B 이긴 9B 모델, 지금 안 쓰면 손해

Qwen3.5-9B: GPT-120B를 꺾은
9B 오픈소스 AI, 지금 안 쓰면 손해

Qwen3.5-9B가 뭐길래 세계가 놀랐나