Qwen3.5-9B: GPT-120B를 꺾은
9B 오픈소스 AI, 지금 안 쓰면 손해
2026년 3월 초, 알리바바 Qwen 팀이 공개한 Qwen3.5-9B가 전 세계 AI 커뮤니티를 뒤흔들었습니다.
파라미터 수가 자신보다 13배 많은 OpenAI gpt-oss-120B를 대학원 수준 추론·멀티언어 벤치마크에서 앞질렀고,
노트북 한 대로 로컬 실행까지 됩니다. Apache 2.0 라이선스로 상업적 이용도 무료입니다.
한국어 블로그에는 아직 아무도 제대로 다루지 않은 이 모델, 지금 바로 정리해 드립니다.
📄 컨텍스트 26만 토큰
🌐 201개 언어 지원
🆓 Apache 2.0 무료 상업 이용
💻 노트북 로컬 실행 가능
Qwen3.5-9B가 뭐길래 세계가 놀랐나
Qwen3.5-9B는 알리바바 클라우드 Qwen 팀이 2026년 2월 말~3월 초에 걸쳐 공개한 소형 네이티브 멀티모달 언어 모델입니다.
핵심 시리즈는 0.8B·2B·4B·9B 네 가지로 구성되며, 그 중 9B 모델이 이번 주 글로벌 AI 커뮤니티에서 가장 뜨거운 화제를 몰고 있습니다.
이 모델이 이례적인 이유는 단순히 “성능이 좋다”는 수준을 넘어서기 때문입니다.
공식 허깅페이스 페이지와 VentureBeat 보도에 따르면, Qwen3.5-9B는 파라미터 수 기준으로 자신보다 13.5배 큰 OpenAI의 오픈소스 모델 gpt-oss-120B를
대학원 수준 추론 벤치마크인 GPQA Diamond(81.7 vs 80.1)와 멀티언어 지식 평가(MMMLU 81.2 vs 78.2)에서 앞질렀습니다.
AI 교육자 Paul Couvert는 “이게 어떻게 가능한 거냐(How is this even possible?!)”며 X(구 트위터)에서 충격을 표했습니다.
무엇보다 실용적인 강점은 접근성입니다. 허깅페이스와 ModelScope에 가중치가 공개됐고, Apache 2.0 라이선스라 기업·개인 모두 로열티 없이 상업적으로 쓸 수 있습니다.
M1 맥북 에어 같은 일반 노트북에서도 로컬 실행이 가능하다는 점이 개발자 커뮤니티에서 입소문을 타고 있습니다.
AI 인프라를 클라우드에 의존하지 않고 엣지·로컬에서 구현하는 시대가 실질적으로 열렸음을 뜻합니다.
특히 개인정보 규제가 강한 한국의 금융·의료·법률 분야 기업에게 이 변화는 선택이 아닌 전략적 기회입니다.
하이브리드 아키텍처: 왜 9B가 120B를 이겼나
Qwen3.5-9B의 성능 비결은 효율적 하이브리드 아키텍처(Efficient Hybrid Architecture)에 있습니다.
기존 트랜스포머 구조에서 벗어나, 두 가지 핵심 기술을 결합했습니다. 첫째는 Gated Delta Networks(선형 어텐션의 일종)이고,
둘째는 희소 MoE(Mixture-of-Experts)입니다.
Gated Delta Networks — 메모리 장벽을 깬 핵심
일반적인 트랜스포머는 입력 길이가 길어질수록 메모리 사용량이 기하급수적으로 늘어나는 “메모리 장벽” 문제가 있습니다.
Gated Delta Networks는 이 문제를 선형 연산으로 해결해 추론 속도를 크게 높이고, 긴 컨텍스트에서도 지연이 최소화됩니다.
덕분에 기본 컨텍스트 창이 262,144 토큰(약 26만 토큰), YaRN 스케일링 적용 시 최대 1,010,000 토큰(약 100만 토큰)까지 확장됩니다.
A4 용지 약 2,000페이지 분량의 문서를 한 번에 처리할 수 있는 셈입니다.
네이티브 멀티모달 — 나중에 붙인 게 아닙니다
기존 많은 모델들은 텍스트 모델에 비전 인코더를 “나중에 추가(bolted-on)”하는 방식을 썼습니다.
Qwen3.5-9B는 처음부터 이미지·텍스트·비디오 토큰을 동시에 학습하는 얼리 퓨전(Early Fusion) 방식으로 설계됐습니다.
이 덕분에 화면 UI 요소 읽기, 영상 속 객체 카운팅 같은 작업을 기존 동급 모델 대비 월등히 잘 수행합니다.
RL 기반 에이전트 훈련 — 백만 개 환경에서 단련됐습니다
단순 지도학습을 넘어, 백만 개(million-agent) 규모의 에이전트 환경에서 강화학습(RL)을 수행했습니다.
이를 통해 모델은 점점 복잡해지는 멀티스텝 목표를 달성하는 “인간 수준의 판단력”을 갖추게 됩니다.
현실 세계에서의 적응성이 단순 벤치마크 점수보다 더 중요한 이유가 여기 있습니다.
| 항목 | 스펙 |
|---|---|
| 총 파라미터 | 9B (90억 개) |
| 기본 컨텍스트 길이 | 262,144 토큰 (최대 1,010,000) |
| 히든 차원 | 4,096 |
| 레이어 수 | 32개 |
| 지원 언어 | 201개 언어·방언 |
| 라이선스 | Apache 2.0 (상업적 이용 무료) |
| 아키텍처 | Gated DeltaNet + 희소 MoE 하이브리드 |
| 멀티모달 | 이미지·텍스트·비디오 네이티브 지원 |
벤치마크 성적표 완전 해부
숫자가 모든 것을 말하지는 않지만, Qwen3.5-9B의 벤치마크 성적은 단순히 좋은 수준을 넘어 “이게 어떻게 가능하지?” 하는 반응을 이끌어냈습니다.
XDA Developers는 “26개 벤치마크 중 Qwen3.5-9B가 10개 분야에서 1위를 차지했고, 전반적으로 GPT-OSS-120B보다 우위”라고 보도했습니다.
| 벤치마크 | Qwen3.5-9B | GPT-OSS-120B | Gemini 2.5 Flash-Lite |
|---|---|---|---|
| GPQA Diamond (대학원 추론) | 81.7 ✅ | 80.1 | — |
| MMMLU (멀티언어 지식) | 81.2 ✅ | 78.2 | — |
| MMMU-Pro (시각 추론) | 70.1 ✅ | — | 59.7 |
| Video-MME w/ subs (영상 이해) | 84.5 ✅ | — | 74.6 |
| HMMT Feb 25 (수학) | 83.2 ✅ | 90.0 | — |
| OmniDocBench 1.5 (문서 인식) | 87.7 ✅ | — | 79.4 |
| AA-LCR (긴 컨텍스트) | 63.0 ✅ | 50.7 | — |
| TAU2-Bench (에이전트) | 79.1 ✅ | — | — |
다만 공정하게 짚어야 할 부분이 있습니다. “Towards Deep Learning” 분석에 따르면,
Qwen3.5-9B는 MoE 아키텍처 덕분에 총 파라미터는 9B이지만 실제 추론 시 활성화되는 파라미터는 더 많습니다.
즉, “13배 작다”는 표현은 총 파라미터 기준이며, 실제 연산 비용 차이는 13배보다 훨씬 줄어듭니다.
그럼에도 불구하고 노트북 수준의 하드웨어로 실행할 수 있다는 실용적 가치는 부정할 수 없습니다.
이 지표는 실제 현실 세계의 에이전트 작업 수행 능력을 측정하는 것으로, GPT-4급 모델들이 57점대에 머물 때
9B 모델이 79점을 기록했다는 건 “생각하고 행동하는 AI 에이전트”로서의 실용성이 월등하다는 뜻입니다.
로컬 설치 완전 가이드 (Ollama·vLLM)
Qwen3.5-9B는 클라우드 API 없이도 내 컴퓨터에서 직접 실행할 수 있습니다.
가장 쉬운 방법은 Ollama, 고성능 서빙이 필요하다면 vLLM을 추천합니다.
방법 1: Ollama (가장 쉬운 방법 — 입문자 추천)
Ollama는 터미널 명령어 두 줄로 LLM을 로컬에서 실행할 수 있는 오픈소스 도구입니다.
Windows·macOS·Linux 모두 지원하며, 설치 후 아래 명령어를 실행하면 자동으로 모델을 다운로드하고 실행합니다.
# 1. Ollama 공식 사이트(https://ollama.com)에서 설치 후
# 2. 터미널에서 실행
ollama run qwen3.5:9b
# 멀티모달(이미지 처리) 사용 시
ollama run qwen3.5:9b-instruct
RAM 6GB 이상이면 기본 실행이 가능하며, GPU가 있으면 자동으로 가속됩니다.
M1/M2/M3 맥북 에어에서도 원활하게 돌아간다는 커뮤니티 보고가 다수입니다.
방법 2: vLLM (고성능 서빙 — 개발자·기업 추천)
API 서버 형태로 Qwen3.5-9B를 배포하고 싶다면 vLLM을 사용하세요.
OpenAI 호환 API를 제공해서 기존에 ChatGPT API를 사용하던 코드를 거의 수정 없이 전환할 수 있습니다.
# vLLM 나이틀리 버전 설치
pip install vllm --torch-backend=auto \
--extra-index-url https://wheels.vllm.ai/nightly
# API 서버 실행 (컨텍스트 262,144 토큰 기준)
vllm serve Qwen/Qwen3.5-9B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3
# 멀티모달(이미지·비디오) 지원 시
# 위 명령어에 아래 옵션 추가:
# --media-io-kwargs '{"video": {"num_frames": -1}}'
풀 정밀도(FP16) 실행은 최소 18GB VRAM 권장.
일반 사무용 노트북(8GB RAM)에서는 4비트 양자화 GGUF 버전을 통해 실행할 수 있습니다.
실전 활용법 5가지: 직장인·개발자·크리에이터
Qwen3.5-9B가 일반 한국어 사용자에게 실질적으로 어떤 가치를 줄 수 있는지 구체적으로 정리했습니다.
컨텍스트 창이 26만 토큰이므로 100페이지짜리 PDF를 통째로 넣고 “핵심 조항만 뽑아줘”, “리스크 요소를 분석해줘” 같은 질문이 가능합니다.
OmniDocBench에서 87.7점을 기록해 OCR·레이아웃 파싱 성능도 검증됐습니다.
최대 100만 토큰 컨텍스트로 대형 프로젝트 전체를 한 번에 분석할 수 있습니다.
Qwen Code(터미널 에이전트)와 연동하면 “이 레거시 코드를 TypeScript로 마이그레이션해줘” 같은 명령을 자동 수행합니다.
네이티브 멀티모달 구조 덕분에 화면 캡처를 넣고 “이 버튼 클릭 후 다음 단계를 수행해줘” 같은 UI 자동화가 가능합니다.
OSWorld 벤치마크(41.8점)에서 상위권을 기록해 실제 데스크탑 에이전트로의 활용이 검증됐습니다.
201개 언어를 지원하며 MMMLU에서 81.2점, WMT24++ 번역 품질 평가에서 72.6점을 기록했습니다.
외국 기업 문서나 글로벌 서비스 현지화 작업에 클라우드 API 비용 없이 활용할 수 있습니다.
Video-MME 벤치마크 84.5점으로 Gemini 2.5 Flash-Lite(74.6점)를 크게 앞섭니다.
영상을 올리면 “챕터 별 요약”, “자막 없이 내용 분석” 등이 가능해 콘텐츠 크리에이터의 편집 시간을 대폭 줄여줍니다.
주의사항과 솔직한 한계
Qwen3.5-9B는 분명히 뛰어난 모델이지만, 맹신하면 곤란합니다. VentureBeat과 커뮤니티 분석을 종합한 솔직한 주의사항을 정리했습니다.
① 에이전트 워크플로우의 ‘오류 연쇄’ 위험
멀티스텝 에이전트 작업에서 초반 추론 오류가 누적되면 완전히 엉뚱한 방향으로 흘러가는 “오류 연쇄(Hallucination Cascade)” 현상이 발생할 수 있습니다.
중요한 결정이 포함된 자동화 작업에는 반드시 중간 검증 단계를 삽입하는 것이 좋습니다.
② 레거시 코드 디버깅보다 신규 코드 작성에 강함
OJBench(복잡한 프로그래밍 문제) 점수는 29.2점으로 GPT-OSS-120B(41.5점)에 비해 낮습니다.
이미 존재하는 복잡한 레거시 코드를 수정하거나 디버깅하는 용도보다는, 새로운 기능을 처음부터 작성하는 “그린필드 코딩”에 더 적합합니다.
③ 중국 기업 제품 — 데이터 거주 이슈
알리바바 클라우드 API를 사용할 경우 데이터가 중국 서버를 경유합니다. 금융·의료·국방 분야의 민감 데이터 처리 시에는
반드시 Apache 2.0 오픈 가중치를 자체 서버에 직접 설치하는 온프레미스 방식을 선택해야 합니다.
④ VRAM 요구량 — “소형”이지만 만만치 않습니다
9B 파라미터라도 풀 정밀도 실행에는 약 18GB VRAM이 필요합니다. 가정용 RTX 3080(10GB)에서는 양자화 버전만 실행 가능합니다.
최고 성능을 내려면 RTX 4090(24GB) 이상이 권장됩니다.
특히 클라우드 종속 탈피, 오프라인 환경 배포, 대용량 문서 처리 세 가지 측면에서
현재 이 가격대(무료)에 이 성능을 내는 대안은 사실상 없습니다.
Q&A 5선 — 자주 묻는 질문
Q1. Qwen3.5-9B와 ChatGPT의 차이는 무엇인가요?
반면 Qwen3.5-9B는 Apache 2.0 오픈소스로 가중치가 공개돼 있어, 자신의 로컬 컴퓨터나 자체 서버에 직접 설치해 완전히 오프라인으로 사용할 수 있습니다.
성능 면에서도 대학원 수준 추론과 멀티언어 지식 평가에서는 오히려 Qwen3.5-9B가 OpenAI의 gpt-oss-120B를 앞섰습니다.
단, ChatGPT는 웹 검색·DALL-E 이미지 생성 등 통합 서비스가 제공된다는 점에서 편의성은 다릅니다.
Q2. 한국어 성능은 어떤가요? 실제로 잘 되나요?
특히 글로벌 언어 명령 수행(MAXIFE) 평가에서도 83.4점으로 우수한 성적을 보입니다.
커뮤니티 사용 후기에서도 “한국어 응답 품질이 생각보다 훨씬 자연스럽다”는 반응이 많습니다.
단, 한국어 특화 파인튜닝이 된 모델(예: EXAONE, HyperCLOVA)과 비교 시 일부 한국 문화·법률 지식에서는 차이가 있을 수 있습니다.
Q3. 상업적으로 사용해도 되나요? 비용이 발생하나요?
가중치를 허깅페이스나 ModelScope에서 무료로 다운로드해 자체 서버에 배포하면 추가 비용이 발생하지 않습니다.
다만 알리바바 클라우드의 DashScope API를 통해 사용할 경우 API 호출 비용이 발생하니 이 점은 구분해야 합니다.
Q4. 일반 노트북(RTX 3060, 16GB RAM)에서 실행 가능한가요?
12GB VRAM + 32GB RAM 구성의 RTX 3060 환경에서 llama.cpp로 실행되는 것이 확인됐습니다.
응답 속도는 풀 VRAM 환경 대비 느리지만, 일상적인 문서 분석이나 코드 작성 용도로는 충분히 실용적입니다.
M1 맥북 에어(8GB RAM) 환경에서도 0.8B~4
Read Next:
최신 글
- 여권사진 규격 2026, 사진관에서 찍고도 반려되는 이유 5가지사진관에서 찍은 여권사진도 촬영일, 머리 길이, 배경 보정, 온라인 파일 기준 때문에 반려될 수 있습니다. 외교부 기준으로 5가지를 확인하세요.
- 인천공항 터미널 잘못 내렸을 때 2026, T1·T2 이동 먼저 볼 3가지인천공항에서 T1·T2 터미널을 잘못 내렸을 때 공항철도, 무료 셔틀, 직원 확인 중 무엇을 먼저 선택해야 하는지 공식 기준으로 정리했습니다.
- 인천공항 셀프백드랍 2026, 카운터 안 가도 되는 사람과 막히는 사람인천공항 셀프백드랍 이용 조건, 출발 1시간 전 기준, 항공사별 카운터, 90cm 수하물 제한, 카운터로 가야 하는 경우를 정리했습니다.
- 서울역 도심공항터미널 체크인 2026, 17시 비행기면 몇 시까지 가야 할까서울역 도심공항터미널 체크인 가능 항공사, T1·T2 마감시간, 직통열차 QR 조건, 수하물 제한을 2026년 기준으로 정리했습니다.
- 출국 30분 전 프린트 막혔다면? 인천공항 T1·T2 출력 가능한 곳 2026출국 직전 인천공항에서 프린트가 필요할 때 T1·T2 후보 위치, 무료·유료 출력 정보, 남은 시간별 대처 순서를 정리했습니다.
- 2026 근로장려금 신청 기준 지급액 계산, 먼저 확인할 결정 기준먼저 답 근로장려금은 블로그 표 하나로 확정하면 안 됩니다. 먼저 가구 유형, 총소득, 재산 합계, 신청기한을 홈택스 계산기나 신청 화면에 넣고, 기한 후 신청이면 산정액에서 5% 감액될 수 있다고 봐야 합니다.… Read more: 2026 근로장려금 신청 기준 지급액 계산, 먼저 확인할 결정 기준
- 2026 연말정산 월세 세액공제 한도 조건 계산, 최대 170만원보다 먼저 볼 탈락 조건먼저 답 월세 세액공제는 환급액부터 계산하면 늦습니다. 먼저 총급여 8,000만원 이하, 무주택, 등본 주소와 계약서 주소 일치, 대상 주택 기준을 통과하는지 보세요. 이 네 가지가 맞으면 연간 월세 1,000만원까지 15% 또는… Read more: 2026 연말정산 월세 세액공제 한도 조건 계산, 최대 170만원보다 먼저 볼 탈락 조건
- 정수기 필터 교체 비용 정품 호환 가격 비교, 지금 얼마를 잡고 어떻게 고를까먼저 답 정수기 필터는 모델명과 필터 품번을 먼저 확인한 뒤 정품과 호환품을 유효정수량 기준으로 비교해야 합니다. 가격만 보면 호환 필터가 싸지만, 성능 기준 미달 사례가 있으면 절감액보다 위험이 큽니다. 핵심 가격… Read more: 정수기 필터 교체 비용 정품 호환 가격 비교, 지금 얼마를 잡고 어떻게 고를까
- AI 구독 1개만 고른다면 ChatGPT Plus Claude Pro Gemini AI Pro Perplexity Pro 비교, 상황별 선택 기준먼저 답 AI 구독을 하나만 골라야 한다면, '주요 사용 목적'에 따라 최적의 선택이 달라집니다. 만약 최신 정보 기반의 리서치가 가장 중요하다면 Perplexity Pro(월 $20)를, 범용성과 사용자 친숙함을 원한다면 ChatGPT Plus(월 $20)를… Read more: AI 구독 1개만 고른다면 ChatGPT Plus Claude Pro Gemini AI Pro Perplexity Pro 비교, 상황별 선택 기준
- perplexity pro 가격 2026 요금제 기능 비교, 지금 얼마를 잡고 어떻게 고를까핵심 체크 포인트 perplexity pro 가격 2026 요금제 기능 비교, 지금 얼마를 잡고 어떻게 고를까 Perplexity는 무료 사용도 가능하지만, 전문적인 리서치나 무제한 활용이 필요하다면 유료 구독을 고려해야 합니다. 현재 Pro 요금은… Read more: perplexity pro 가격 2026 요금제 기능 비교, 지금 얼마를 잡고 어떻게 고를까
카테고리
5세대실손보험 2026세법개정 Aardvark OpenAI AI 모델 비교 AI모델비교 AI 에이전트 AI에이전트2026 AI에이전트만들기 AI 코딩 도구 AI코딩도구 AI 코딩 에이전트 AI코딩에이전트 Anthropic 1M 토큰 ChatGPT 2026 Gemini 3.1 Flash-Lite Gemini 3.1 Pro Gemini API Gemini CLI Google AI Pro Google AI Studio GPT-5.4 NotebookLM Perplexity Computer Perplexity Max Windsurf xAI 구글 AI 2026 구글AI MAX광고 금융소득종합과세 기타소득세 노란우산공제 노란우산공제해지 단순경비율 단순경비율 기준경비율 바이브코딩 삼성에이전틱AI 소득공제 소상공인절세 전월세신고제 종합소득세 종합소득세신고 청년미래적금 퇴직금중간정산 퇴직소득세 프리랜서세금
Tags
5세대실손보험 2026세법개정 Aardvark OpenAI AI 모델 비교 AI모델비교 AI 에이전트 AI에이전트2026 AI에이전트만들기 AI 코딩 도구 AI코딩도구 AI 코딩 에이전트 AI코딩에이전트 Anthropic 1M 토큰 ChatGPT 2026 Gemini 3.1 Flash-Lite Gemini 3.1 Pro Gemini API Gemini CLI Google AI Pro Google AI Studio GPT-5.4 NotebookLM Perplexity Computer Perplexity Max Windsurf xAI 구글 AI 2026 구글AI MAX광고 금융소득종합과세 기타소득세 노란우산공제 노란우산공제해지 단순경비율 단순경비율 기준경비율 바이브코딩 삼성에이전틱AI 소득공제 소상공인절세 전월세신고제 종합소득세 종합소득세신고 청년미래적금 퇴직금중간정산 퇴직소득세 프리랜서세금







댓글 남기기