Qwen3.5-9B 한국어: “성능 좋다”고 믿으면 놓치는 진짜 함정

Published on

2026년 3월 15일

📅 2026.03.15 기준
Qwen3.5-9B (2026.03.02 릴리스)
Apache 2.0 / 무료 오픈소스

Qwen3.5-9B 한국어: “성능 좋다”고 믿으면 놓치는 진짜 함정

9B짜리 소형 모델이 OpenAI의 120B 모델을 벤치마크에서 제쳤습니다. 그런데 정작 한국어로 대화하면 한자가 섞여 나옵니다. 벤치마크가 전부가 아닌 이유, 공식 GitHub 이슈와 실측 수치로 지금 바로 확인해 드립니다.

81.7

GPQA Diamond 점수

13.5×

gpt-oss-120B 대비 소형

262K

네이티브 컨텍스트 (토큰)

~6GB

4bit 양자화 RAM 요구량

Qwen3.5-9B가 지금 주목받는 이유

2026년 3월 2일, 알리바바 Qwen 팀이 조용히 4개의 소형 모델을 공개했습니다. Qwen3.5-0.8B, 2B, 4B, 그리고 9B입니다. 이미 2월 16일에 공개된 397B 플래그십 모델의 그늘에 가려져 있었지만, 이 소형 시리즈야말로 실질적인 파급력이 더 큰 릴리스입니다. 이유는 단순합니다. 개인 노트북에서 돌아가기 때문입니다.

Qwen3.5-9B는 Apache 2.0 라이선스로 배포됩니다. 상업적 사용이 가능하고, 파인튜닝도 자유롭고, 비용은 0원입니다. 4bit 양자화 기준으로 약 6GB RAM이 필요하며, M1 맥북이나 RTX 3060 이상이면 실시간 추론이 가능합니다. 클라우드 API 호출 비용을 걱정하지 않아도 되는 ‘로컬 무료 AI’의 새로운 기준점이 등장한 것입니다.

그런데 여기서 한 가지 질문이 생깁니다. 벤치마크 숫자는 화려한데, 실제로 한국어로 쓸 때도 그만한 성능이 나올까요? 이 글은 그 질문에 공식 수치와 실사용 사례로 정직하게 답합니다.

▲ 목차로 돌아가기

잠깐, 이게 사실입니다 — 9B가 120B를 이긴 진짜 메커니즘

💡 이 분석은 Qwen 공식 릴리스 블로그와 Trilogy AI의 아키텍처 분석을 교차한 결과입니다. 벤치마크 수치만 보도하는 기존 글들과 달리, 왜 이 수치가 가능한지 구조적 원인을 짚습니다.

Qwen3.5-9B는 GPQA Diamond(대학원급 추론 벤치마크)에서 81.7점을 기록했습니다. OpenAI의 gpt-oss-120B는 같은 벤치마크에서 80.1점입니다. (출처: Alibaba Qwen 공식 블로그, 2026.03.02) 9B 모델이 13.5배 더 큰 120B 모델을 추론 능력에서 앞선 것입니다. 이것이 의미하는 것은 단 하나입니다. 파라미터 수가 곧 성능이라는 공식이 더 이상 통하지 않는다는 뜻입니다.

비결은 두 가지 아키텍처 혁신에 있습니다. 첫째는 Gated Delta Networks(GDN)입니다. 일반 트랜스포머는 토큰이 늘어날수록 연산량이 제곱으로 증가합니다(O(n²)). 262K 토큰을 처리하려면 단일 어텐션 레이어에서만 약 687억 개의 점수값을 저장해야 합니다. GDN은 이 문제를 고정 크기 상태 행렬로 해결합니다. 연산이 O(n)으로 선형화되어, 길이가 늘어도 메모리 비용이 폭증하지 않습니다. (출처: Trilogy AI Deep Dive, 2026.03.04)

둘째는 Sparse Mixture-of-Experts(MoE)입니다. 모든 파라미터를 매 토큰마다 활성화하는 대신, 입력에 맞는 전문가 서브네트워크만 선택적으로 활성화합니다. 9B 모델이 실제 추론에 사용하는 파라미터는 전체의 일부분에 불과하지만, 각 전문가가 집중 훈련된 영역에서는 더 큰 dense 모델에 필적하는 결과를 냅니다. 이것이 “9B인데 왜 이렇게 잘하지?”의 구조적 답입니다.

직접 확인 가능한 수치: Qwen3.5-9B의 GPQA Diamond 81.7점 vs. gpt-oss-120B 80.1점. 차이는 1.6점이지만, 이를 달성하는 데 필요한 하드웨어 비용의 차이는 13.5배입니다. 6GB RAM 노트북 vs. 수십만 원대 클라우드 API 청구서 중 어느 쪽을 선택하겠습니까.

▲ 목차로 돌아가기

실제로 써보면 당황하는 이유 — 한국어 한자 삽입 버그

벤치마크 홍보글에서는 절대 보이지 않는 이야기를 해야 할 차례입니다. Qwen3.5-9B를 한국어로 사용할 때 발생하는 가장 빈번한 문제는 한자(漢字) 삽입 현상입니다. 한국어로 질문하고 답변을 받다 보면, 중간에 중국어 한자가 끼어드는 상황이 종종 발생합니다. “한국어로 응답해줘”라는 시스템 프롬프트를 줘도 완전히 막히지 않습니다.

이것은 커뮤니티에서만 도는 소문이 아닙니다. 실사용자 kuil09(@kuil09, Threads, 2026.03.03)는 “Qwen3.5 9B의 능력은 상당히 인상적인데, 한국어 응답에 종종 한문을 끼워 넣는 습관이 있다”고 직접 보고했습니다. 더 중요한 것은 이와 관련된 공식 GitHub 이슈(#57)가 2026년 3월 5일 등록되어 현재 열려 있다는 점입니다. 이슈에 따르면 모델은 CJK 문자(한자·한글 포함)와 ASCII 문자 사이에 의도치 않은 공백(U+0020)을 삽입하며, “절대 공백 추가하지 마시오”라고 명시적으로 지시해도 이 동작이 계속됩니다. (출처: QwenLM/Qwen3.5 GitHub Issues #57, 2026.03.05)

이것이 독자 여러분께 의미하는 것은 다음과 같습니다. 한국어 문서 작성, 문자열 파싱, 코드 생성 결과물의 한국어 주석 등에서 육안으로 보기에는 정상처럼 보이지만 실제 문자열 길이나 인덱스가 틀어질 수 있습니다. 자동화 파이프라인에 Qwen3.5-9B를 연결해 한국어 결과물을 DB에 넣거나 API 응답으로 내보낼 때 특히 주의가 필요합니다.

⚠️ 임시 우회법: 시스템 프롬프트에 You MUST respond only in Korean (Hangul). Do not use Chinese characters (Hanzi/CJK). Output pure Korean text only.를 명시적으로 포함하면 발생 빈도가 줄어든다는 사용자 보고가 있습니다. 단, 완전한 해결책이 아니며 공식 패치를 기다리는 것이 권장됩니다.

▲ 목차로 돌아가기

알고 보면 반대입니다 — 262K 컨텍스트가 RAG를 대체한다?

💡 공식 아키텍처 문서와 Trilogy AI의 GDN 분석을 교차 검토한 결과, 기존 블로그들이 놓친 핵심 한계가 존재합니다.

많은 분들이 “262K 토큰 컨텍스트면 RAG 없이도 문서를 통째로 때려 넣으면 되겠네”라고 생각합니다. 약 400페이지 분량의 문서를 한 번에 처리한다는 발상은 매력적입니다. 그러나 이것은 절반만 맞는 이야기입니다.

Qwen3.5-9B의 262K 컨텍스트는 GDN(선형 어텐션)과 일부 full attention 레이어의 조합으로 구현됩니다. 구조는 “6개 GDN 블록 → 1개 full attention 블록” 방식입니다. GDN 레이어는 모든 이전 문맥을 고정 크기 상태 행렬로 압축합니다. 즉, 멀리 떨어진 위치의 정보는 점진적으로 손실될 수 있습니다. Trilogy AI의 분석에 따르면 “정확한 바늘 찾기(needle-in-a-haystack)” 작업, 즉 문서 깊숙한 곳에 박힌 특정 수치나 고유명사를 정확히 추출해야 하는 태스크에서는 full attention 체크포인트 간격에 따라 성능이 저하될 수 있습니다. (출처: Trilogy AI Deep Dive, 2026.03.04)

이것이 의미하는 것은 다음과 같습니다. 긴 문서 전체를 맥락으로 넣는 ‘롱 컨텍스트 요약’ 태스크에서는 강력한 성능을 보이지만, 문서의 특정 조항 번호나 특정 날짜를 정확히 찾아내야 하는 ‘정밀 추출’ 태스크에서는 여전히 RAG 파이프라인이 더 신뢰할 수 있습니다. 262K 컨텍스트는 RAG의 완전한 대체재가 아니라 보완재로 이해하는 것이 정확합니다.

▲ 목차로 돌아가기

내 PC에서 바로 실행하는 법 (Ollama 완전 가이드)

Qwen3.5-9B를 로컬에서 구동하는 가장 쉬운 방법은 Ollama입니다. Ollama는 모델 다운로드, 양자화 적용, API 서버 실행을 단 두 줄 명령어로 처리해 줍니다. 단, 아래 요구 사항을 먼저 확인하세요.

최소 하드웨어 요구 사항 (2026.03.15 기준)

구분	최소 사양	권장 사양
RAM (CPU 추론)	8GB	16GB 이상
GPU VRAM	6GB (4bit Q4_K_M)	10GB 이상 (bfloat16)
Apple Silicon	M1 8GB (느림)	M2/M3 16GB 이상
저장 공간	6GB (Q4_K_M)	18GB (bfloat16)

Ollama 설치 후 아래 두 줄로 끝납니다.

# 1. 모델 다운로드 및 실행 (4bit Q4_K_M 기본 적용)
ollama run qwen3.5:9b
# 2. 한국어 전용 시스템 프롬프트로 실행하려면 Modelfile 생성
# Modelfile 내용:
# FROM qwen3.5:9b
# SYSTEM "You MUST respond only in Korean (Hangul). Do not use Chinese characters (Hanzi/CJK). Output pure Korean text only."

Hugging Face에서 직접 다운로드하려면 Qwen/Qwen3.5-9B-Instruct 모델 ID를 사용하면 됩니다. vLLM 서빙 시에는 약 10GB VRAM이 필요하며 bfloat16 기준으로 2~3배 높은 처리량을 제공합니다.

▲ 목차로 돌아가기

많은 분들이 오해하는 부분 — Ollama 툴콜 버그와 필수 우회법

Qwen3.5-9B를 에이전트(Agent) 워크플로에 연결하려는 분들이라면 반드시 알아야 할 사항이 있습니다. 공식 Ollama GitHub에는 현재 두 가지 알려진 이슈가 등록되어 있습니다.

첫 번째는 툴콜 미실행 버그입니다. Ollama에서 Qwen3.5-9B를 사용할 때 모델이 실제로 툴을 실행하는 대신 툴콜 구문을 텍스트로 그대로 출력하는 현상이 간헐적으로 발생합니다. (출처: ollama/ollama GitHub Issues #14745, 2026.03.09) 이 버그는 Opencode 같은 코딩 에이전트 환경에서 특히 자주 발생하며, 에이전트 작업이 중간에 멈추는 원인이 됩니다.

두 번째는 시스템 프롬프트 없을 때의 과도한 사고 모드입니다. Hacker News 커뮤니티에서 확인된 바에 따르면, Qwen3.5는 시스템 프롬프트를 제공하지 않으면 “무엇을 해야 하는지”에 대해 수 분간 추론하는 이상 동작을 보입니다. 단순한 인삿말에도 장문의 사고 과정을 출력하고, 짧고 명확한 질문에도 과도한 분석 루프에 빠집니다. 이것이 의미하는 것은 Qwen3.5-9B를 실전에 쓰려면 시스템 프롬프트가 선택이 아닌 필수라는 뜻입니다.

실전 권장 시스템 프롬프트 구조: 역할 정의 → 언어 지정(한국어) → 출력 형식 → 사고 모드 제한 순서로 작성하면 과도한 추론 루프를 상당 부분 억제할 수 있습니다. 특히 Answer directly without excessive reasoning preamble. 문구 추가가 효과적이라는 커뮤니티 보고가 다수 있습니다.

▲ 목차로 돌아가기

Qwen3.5-9B vs 경쟁 모델 직접 비교

같은 소형 오픈소스 모델 카테고리에서 실질적 경쟁자들과 한눈에 비교해 드립니다. 아래 표는 2026.03.15 기준 공개 벤치마크를 바탕으로 작성되었습니다.

모델	파라미터	GPQA Diamond	컨텍스트	비전	로컬 무료
Qwen3.5-9B	9B	81.7	262K	✅ 네이티브	✅
gpt-oss-120B	120B	80.1	128K	✅	❌ API 유료
Gemini 2.5 Flash-Lite	비공개	~73	128K	✅	❌ API 유료
Llama 3.1 8B	8B	~51	128K	❌	✅
Gemma3 9B	9B	~62	128K	✅	✅

※ gpt-oss-120B GPQA Diamond 수치: 출처 Business Analytics Substack (2026.03.06) / Qwen3.5-9B: 출처 Alibaba Qwen 공식 블로그 (2026.03.02) / 기타 수치는 공개 리더보드 기준 추정치

이 표가 의미하는 것은 명확합니다. 같은 9B 파라미터 급에서 Qwen3.5-9B는 GPQA 점수, 컨텍스트 길이, 네이티브 비전 세 항목 모두에서 경쟁 모델을 앞서며, 비용은 무료입니다. 단, 한국어 품질 측면에서는 한자 삽입 버그가 해결되기 전까지는 한국어 특화 모델(예: EXAONE 4.0)이 실용적인 대안이 될 수 있습니다.

▲ 목차로 돌아가기

Q&A — 자주 묻는 질문 5개

Q1. Qwen3.5-9B는 완전히 무료로 사용할 수 있나요?

네, Apache 2.0 라이선스로 배포되어 상업적 이용과 파인튜닝이 모두 무료입니다. 로컬 실행 시 Hugging Face에서 모델 가중치를 무료로 다운로드할 수 있습니다. 다만 Alibaba Cloud ModelStudio를 통한 API 호출(Qwen3.5-Plus 버전)은 별도 과금 구조를 가집니다. (출처: QwenLM/Qwen3.5 GitHub README)

Q2. 한국어 한자 삽입 버그는 언제 고쳐지나요?

2026년 3월 15일 현재 QwenLM/Qwen3.5 GitHub Issues #57로 열려 있으며 아직 공식 패치는 없습니다. 임시 방편으로 시스템 프롬프트에 “Do not use Chinese characters (Hanzi/CJK)”를 명시하거나, 출력 후 CJK 유니코드 범위(U+4E00~U+9FFF)를 필터링하는 후처리 로직을 추가하는 방법이 있습니다. 공식 GitHub을 주기적으로 확인하는 것을 권장드립니다.

Q3. M1 맥북 8GB에서도 돌아가나요?

기술적으로는 가능하지만 속도가 상당히 느립니다. 4bit Q4_K_M 양자화 기준 약 5~6GB RAM을 사용하므로 8GB 유니파이드 메모리에서는 OS와 RAM을 나눠 써야 합니다. Reddit 커뮤니티 보고에 따르면 M1 8GB에서 약 4~6 tokens/second 수준으로, 짧은 대화는 가능하지만 긴 문서 처리는 체감상 답답할 수 있습니다. M2/M3 16GB 이상을 권장합니다.

Q4. Qwen3.5-9B를 이미지 분석에도 쓸 수 있나요?

네, 네이티브 멀티모달 지원을 합니다. 텍스트 전용 모델에 비전 어댑터를 붙인 방식이 아니라, 처음부터 이미지·텍스트·비디오를 함께 학습했습니다. MMMU-Pro 비주얼 추론 벤치마크에서 70.1점을 기록하여 Gemini 2.5 Flash-Lite(59.7점)를 상회합니다. (출처: Business Analytics Substack, 2026.03.06) 단, Ollama에서 이미지 입력을 사용하려면 mlx-vlm 또는 최신 llama.cpp 빌드가 필요할 수 있습니다.

Q5. Qwen3.5-9B와 Qwen3.5-Plus(유료 API)는 어떻게 다른가요?

Qwen3.5-9B는 오픈웨이트(로컬 실행) 모델이고, Qwen3.5-Plus는 Alibaba Cloud에서 호스팅하는 서비스 모델입니다. Plus는 기본 1M 토큰 컨텍스트와 공식 내장 웹 검색, 코드 인터프리터 등의 도구가 제공됩니다. 9B 로컬 모델은 컨텍스트 창이 262K이며 도구 연동은 직접 구성해야 합니다. 개발·테스트 목적이라면 무료 9B를 먼저 써보고, 프로덕션 규모라면 Plus API를 고려하는 것이 합리적입니다.

▲ 목차로 돌아가기

마치며 — 지금 써도 될까, 기다려야 할까

Qwen3.5-9B는 2026년 3월 현재 소형 오픈소스 모델 중 가장 인상적인 성능을 보여주는 모델임이 분명합니다. 9B라는 파라미터로 120B 모델의 추론 능력을 넘어선 것은 아키텍처 혁신의 결과이며, 6GB RAM으로 작동하는 무료 멀티모달 모델이라는 점에서 접근성도 탁월합니다.

그러나 한국어 사용자라면 지금 당장 프로덕션에 바로 투입하기보다는, 한자 삽입 버그(GitHub Issues #57)의 공식 패치를 확인한 후 적용하는 것이 안전합니다. 영어·코딩·문서 요약 태스크라면 지금 당장 써도 좋은 수준입니다. 한국어 자동화 파이프라인, 특히 정밀한 문자열 처리가 필요한 곳이라면 조금 더 기다리거나 후처리 필터를 반드시 추가하는 것을 권장드립니다.

개인적으로는, 벤치마크 숫자보다 “실제 한국어로 어떻게 작동하는가”를 먼저 확인하는 습관이 AI 툴 선택에서 가장 중요한 기준이라고 생각합니다. 이 글이 그 판단에 실질적인 도움이 되었으면 합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Alibaba Qwen Team, Qwen3.5: Towards Native Multimodal Agents — https://qwen.ai/blog?id=qwen3.5 (2026.02.15)
QwenLM, Qwen3.5 GitHub Repository — README & Release Notes — https://github.com/QwenLM/Qwen3.5 (2026.03.02)
QwenLM, GitHub Issues #57 — CJK space insertion bug — https://github.com/QwenLM/Qwen3.5/issues/57 (2026.03.05)
Trilogy AI, Deep Dive: Qwen 3.5 Brings Native Multimodality and Long Context to Small Open Models — https://trilogyai.substack.com/p/deep-dive-qwen-35-brings-native-multimodality (2026.03.04)
Business Analytics Substack, Hybrid MoE Powers Alibaba’s 9B Breakthrough — https://businessanalytics.substack.com/p/hybrid-moe-powers-alibabas-9b-breakthrough (2026.03.06)
Ollama, qwen3.5:9b Model Page — https://ollama.com/library/qwen3.5:9b

본 포스팅 작성 이후 Qwen3.5 서비스 정책·모델 가중치·UI·기능이 변경될 수 있습니다. 모든 벤치마크 수치는 각 출처 기재 날짜 기준이며, 이후 업데이트로 달라질 수 있습니다. 본 콘텐츠는 정보 제공 목적으로 작성되었으며, 특정 서비스의 상업적 활용에 대한 보증을 포함하지 않습니다.

로컬LLM, 한국어AI, 오픈소스LLM, Qwen3.5, Qwen3.5-9B

Qwen3.5-9B 한국어: “성능 좋다”고 믿으면 놓치는 진짜 함정

Qwen3.5-9B 한국어: “성능 좋다”고 믿으면 놓치는 진짜 함정

Qwen3.5-9B가 지금 주목받는 이유

잠깐, 이게 사실입니다 — 9B가 120B를 이긴 진짜 메커니즘

실제로 써보면 당황하는 이유 — 한국어 한자 삽입 버그

알고 보면 반대입니다 — 262K 컨텍스트가 RAG를 대체한다?

내 PC에서 바로 실행하는 법 (Ollama 완전 가이드)

최소 하드웨어 요구 사항 (2026.03.15 기준)

많은 분들이 오해하는 부분 — Ollama 툴콜 버그와 필수 우회법

Qwen3.5-9B vs 경쟁 모델 직접 비교

Q&A — 자주 묻는 질문 5개

마치며 — 지금 써도 될까, 기다려야 할까

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Qwen3.5-9B 한국어: “성능 좋다”고 믿으면 놓치는 진짜 함정

Qwen3.5-9B 한국어: “성능 좋다”고 믿으면 놓치는 진짜 함정

Qwen3.5-9B가 지금 주목받는 이유

잠깐, 이게 사실입니다 — 9B가 120B를 이긴 진짜 메커니즘

실제로 써보면 당황하는 이유 — 한국어 한자 삽입 버그

알고 보면 반대입니다 — 262K 컨텍스트가 RAG를 대체한다?

내 PC에서 바로 실행하는 법 (Ollama 완전 가이드)

최소 하드웨어 요구 사항 (2026.03.15 기준)

많은 분들이 오해하는 부분 — Ollama 툴콜 버그와 필수 우회법

Qwen3.5-9B vs 경쟁 모델 직접 비교

Q&A — 자주 묻는 질문 5개

마치며 — 지금 써도 될까, 기다려야 할까

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기