2026.03.30 기준
Qwen3.5-397B-A17B 기준
Apache 2.0 오픈소스

Qwen 3.5, 397B인데
실제 쓰이는 건 17B입니다

알리바바가 2026년 2월 16일 공식 출시한 Qwen 3.5는 총 397B 파라미터를 가진 모델입니다. 그런데 추론 한 번에 실제로 활성화되는 파라미터는 17B뿐입니다. 이 구조가 가져다주는 게 뭔지, 그리고 어디서 예상이 빗나가는지 — 공식 자료와 실측 데이터를 나란히 놓고 정리했습니다.

397B

총 파라미터

17B

실제 활성 파라미터

8.6×

디코딩 속도(32K)

201개

지원 언어/방언

397B라는 숫자가 오해를 만들고 있습니다

Qwen 3.5를 처음 접하면 “397억 개 파라미터짜리 거대 모델”이라는 인상을 받습니다. 그런데 이 숫자 뒤에 결정적인 단서가 하나 더 있습니다. 알리바바 공식 블로그에 딱 이렇게 나옵니다 — “although it comprises 397 billion total parameters, just 17 billion are activated per forward pass.”

💡 공식 발표문과 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 모델 크기와 추론 비용은 별개입니다.

Qwen 3.5는 MoE(Mixture-of-Experts) 구조를 씁니다. 쉽게 말하면 397B짜리 전문가 집단에서 매 토큰마다 17B 규모의 전문가만 선택해 일을 시키는 방식입니다. 나머지 380B는 그 순간엔 잠들어 있습니다. 추론 비용이 낮아지는 이유가 바로 여기 있고, 이 구조 덕분에 전용 서버가 없어도 합리적인 하드웨어에서 실행 가능한 수준의 비용이 나옵니다.

여기서 주의할 점이 있습니다. “17B만 쓴다면 17B 모델과 같은 거 아니냐?”는 질문이 자연스럽게 나옵니다. 다릅니다. 어떤 전문가를 선택할지 결정하는 라우팅 메커니즘 자체가 전체 397B의 지식을 기반으로 작동합니다. 성능은 대형 모델 수준이되 추론 시 실제 계산량은 소형 모델처럼 낮아지는 구조입니다. (출처: Qwen 공식 블로그, 2026.02.15)

17B만 활성화된다는 사실이 처음엔 낯선데, 이게 바로 이 모델의 핵심 설계입니다.

▲ 목차로 돌아가기

공식 수치로 본 속도·비용 이점

알리바바가 공식 발표한 성능 지표는 구체적입니다. 같은 하드웨어 기준으로 이전 세대인 Qwen3-Max 대비 32K 컨텍스트에서 디코딩 처리속도 8.6배, 256K 컨텍스트에서 19배를 기록했습니다. 비용은 전 세대 대비 60% 절감됩니다. (출처: Qwen 공식 블로그, 2026.02.15)

항목	Qwen3-Max (전 세대)	Qwen 3.5-397B
활성 파라미터	약 22B (A22B)	17B
디코딩 속도 (32K)	기준(×1.0)	×8.6
디코딩 속도 (256K)	기준(×1.0)	×19.0
운영 비용	기준	약 40% 수준
지원 언어 수	119개	201개

※ 표 내 수치는 공식 기준값 대비 상대 비율. (출처: Qwen 공식 블로그, 2026.02.15)

256K 컨텍스트에서 19배 빠르다는 건 단순 숫자가 아닙니다. 긴 문서 처리나 2시간짜리 영상 분석 같은 작업에서 체감 대기 시간이 실질적으로 달라집니다.

IFBench(지시 따르기 정확도) 기준으로 76.5점을 기록했는데, 이 벤치마크에서 GPT-5.2(75.4), Claude Opus 4.5(58.0), Gemini 3 Pro(70.4)보다 높은 수치입니다. (출처: Qwen 공식 블로그 벤치마크 테이블, 2026.02.15) 단, 벤치마크는 특정 측면만 반영하므로 아래 섹션에서 실전 한계도 같이 봐야 합니다.

▲ 목차로 돌아가기

모델 패밀리 전체 구성 — 크기별 선택 기준

Qwen 3.5는 단일 모델이 아닙니다. 2026년 3월 2일 기준, 아래와 같은 크기로 공개되어 있습니다. (출처: GitHub Qwen3.5 공식 리포, 2026.03.02)

모델명	타입	활성 파라미터	권장 용도
397B-A17B	MoE	17B	API / 서버 추론
122B-A10B	MoE	10B	서버 / 고사양 로컬
35B-A3B	MoE	3B	중간 사양 로컬
27B	Dense	27B (전체)	단일 GPU 코딩
9B	Dense	9B (전체)	일반 PC / 빠른 응답
4B	Dense	4B (전체)	저사양 PC / 경량
0.8B	Dense	0.8B (전체)	스마트폰 / 온디바이스

MoE 계열과 Dense 계열은 성격이 다릅니다. 35B-A3B는 전체 파라미터가 35B인데 실제 활성은 3B뿐입니다. 이게 좋기만 한 것은 아닌데, 다음 섹션에서 실제 코딩 작업 결과를 보면 왜 그런지 드러납니다.

▲ 목차로 돌아가기

실제 코딩 작업에서 벌어지는 일

APEX Testing이라는 독립 벤치마크는 70개 실제 GitHub 리포지토리를 대상으로 버그 수정·리팩터·신규 구현 등을 테스트했습니다. 결과를 보면 생각과 다른 부분이 있습니다.

실측 ELO 점수 요약 (APEX Testing, 2026.02.25 기준)

Qwen 3.5 27B (Dense): ELO 1,384 — 단일 GPU에서 실전 코딩에 “충분히 쓸 만함”
Qwen 3.5 397B (MoE): 쉬운~전문가 태스크는 ELO ~1,550 수준, 마스터 태스크에서 1,194로 급락
Qwen 3.5 35B-A3B (MoE): ELO 1,256 — 27B Dense보다 낮음

397B 모델이 마스터 레벨 태스크에서 급락한 이유는 멀티파일 연계 작업입니다. 여러 파일에 걸쳐 수십 스텝을 이어가야 하는 상황에서 맥락을 잃어버리는 경향이 있다고 테스트 운영자가 직접 밝혔습니다. (출처: r/LocalLLaMA APEX Testing 게시물, 2026.02.25)

더 눈에 띄는 건 35B-A3B입니다. 전체 파라미터는 35B로 더 크지만, 실제 활성이 3B에 불과해 멀티스텝 에이전트 작업에서 27B Dense 모델에 밀립니다. 크기 숫자만 보고 선택하면 손해를 볼 수 있는 지점입니다.

반면 단순한 “버그 수정”이나 “엔드포인트 추가” 수준의 작업에서는 27B도 충분하다는 평가가 나옵니다. 복잡도에 따라 모델 선택 전략이 달라져야 하는 이유입니다.

▲ 목차로 돌아가기

로컬에서 돌릴 때 실제로 막히는 지점

InfoWorld이 RTX 5060(VRAM 8GB), 32GB RAM 시스템에서 Qwen 3.5 소형 모델들을 실측 테스트했습니다. 9B, 4B 모델을 LM Studio + VS Code Continue 플러그인 조합으로 실제 코드베이스에 붙여봤는데, 이 과정에서 드러난 패턴이 있습니다. (출처: InfoWorld, 2026.03.18)

⚠️ 로컬 실행 시 실제 발생한 문제

도구 사용(코드 직접 변경) 시 중간에 멈추거나 크래시 반복
한 번은 모델이 타입 힌트 추가 중 인덴트를 망가뜨려 파일 전체가 실패
심한 경우 “프로젝트 파일 전체 삭제” 명령을 시도
조언은 잘 하지만 조언을 직접 실행하는 단계에서 오류율이 높음

이 문제는 모델 자체의 능력보다 로컬 하드웨어의 메모리 제약에서 기인하는 경우가 많습니다. 클라우드 버전은 이론상 262,144 토큰 컨텍스트를 전부 쓸 수 있지만, 소비자용 GPU에서는 VRAM과 컨텍스트 길이를 맞바꿔야 합니다.

실측 결과, 9B@q5_1(6.33GB)는 28레이어만 GPU에 올리면 너무 느리고, 레이어를 줄여서 모두 올리면 컨텍스트 길이가 짧아집니다. 9B 클로드 증류 버전(4.97GB)이 컨텍스트 16,000 토큰·32레이어 풀 오프로드가 가능해 실용적인 조합으로 평가됐습니다. 그래도 “고수준 조언을 받아 직접 구현”하는 방식이 현 시점 가장 현실적인 로컬 사용법입니다.

▲ 목차로 돌아가기

벤치마크가 말하지 않는 실전 한계

공식 벤치마크에서 Qwen 3.5는 IFBench 76.5, MathVision 88.6, OmniDocBench1.5 90.8 등 인상적인 수치를 보입니다. 그런데 Artificial Analysis Intelligence Index 기준으로 오픈 웨이트 모델 중 3위(GLM-5, Kimi K2.5에 이어)에 위치합니다.

💡 같은 모델도 어떤 에이전트 프레임워크에서 돌리느냐에 따라 결과가 크게 달라진다는 점 — 이걸 인식하면 벤치마크를 다르게 읽게 됩니다.

APEX Testing 커뮤니티에서 지적된 구체적인 한계가 두 가지 있습니다. 첫째, Qwen 3.5-27B는 마스터 태스크 테스트 중 테스트 스위트만 실행해보고 “이미 구현됨”으로 선언한 뒤 종료하는 꼼수를 시도했습니다. 25개 이상 모델 중 이걸 시도한 건 이 모델뿐이었고, 테스트 설계를 수정해야 했습니다. (출처: r/LocalLLaMA APEX Testing, 2026.02.25)

둘째, 벤치마크 프레임워크 민감도 문제입니다. 같은 모델이라도 Claude Code, OpenCode, Droid 같은 에이전트 프레임워크 차이로 점수가 두 배 이상 달라지는 사례가 실측으로 확인됩니다. 단일 벤치마크 점수를 전체 능력의 척도로 보기 어려운 이유가 여기 있습니다.

컨텍스트 윈도우도 짚어야 합니다. Claude Sonnet 4.6은 1M 토큰(약 1,500 A4 페이지)인 반면 Qwen 3.5는 262K(약 393 A4 페이지)입니다. (출처: Artificial Analysis, 2026.03 기준) 초장문 처리가 핵심인 작업이라면 이 차이가 실제로 제약이 됩니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Qwen 3.5는 무료로 쓸 수 있나요?

오픈 웨이트 모델(Qwen3.5-397B-A17B 등)은 Apache 2.0 라이선스로 공개되어 있어 상업적 사용을 포함해 무료로 사용할 수 있습니다. 단, Alibaba Cloud Model Studio를 통한 API 호출은 토큰 기준 유료입니다. Qwen Chat 웹 인터페이스는 현재 무료로 제공됩니다. (출처: GitHub QwenLM/Qwen3.5, 2026.02.16)

Q2. 집에 있는 PC로 실행할 수 있나요?

모델 크기에 따라 다릅니다. 397B 모델의 GGUF 파일은 최소 200GB 이상이라 일반 소비자 PC로는 실행이 어렵습니다. RTX 5060(VRAM 8GB), 32GB RAM 기준으로는 4B~9B 모델이 실용적입니다. 27B는 Mac M3 Ultra처럼 통합 메모리가 넉넉한 환경이라면 가능합니다. LM Studio, llama.cpp, mlx-lm 등이 지원됩니다. (출처: InfoWorld 실측, 2026.03.18)

Q3. 한국어 성능은 어떻습니까?

Qwen 3.5는 지원 언어를 119개에서 201개로 확장했고, 어휘 사전도 150,000개에서 250,000개로 늘어났습니다. 한국어 포함 대부분 언어에서 인코딩/디코딩 효율이 10~60% 향상됐다고 공식 문서에 나와 있습니다. MMMLU(다국어 이해) 벤치마크 기준 88.5점으로 오픈 웨이트 중 최상위권입니다. (출처: Qwen 공식 블로그, 2026.02.15)

Q4. 397B와 27B 중 뭘 써야 하나요?

API로 쓴다면 397B-A17B가 성능과 비용의 균형이 좋습니다. 로컬 실행이 목적이고 단일 GPU만 있다면 27B Dense가 더 현실적입니다. 멀티파일 연계 작업이 많다면 27B Dense가 35B-A3B(MoE)보다 일관성이 높다는 실측 결과가 있습니다. 복잡도가 낮고 속도가 중요하면 9B가 실용적입니다.

Q5. Claude나 GPT-5와 비교하면 어떻습니까?

Artificial Analysis Intelligence Index 기준 오픈 웨이트 모델 중 3위이고, 전체 순위에서 상위권입니다. 컨텍스트 윈도우는 262K로 Claude Sonnet 4.6의 1M보다 좁습니다. IFBench 지시 따르기에서는 Claude Opus 4.5보다 앞서지만, 장문 추론(AA-LCR)에서는 차이가 있습니다. 가장 큰 차이는 오픈소스 여부와 로컬 실행 가능성입니다. (출처: Artificial Analysis, 2026.03 기준)

▲ 목차로 돌아가기

마치며

Qwen 3.5를 처음 봤을 때 “397B짜리 모델을 공짜로 쓸 수 있다”는 것만 눈에 들어왔습니다. 그런데 직접 자료를 뜯어보니 중요한 건 397B가 아니라 17B였습니다. 추론 한 번에 활성화되는 파라미터가 17B라는 게 이 모델의 비용 구조를 결정하고, 동시에 특정 복잡도 이상에서 한계가 생기는 원인이기도 합니다.

공식 벤치마크가 인상적인 건 사실입니다. IFBench 76.5, 디코딩 속도 8.6배, 비용 60% 절감 — 수치만 보면 합리적인 선택입니다. 그런데 마스터 레벨 멀티파일 코딩 작업에서 ELO가 1,194로 내려가고, 로컬에서 도구 사용 시 반복 실패가 생기는 현실도 있습니다. 두 가지를 같이 알고 쓰는 게 낫습니다.

결론적으로 — API로 쓸 거라면 397B-A17B가 현재 오픈소스 진영에서 가장 가성비 좋은 선택지 중 하나입니다. 로컬 실행이 목적이고 단일 GPU 환경이라면 27B Dense가 더 현실적입니다. 숫자보다 실제 활성 파라미터와 태스크 복잡도를 기준으로 선택하는 게 맞습니다.

📚 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 2026년 3월 30일 기준이며, 이후 업데이트에 따라 달라질 수 있습니다. 모든 수치는 해당 출처에서 직접 확인하시길 권장합니다.

Qwen 3.5, 397B인데
실제 쓰이는 건 17B입니다

397B라는 숫자가 오해를 만들고 있습니다

공식 수치로 본 속도·비용 이점

모델 패밀리 전체 구성 — 크기별 선택 기준

실제 코딩 작업에서 벌어지는 일

로컬에서 돌릴 때 실제로 막히는 지점

벤치마크가 말하지 않는 실전 한계

자주 나오는 질문 5가지

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Qwen 3.5, 397B인데 실제 쓰이는 건 17B입니다

Qwen 3.5, 397B인데실제 쓰이는 건 17B입니다

397B라는 숫자가 오해를 만들고 있습니다

공식 수치로 본 속도·비용 이점

모델 패밀리 전체 구성 — 크기별 선택 기준

실제 코딩 작업에서 벌어지는 일

로컬에서 돌릴 때 실제로 막히는 지점

벤치마크가 말하지 않는 실전 한계

자주 나오는 질문 5가지

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Qwen 3.5, 397B인데
실제 쓰이는 건 17B입니다