Qwen 3.5-397B-A17B / Small Series
Apache 2.0 오픈소스
Qwen 3.5, 클수록 좋다는 말이 맞을까요?
결론부터 말씀드리면, 397B 대형 모델의 환각률은 88%입니다. 반면 0.8B 소형 모델은 37%에 머뭅니다. Alibaba 공식 출시 자료와 독립 벤치마크를 나란히 놓고 보니, “큰 모델이 무조건 낫다”는 통념과 정반대 데이터가 쌓였습니다.
Qwen 3.5가 한꺼번에 쏟아진 이유
Alibaba는 2026년 2월 15일 설날 연휴에 맞춰 Qwen 3.5를 공개했습니다. 타이밍이 절묘했습니다. 직전에 OpenAI가 GPT-5.3 Codex를, Anthropic이 Claude Opus 4.6을 출시했고, 중국 AI 시장의 존재감을 보여줄 시점이 필요했습니다. 한 달이 채 안 돼 소형 모델 시리즈(0.8B~9B)까지 추가 공개됐으니, 사실상 전 라인업을 한 달 새에 쏟아낸 셈입니다.
주목할 점은 Qwen 3.5가 이전과 달리 텍스트·이미지·영상을 하나의 모델에서 처리하는 네이티브 멀티모달 구조를 채택했다는 점입니다. 기존 Qwen3 계열은 텍스트 전용 모델(Qwen3)과 비전 모델(Qwen3-VL)이 별도로 존재했는데, 이 둘을 처음부터 함께 학습시켜 하나로 합쳤습니다. (출처: Qwen HuggingFace 공식 모델 카드, 2026.02.15) 어댑터를 붙여 만든 비전 모델과 비교할 때, 문서 이미지 분석·UI 스크린샷 조작 같은 작업에서 실질적인 차이가 납니다.
3월 초 공개된 소형 시리즈는 0.8B~9B 크기로, 스마트폰이나 8GB RAM 노트북에서도 구동됩니다. 단순한 소형 버전이 아니라, 엣지 기기를 겨냥한 별도 설계입니다. 이 두 라인이 묶여 “Qwen 3.5″로 불리지만, 실제 목적과 하드웨어 요구 사항은 크게 다릅니다.
397B인데 활성 파라미터는 17B — 이 숫자가 진짜입니다
Qwen 3.5의 플래그십 모델은 397B-A17B입니다. 숫자 두 개를 동시에 보여주는 이유가 있습니다. 전체 파라미터 수는 397B이지만, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 17B에 불과합니다. 이를 가능하게 하는 구조가 MoE(Mixture of Experts)인데, 512개의 전문가 레이어 중 매 토큰마다 일부만 선택해 계산합니다. (출처: Qwen HuggingFace 공식 모델 카드, 2026.02.15) 연산량이 17B 수준이라는 뜻이니, 추론 속도가 400B급 모델이 아니라 17B 밀집 모델에 가까운 이유가 여기 있습니다.
이 구조 덕분에 추론 속도가 이전 Qwen3-Max 대비 256K 컨텍스트 기준 19배, 일반 워크플로 기준 8.6배 빠릅니다. (출처: VentureBeat, 2026.02.18) 속도가 19배 빨라진다는 건, 같은 서버에서 처리할 수 있는 요청 수가 19배 늘어난다는 뜻이기도 합니다. 비용이 60% 줄고 동시 처리 용량이 8배 늘었다는 Alibaba 발표도 여기서 나옵니다.
💡 공식 발표 수치와 실제 배포 흐름을 같이 보니 이런 차이가 보였습니다
Alibaba는 전체 397B를 강조하지만, 실제 추론 비용과 속도는 활성 17B가 결정합니다. 대형 클라우드 API 요금 비교 시 Qwen3.5-Plus는 Alibaba Cloud 기준 입력 $0.60/1M 토큰, 출력 $3.60/1M 토큰입니다. (출처: Artificial Analysis, 2026.02.17) Gemini 3 Pro 대비 약 1/18 비용이라는 Alibaba 주장은 이 요금 기준에서 나온 수치입니다.
모델 크기만 보고 “무거울 것”이라 짐작했다면 생각보다 가볍습니다. 반대로 “가벼우니 성능이 낮겠지”라고 보면, 그것도 맞지 않습니다. 이 두 생각 사이에서 실제 수치를 확인하는 게 중요합니다.
모델이 커질수록 환각이 줄어든다는 게 틀린 이유
많은 분들이 “파라미터가 많을수록 아는 게 많고 틀릴 가능성도 낮다”고 생각합니다. Qwen 3.5 데이터는 반대 방향을 가리킵니다. AA-Omniscience Hallucination Rate 기준으로, Qwen 3.5 397B 모델의 환각률은 88%입니다. (출처: Artificial Analysis 독립 벤치마크, 2026.02.17) 이 지표는 모델이 모른다고 해야 할 질문에 대해 틀린 답을 자신 있게 내놓는 비율을 측정합니다. 숫자가 88%라는 건, 모르는 걸 물었을 때 10번 중 9번은 “모른다” 대신 “이렇다”고 답한다는 뜻입니다.
반면 소형 모델 Qwen 3.5 0.8B의 환각률은 약 37%입니다. (출처: AA-Omniscience 벤치마크 데이터, Reddit r/LocalLLaMA, 2026.03.19) 2.4배 차이입니다. 이유는 단순합니다. 소형 모델은 학습된 지식이 적어 “이 정도는 모른다”는 신호를 더 자주 낼 수밖에 없습니다. 반면 대형 모델은 광대한 학습 데이터를 바탕으로 무엇에든 그럴듯한 답을 만들어내는 경향이 강해집니다. RAG(검색 기반 증강 생성) 파이프라인에서 이 차이가 결정적으로 드러납니다.
| 모델 | 환각률 (AA-Omniscience) | RAG 충실도 | 로컬 구동 RAM |
|---|---|---|---|
| Qwen 3.5 397B-A17B | 88% | 낮음 | 약 256~512GB |
| Qwen 3.5 9B | ~80% | 중간 | 약 8~16GB |
| Qwen 3.5 0.8B | 37% | 높음 | 약 1~2GB |
| Kimi K2.5 (비교군) | AA-Omniscience -11 | 높음 | 클라우드 전용 |
(출처: Artificial Analysis 독립 벤치마크 2026.02.17 / Reddit r/LocalLLaMA 2026.03.19 / 9B 수치는 실측 추정 포함)
RAG에서 0.8B와 7B를 비교한 실측 실험에서도, 0.8B 모델은 검색된 컨텍스트에서 벗어나는 비율이 12% 수준인 반면, 7B는 그 3배 수준으로 컨텍스트 외 답변을 생성했습니다. (출처: Reddit r/LocalLLaMA, 2026.03.19) 컨텍스트 충실도가 중요한 사내 문서 검색·고객 응대 시스템이라면, 소형 모델이 오히려 더 안정적인 선택일 수 있습니다.
벤치마크 1위 뒤에 숨은 조건들
Qwen 3.5 397B는 독립 벤치마크인 Artificial Analysis Intelligence Index에서 오픈소스 모델 3위를 기록했습니다. 1위 GLM-5(Reasoning, 50점), 2위 Kimi K2.5(Reasoning, 47점), 3위 Qwen3.5-397B(45점) 순입니다. (출처: Artificial Analysis, 2026.02.17) 3위도 충분히 인상적이지만, 1~2위와 비교하면 환각률 격차가 뚜렷합니다. Kimi K2.5의 AA-Omniscience 지수는 -11, GLM-5는 -1인 반면, Qwen 3.5는 -32입니다. 코딩·추론은 앞서가도 ‘모르면 모른다고 말하는 능력’은 뒤처집니다.
에이전트 코딩 벤치마크인 Terminal-Bench 2.0에서는 Qwen 3.5가 52.5점으로, Qwen3-Max(22.5점)보다 2배 이상 높습니다. 하지만 같은 벤치마크에서 GPT-5.3 Codex는 77.3점입니다. (출처: DataCamp Qwen 3.5 분석, 2026.02.16) 에이전트 코딩 한 가지만 놓고 보면 GPT-5.3 Codex와 아직 25점 차이가 납니다. 이 부분이 체감상 가장 크게 느껴질 수 있습니다.
💡 같은 벤치마크라도 무엇을 보느냐에 따라 순위가 달라집니다
문서 인식(OmniDocBench v1.5)에서는 Qwen3.5가 90.8점으로 GPT-5.2(85.7점), Claude Opus 4.5(87.7점), Gemini 3 Pro(88.5점)를 모두 넘습니다. (출처: DataCamp, 2026.02.16) 용도에 따라 실질적인 1위 모델이 달라지는 이유가 여기 있습니다. 에이전트 코딩 = GPT-5.3 Codex, 문서 처리 = Qwen 3.5, 에이전트 검색 = Claude Opus 4.6 — 작업별로 다른 모델이 앞섭니다.
또 하나의 조건: 로컬 배포 시 양자화 없는 전체 weights 구동에는 약 256~512GB RAM이 필요합니다. 일반 작업 서버 한두 대로는 부족합니다. 클라우드 API로 접근하면 이 문제가 사라지지만, 그 경우 Apache 2.0 라이선스의 “내 서버에서 운영”이라는 장점도 함께 사라집니다.
한국어 사용자에게 실제로 유리한 부분
Qwen 3.5에서 한국어 사용자에게 직접적으로 유리한 변화가 두 가지 있습니다. 첫째는 어휘 사전 확장입니다. Qwen 3 계열의 어휘 수는 15만 개였는데, Qwen 3.5에서는 25만 개로 늘었습니다. (출처: VentureBeat, 2026.02.18) 어휘 수가 늘면 한글처럼 음절 조합이 복잡한 언어를 처리할 때 같은 문장을 더 적은 토큰으로 표현할 수 있습니다. 토큰이 줄면 API 비용이 줄고 응답 속도도 빨라집니다.
VentureBeat 분석에 따르면, 이 토크나이저 업그레이드는 아랍어·태국어·한국어·일본어·힌디어 같은 비라틴 문자 언어에서 15~40% 토큰 수 감소 효과를 냅니다. (출처: VentureBeat, 2026.02.18) 한국어로 1만 토큰짜리 문서를 처리한다면, 업그레이드 후 6,000~8,500 토큰으로 처리할 수 있다는 계산이 나옵니다. API를 대량으로 사용하는 팀이라면 비용 차이가 실제로 체감됩니다.
둘째는 지원 언어 확장입니다. Qwen 3에서 119개였던 지원 언어·방언 수가 Qwen 3.5에서는 201개로 늘었습니다. (출처: Qwen HuggingFace 공식 모델 카드, 2026.02.15) 다국어 서비스를 운영하는 경우, 커버리지가 넓어진 만큼 단일 모델로 처리 가능한 언어 범위가 넓어집니다.
다만 한국어 특화 성능이 올라간 것과 한국어 지원 범위가 넓어진 것은 다릅니다. 한국어 미세 조정이 되지 않은 베이스 모델 기준으로, 일상 대화나 문서 요약 정도에서는 충분히 활용 가능하지만, 법률·의료·세무 같은 한국 특화 도메인에서는 여전히 별도 파인튜닝이 필요합니다.
내 환경에서 어느 모델을 선택해야 할까
Qwen 3.5 라인업은 크게 세 갈래로 나눠 볼 수 있습니다. 아래 기준으로 선택하면 충분합니다.
397B-A17B / Qwen3.5-Plus
에이전트 워크플로, 문서 대량 처리, 멀티모달 분석에 적합합니다. 로컬 구동 시 최소 256GB RAM이 필요하고, 환각률이 높아 단독 사실 확인 용도에는 부적합합니다. API로 쓸 경우 Qwen3.5-Plus($0.60/$3.60)가 가장 합리적입니다. (출처: Alibaba Cloud, 2026.02)
35B-A3B / 27B / 122B-A10B
35B-A3B는 활성 파라미터 3B로 고성능 노트북 또는 A100 GPU 1장에서 구동 가능합니다. SWE-bench Verified 69.2점, IFBench 70.2점으로 코딩 에이전트 보조 용도에 적합합니다. 비용과 성능의 균형이 가장 좋은 구간입니다. (출처: Qwen HuggingFace 공식 모델 카드, 2026.02.15)
0.8B / 2B / 4B / 9B
RAG 파이프라인, 문서 충실도 우선 작업에서는 오히려 대형 모델보다 낫습니다. 9B는 8GB RAM에서도 구동되고 256K 컨텍스트를 지원합니다. 0.8B는 환각률 37%로 외부 지식 조회 없이 사실 확인을 맡기기에는 가장 안정적입니다. 스마트폰 온디바이스 배포에는 4B Q4 양자화가 적합합니다. (출처: Qwen HuggingFace 공식 모델 카드, MindStudio 분석)
개인적인 판단을 덧붙이자면, Qwen 3.5의 가장 현실적인 활용처는 사내 문서 기반 RAG나 소형 모델 로컬 배포입니다. 벤치마크 숫자보다 환경 조건이 선택을 결정하는 경우가 대부분입니다.
Q&A — 가장 많이 묻는 것들
마치며
Qwen 3.5에 대한 기사 대부분이 “1조 파라미터 모델을 눌렀다”, “멀티모달 1위”를 강조합니다. 그 뒤에 환각률 88%, 로컬 구동에 최소 256GB RAM이라는 조건이 붙어 있다는 건 잘 다루지 않습니다.
솔직히 말하면, 이 모델을 로컬에서 전체 성능으로 쓸 수 있는 환경은 많지 않습니다. 대신 소형 라인(0.8B~9B)은 조건에 맞게 쓰면 비용 대비 실용적인 선택지입니다. RAG 충실도 측면에서 대형 모델보다 나을 수 있다는 점은, 파라미터 수와 품질을 무조건 연결하던 통념을 다시 생각해보게 합니다.
어떤 모델을 선택할지보다, 어떤 목적에서 선택하느냐가 더 중요합니다. 이 포스팅의 수치들이 그 판단에 도움이 됐으면 합니다.
📚 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 2월~3월 공개 자료를 기준으로 하며, 이후 업데이트로 내용이 달라질 수 있습니다. 벤치마크 수치는 Alibaba 공식 자료 및 Artificial Analysis 독립 평가 기준이며, 실제 사용 환경에 따라 성능 차이가 발생할 수 있습니다.


댓글 남기기