2026.02.16 출시 기준
Qwen3.5-397B-A17B 기준
Apache 2.0 오픈소스

Qwen 3.5, 이 경우에만 Claude 대신 써도 됩니다

알리바바가 2026년 2월 16일 공개한 Qwen 3.5는 GPT-5.2, Claude Opus 4.6과 동급 벤치마크를 내면서 API 비용은 13분의 1입니다. 단, 모든 상황에서 교체해도 된다는 건 아닙니다. 어떤 조건에서 쓰고, 어떤 조건에서는 절대 쓰면 안 되는지, 공식 수치로 직접 확인했습니다.

397B / 17B

총 파라미터 / 실제 활성 파라미터

201개

지원 언어·방언 수

$0.10

Flash API 입력 1M 토큰당 (USD)

Qwen 3.5가 뭔지, 한 줄로 정리하면

Qwen 3.5는 알리바바 클라우드의 Qwen 팀이 2026년 2월 16일 공개한 네이티브 멀티모달 AI 모델 패밀리입니다. 플래그십 모델인 Qwen3.5-397B-A17B는 총 3,970억 개의 파라미터를 갖추고 있지만, 토큰을 처리할 때 실제로 활성화되는 파라미터는 170억 개뿐입니다. (출처: Alibaba Qwen 공식 블로그, 2026.02.15)

단일 모델이 아니라 출시 시기가 다른 세 묶음으로 구성됩니다. 2월 16일에 플래그십(397B-A17B), 2월 24일에 미디엄 시리즈(27B·35B-A3B·122B-A10B), 3월 2일에 소형 시리즈(0.8B·2B·4B·9B)가 순차적으로 나왔습니다. 모든 모델은 아파치 2.0 라이선스로 상업적으로 자유롭게 쓸 수 있습니다. (출처: digitalapplied.com, 2026.02.25)

Qwen 3 때까지는 텍스트 전용 모델과 시각 모델(Qwen3-VL)을 따로 출시했는데, Qwen 3.5에서는 하나로 합쳤습니다. 텍스트, 이미지, 영상을 한 모델에서 다 처리합니다. 지원 언어도 119개에서 201개로 늘었습니다.

▲ 목차로 돌아가기

9B가 120B를 이겼습니다 — 숫자로 확인한 성능

모델 크기로 성능을 가늠하는 공식이 깨졌습니다

Qwen 3.5 시리즈에서 가장 눈에 띄는 수치는 소형 시리즈에서 나옵니다. 9B짜리 모델이 OpenAI의 gpt-oss-120B를 여러 벤치마크에서 이겼습니다. 모델 크기가 13배 차이나는데 역전이 일어났습니다.

벤치마크	Qwen3.5-9B	GPT-OSS-120B	비고
GPQA Diamond	81.7	71.5	대학원 수준 과학 추론
HMMT Feb 2025	83.2	76.7	하버드·MIT 수학 토너먼트
MMMU-Pro	70.1	59.7	멀티모달 전문 추론

(출처: techie007.substack.com “Qwen 3.5: The Complete Guide”, 2026.03.03 / Alibaba Qwen 공식 벤치마크, 2026.02.15)

💡 공식 발표 수치와 독립 검증 수치를 같이 놓고 보면 이런 차이가 보였습니다. 플래그십 성능이 좋은 건 알려진 사실인데, 소형 시리즈의 역전 수치는 공식 블로그에 조용히 묻혀 있었습니다. 9B 모델을 8GB VRAM 노트북에서 돌릴 수 있다는 뜻입니다. 클라우드 없이 로컬에서 120B급 성능을 냅니다.

미디엄 시리즈 35B-A3B 모델은 전 세대 플래그십인 Qwen3-235B-A22B(2,350억 파라미터)보다 대부분의 벤치마크에서 더 높은 점수를 냅니다. (출처: Alibaba Qwen 공식 블로그, 2026.02.15) 파라미터 수로는 6분의 1인데 성능이 역전됩니다.

▲ 목차로 돌아가기

Claude보다 13배 저렴한데, 어떤 구조 덕분인지

MoE 구조가 비용을 어떻게 바꾸는지 계산해봤습니다

Qwen 3.5 Flash API는 입력 1M 토큰당 $0.10입니다. Claude Sonnet 4.6은 $1.30입니다. 단순 비교로도 13배 차이가 납니다. (출처: digitalapplied.com Pricing Analysis, 2026.02.25)

이 가격이 가능한 이유는 MoE(Mixture-of-Experts) 구조 때문입니다. Qwen3.5-35B-A3B를 예로 들면, 총 350억 파라미터 중 토큰당 실제로 활성화되는 건 30억 개뿐입니다. 전체의 8.6%만 씁니다. 나머지 91.4%는 해당 토큰 처리 시 잠들어 있습니다.

처리량 차이 — 공식 수치로 직접 확인한 결과

Qwen 공식 블로그에 따르면 32K 컨텍스트 기준으로 Qwen3.5-397B-A17B의 디코딩 처리량은 Qwen3-Max 대비 8.6배입니다. 256K 컨텍스트에서는 19.0배까지 벌어집니다. (출처: Alibaba Qwen 공식 블로그 “Pretraining” 섹션, 2026.02.15) 컨텍스트가 길어질수록 속도 격차가 커진다는 뜻입니다.

구체적으로 계산하면 이렇습니다. RAG 파이프라인에서 하루 100만 토큰을 처리한다고 가정합니다.

월간 비용 비교 (입력 기준, 하루 1M 토큰 × 30일 = 30M 토큰)

• Qwen3.5-Flash: $0.10 × 30 = $3.00

• Claude Sonnet 4.6: $1.30 × 30 = $39.00

월 $36 차이 → 연간 $432 절감 (동급 아닌 유사 성능 기준)

※ 출력 토큰은 별도 과금. 위 계산은 입력 토큰 기준이며 작업 유형에 따라 실제 비용은 달라집니다. 추정치로 표기합니다.

▲ 목차로 돌아가기

벤치마크에서 이기는 것과 실제로 믿을 수 있는 것은 다릅니다

환각률 88% — 이 숫자가 의미하는 것

Artificial Analysis가 독립적으로 측정한 Qwen3.5-397B-A17B의 환각률은 88%입니다. 이전 모델 Qwen3-235B는 90%였으니 2포인트 나아졌습니다. 하지만 같은 오픈소스 진영에서 GLM-5는 -1, Kimi K2.5는 -11로 훨씬 낮습니다. (출처: artificialanalysis.ai, 2026.02.17)

여기서 Artificial Analysis가 쓰는 환각률의 정의가 중요합니다. 이 지표는 “모르는 질문에 답하지 말아야 할 때 답한 비율”을 측정합니다. 88%라는 건, 모델이 답을 모를 때 10번 중 8~9번은 “모른다”고 하지 않고 뭔가 만들어낸다는 뜻입니다. 정확도(accuracy)는 22%에서 30%로 올랐지만, 과신(overconfidence) 문제는 그대로입니다.

⚠️ 팩트 체크가 필요한 작업에서 Qwen 3.5를 단독으로 쓰면 위험합니다.

법률 문서 검토, 의료 정보 요약, 재무 수치 확인처럼 “틀리면 문제가 되는” 영역에서는 출력 결과를 반드시 별도로 검증해야 합니다. 이 부분은 공식 문서가 별도 이유를 밝히지 않았습니다.

반면 코딩 성능은 다릅니다. SWE-bench Verified에서 Qwen3.5-27B는 72.4점으로, 같은 벤치마크에서 Claude Sonnet 4.5(62.0)와 GPT-5 mini(72.0)와 동급이거나 앞섭니다. (출처: digitalapplied.com, 2026.02.25) 코드는 실행해서 맞고 틀림을 검증할 수 있기 때문에 환각 위험이 상대적으로 낮은 작업군입니다.

▲ 목차로 돌아가기

검열과 오픈소스 사이 — 공개 안 된 조건

Apache 2.0인데 왜 특정 주제를 묻지 말라고 할까요

💡 오픈소스 라이선스와 모델 동작 방식은 별개입니다. 가중치를 공개해도 사전 학습 단계에서 심어진 제약까지 없어지지 않습니다. 이 부분은 기존 리뷰 대부분이 가격과 벤치마크에 집중하면서 짚지 않고 넘어간 지점입니다.

2026년 3월 5일, AI 연구자 테오르타세스(teortaxesTex)는 X(트위터)에 “Qwen 3.5가 유례없는 정렬·검열 수준을 보여주고 있다”고 지적했습니다. (출처: x.com/teortaxesTex, 2026.03.05) 같은 달 9일에는 Alignment Forum에 중국 LLM의 검열 패턴을 분석한 논문이 올라왔는데, Qwen·DeepSeek·MiniMax 모두 검열이 관찰됐습니다. (출처: alignmentforum.org, 2026.03.09)

검열 범위가 구체적으로 어디까지인지는 아직 공개되지 않았습니다. Alibaba가 공식 답변을 내놓지 않은 부분입니다. 오픈소스 가중치를 받아 직접 배포하면 파인튜닝으로 일부 완화할 수 있지만, Alibaba Cloud API를 통해 쓰는 경우에는 적용 범위를 사용자가 제어할 수 없습니다.

민감한 주제를 다루는 저널리즘 도구, 정치 분석 플랫폼, 사회·역사 교육 서비스처럼 제약 없는 응답이 핵심인 사용처에서는 이 지점을 먼저 확인해야 합니다. 가중치를 직접 받아 파인튜닝하거나, 오픈소스 기반 비검열 버전을 확인하는 방법이 현실적인 대안입니다.

▲ 목차로 돌아가기

이 경우에만 Claude 대신 써도 됩니다

Qwen 3.5를 선택해야 하는 4가지 조건

공식 수치와 독립 벤치마크를 교차해서 보면 Qwen 3.5가 유리한 상황이 뚜렷하게 보입니다.

조건 1

로컬 배포가 필요한 경우

데이터를 외부 API에 보낼 수 없는 환경에서 Qwen3.5-9B는 8GB VRAM으로 실행됩니다. GPQA Diamond 81.7점이 나오는 모델을 노트북에서 돌릴 수 있습니다. Claude Opus 4.6, GPT-5.2는 자체 배포 옵션 자체가 없습니다.

조건 2

대용량 API 호출로 비용이 폭증하는 경우

월간 토큰 처리량이 수천만 단위 이상이면 Qwen3.5-Flash($0.10/M)와 Claude Sonnet 4.6($1.30/M)의 격차가 실질적인 예산 문제로 바뀝니다. 코딩 에이전트, RAG 파이프라인처럼 토큰 소모량이 많은 작업에 특히 유효합니다.

조건 3

지시 따르기(Instruction Following)가 핵심인 경우

IFBench에서 Qwen3.5-397B는 76.5점으로 GPT-5.2(75.4)를 앞서고, Claude Opus 4.6(58.0)을 크게 넘어섭니다. (출처: Qwen 공식 블로그, 2026.02.15) 복잡한 시스템 프롬프트, 다단계 지시, 형식 제어가 필요한 작업에서 실용적인 이점이 있습니다.

조건 4

비전·문서 이해가 중심인 멀티모달 작업

MathVision에서 88.6점으로 GPT-5.2(83.0)와 Gemini 3 Pro(86.6)를 앞섭니다. OmniDocBench 1.5에서도 90.8점으로 최상위입니다. (출처: Qwen 공식 블로그 벤치마크 테이블, 2026.02.15) 수학 공식이 든 이미지, 차트, 문서 PDF 처리에서 오픈웨이트 모델 중 가장 강합니다.

반대로 Claude나 GPT를 유지해야 하는 조건

복잡한 멀티스텝 에이전트 작업에서는 Claude Opus 4.6이 TAU2-Bench 91.6점으로 Qwen 3.5(86.7)를 앞섭니다. BrowseComp 에이전트 웹 브라우징도 Claude(84.0)가 Qwen 3.5(69.0~78.6)보다 안정적입니다. (출처: techie007.substack.com, 2026.03.03) 장시간 자율 에이전트 루프를 돌리는 프로덕션 환경에서는 아직 Claude가 더 신뢰할 수 있습니다.

수학 올림피아드 수준의 고난도 수학(AIME 2026: GPT-5.2 96.7, Claude 93.3, Qwen 3.5 91.3)과 경쟁 프로그래밍(CodeForces: GPT-5 mini 2160, Claude Sonnet 4.5 2157, Qwen3.5-27B 1899)에서도 서방 모델들이 아직 앞섭니다. 소수의 극단적 고난도 문제에서 차이가 납니다.

▲ 목차로 돌아가기

Q&A

Q1. Qwen 3.5를 한국어 작업에 써도 되나요?

NOVA-63 다국어 벤치마크에서 Qwen3.5-397B는 59.1점으로 GPT-5.2(54.6), Claude Opus 4.6(56.7)을 앞섭니다. (출처: Qwen 공식 블로그, 2026.02.15) 지원 언어가 201개로 확장됐고 한국어도 포함됩니다. 다만 한국어 특화 모델과의 세밀한 성능 비교 자료는 현재 공개된 게 없습니다. 일반 대화와 번역 수준에서는 충분히 쓸 만하고, 법률·의료처럼 한국 맥락에 민감한 작업은 별도 검증이 필요합니다.

Q2. 로컬에서 실행하려면 어떤 하드웨어가 필요한가요?

모델별 최소 VRAM 기준입니다.

Qwen3.5-0.8B / 2B: 2~4GB — 어떤 최신 노트북이든 실행 가능
Qwen3.5-4B: 6GB — 일반 게이밍 노트북 수준
Qwen3.5-9B: 8GB — RTX 3070 이상, M2 이상
Qwen3.5-27B (Q4): 약 20GB — RTX A6000, M3 Max 이상
Qwen3.5-397B-A17B (Q4): 약 214GB — M3 Ultra 256GB 또는 멀티 GPU 필요

(출처: techie007.substack.com, 2026.03.03)

Q3. Qwen3.5-Flash와 Qwen3.5-Plus의 차이는 무엇인가요?

Flash는 35B-A3B 오픈웨이트 모델 기반의 호스팅 버전으로 입력 $0.10/M, 출력 $0.40/M입니다. Plus는 플래그십 397B-A17B 모델 기반으로 입력 $1.20/M이며 1M 토큰 컨텍스트 윈도우와 네이티브 툴 사용이 기본으로 포함됩니다. 비용 우선이면 Flash, 성능과 긴 컨텍스트가 필요하면 Plus를 선택합니다. (출처: digitalapplied.com, 2026.02.25)

Q4. 상업적으로 자유롭게 쓸 수 있나요?

모든 Qwen 3.5 오픈웨이트 모델은 Apache 2.0 라이선스입니다. 파인튜닝, 재배포, 상업적 사용이 모두 가능합니다. 단, Alibaba Cloud API를 통해 쓰는 경우는 서비스 이용약관이 별도로 적용됩니다. 자체 배포 시에는 검열 설정을 파인튜닝으로 조정할 수 있지만, 이를 둘러싼 윤리적 논의는 현재 진행 중입니다.

Q5. Thinking 모드와 Fast 모드는 언제 각각 써야 하나요?

Thinking 모드는 추론 토큰을 추가로 소모하며 수학·과학·코딩처럼 단계적 사고가 필요한 작업에 씁니다. Fast 모드는 추론 없이 즉시 답하므로 대화 응답, 번역, 요약처럼 속도가 중요한 작업에 적합합니다. Auto 모드는 쿼리 복잡도에 따라 모델이 직접 선택합니다. API 비용은 Thinking 모드에서 출력 토큰이 더 많이 발생하므로 단순 쿼리에는 Fast를 우선 권장합니다. (출처: Alibaba Qwen 공식 블로그 “Play with Qwen3.5” 섹션, 2026.02.15)

▲ 목차로 돌아가기

마치며

Qwen 3.5를 두 달 가까이 지켜보면서, 이 모델이 만들어낸 진짜 변화는 성능 순위가 아니라 ‘어디서 AI를 실행하는가’의 문제를 바꿔놨다는 점이라고 봅니다. 9B짜리 모델을 8GB 노트북에서 돌리면서 120B 모델과 비슷한 결과를 얻을 수 있다면, 클라우드 API 의존도를 줄이는 선택이 현실이 됩니다.

하지만 솔직히 말하면, 아직 모든 걸 Claude에서 Qwen으로 옮길 수 있는 상황은 아닙니다. 환각률 88%는 숫자로 보면 작아 보여도 실제 프로덕션에서는 중대한 문제입니다. 복잡한 자율 에이전트 루프나 팩트 의존도가 높은 작업에서는 아직 검증된 선택지가 필요합니다.

결론적으로 Qwen 3.5는 “Claude 대신”이 아니라 “Claude와 같이 쓰는 도구”로 접근하는 게 지금 시점에선 현실적입니다. 비용이 민감한 파이프라인에 Flash를 붙이고, 팩트 검증이 필요한 최종 출력은 Claude에게 맡기는 식입니다. 오픈소스 진영이 이 속도로 따라붙고 있다면, 내년 이맘때 다시 판단해도 늦지 않습니다.

본 포스팅 참고 자료

Alibaba Qwen Team, “Qwen3.5: Towards Native Multimodal Agents” — https://qwen.ai/blog?id=qwen3.5 (2026.02.15)
Artificial Analysis, “Qwen3.5-397B-A17B — Everything you need to know” — https://artificialanalysis.ai/articles/qwen3-5-397b-a17b-everything-you-need-to-know (2026.02.17)
Digital Applied, “Qwen 3.5 Medium Models: Benchmarks, Pricing, and Guide” — https://www.digitalapplied.com/blog/qwen-3-5-medium-model-series-benchmarks-pricing-guide (2026.02.25)
Techie007, “Qwen 3.5: The Complete Guide — Benchmarks, Local Setup” — https://techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks (2026.03.03)
Alignment Forum, “Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation” — https://www.alignmentforum.org/posts/… (2026.03.09)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 벤치마크 수치는 2026년 3월 기준이며, AI 모델 업데이트로 실제 성능이 달라질 수 있습니다. 가격 정보는 Alibaba Cloud 공식 정책 변경 시 달라질 수 있으므로 최신 정보는 공식 채널에서 확인하세요.

Qwen 3.5, 이 경우에만 Claude 대신 써도 됩니다

Qwen 3.5가 뭔지, 한 줄로 정리하면