2026.03.18 기준
LMArena 1464점
397B 파라미터

Qwen3.5-Max, 4가지 수치로 직접 따져봤습니다

알리바바가 2026년 3월 18일 LM Arena에 배포한 Qwen3.5-Max-Preview. 중국 AI 1위, 글로벌 5위라는 타이틀이 붙었습니다. 근데 숫자를 하나씩 들여다보면 이야기가 좀 달라집니다. 벤치마크 점수와 실제 작동 사이에 생각보다 큰 틈이 있습니다.

LMArena 1464점, 이게 얼마나 의미 있는 숫자인가

결론부터 말씀드리면, 상당히 의미 있습니다. LM Arena는 LMSYS라는 독립 연구 기관이 운영하는 플랫폼으로, 어떤 모델이 어떤 답변을 했는지 모르는 상태에서 개발자들이 직접 투표합니다. (출처: Alibaba Cloud 공식 블로그, 2026.03.25) 회사가 조작할 수 있는 여지가 거의 없다는 점에서 현존하는 벤치마크 중 신뢰도가 높은 편입니다.

2026년 3월 20일 기준, 총 330개 모델이 참여한 Text Arena Overall 랭킹에서 Qwen3.5-Max-Preview는 1464점(±9)으로 글로벌 14위를 기록했습니다. 중국 기업 중에선 1위고, 1위인 Anthropic의 Claude Opus 4.6 Thinking(1502점)과는 38점 차이입니다.

💡 공식 발표문과 실제 투표 흐름을 같이 놓고 보니 이런 차이가 보였습니다

4,252표라는 상대적으로 적은 투표수로 14위를 기록했다는 점이 흥미롭습니다. Claude Opus 4.6(12,546표)의 1/3도 안 되는 투표수로 비슷한 점수권에 진입한 겁니다. 프리뷰 버전임을 감안하면, 정식 출시 후 투표수가 쌓일수록 점수가 수렴할 가능성이 있습니다. 올라갈 수도, 내려갈 수도 있습니다.

순위	모델	회사	점수	투표수
1	Claude Opus 4.6 Thinking	Anthropic	1502	11,801
5	Gemini 3 Pro	Google	1486	41,762
13	Claude Sonnet 4.6	Anthropic	1465	9,843
14	Qwen3.5-Max-Preview	알리바바	1464	4,252
18	Dola Seed 2.0 Preview	ByteDance	1462	10,651

출처: LMArena Text Arena Overall, 2026.03.20 기준

▲ 목차로 돌아가기

397B인데 17B만 켜진다는 게 무슨 뜻인가

이 부분이 Qwen3.5의 핵심 구조입니다. 총 파라미터는 397B지만, 실제로 한 번의 추론 과정에서 활성화되는 건 17B에 불과합니다. (출처: Qwen 공식 블로그, 2026.02.15) Mixture-of-Experts(MoE) 아키텍처 덕분인데, 쉽게 말하면 전문가 집단 중에서 해당 작업에 맞는 소수만 호출하는 방식입니다.

실제 속도 수치가 있습니다. 공식 문서에 딱 이렇게 나옵니다. 256k 토큰 컨텍스트 기준으로 Qwen3-Max 대비 19배 빠른 디코딩 처리량을 달성했습니다. 일반 32k 컨텍스트 기준으로는 8.6배입니다. 이게 의미하는 건 단순한 성능 향상이 아닙니다. 속도가 빨라지면 API 호출당 비용이 줄어드는 구조로 직결됩니다.

💡 파라미터 숫자만 보면 놓치는 부분이 있습니다

MoE 모델에서 “활성 파라미터 17B”는 실제 추론 비용을 결정합니다. GPT 계열의 밀집(dense) 모델 70B와 단순 비교하면 Qwen3.5가 훨씬 가볍습니다. FP8 파이프라인 적용으로 메모리도 약 50% 절감됩니다. (출처: Qwen 공식 블로그, 2026.02.15)

단, MoE 구조는 장점만 있는 게 아닙니다. 실제 코딩 벤치마크에서 MoE 소형(35B-A3B, 활성 3B) 모델은 동급 dense 27B 모델보다 성능이 낮게 나왔습니다. (출처: APEX Testing 독립 벤치마크, 2026.02.25) 활성 파라미터가 너무 적으면 멀티스텝 추론에서 맥락 유지를 못 하는 현상이 실측됩니다.

▲ 목차로 돌아가기

문서 인식에서 GPT·Claude를 앞선 벤치마크 수치

생각보다 인상적인 영역이 있습니다. 문서 인식 벤치마크인 OmniDocBench v1.5에서 Qwen3.5는 90.8점을 기록했습니다. (출처: Qwen 공식 블로그, 2026.02.15) GPT-5.2가 85.7점, Claude Opus 4.5가 87.7점, Gemini 3 Pro가 88.5점이니 이 벤치마크에선 최상위권입니다. 실제로 PDF나 차트가 많은 작업에서 강점이 체감될 수 있다는 수치입니다.

BrowseComp(웹 검색 에이전트 벤치마크)에서도 눈에 띄는 결과가 있습니다. 단순 컨텍스트 폴딩 전략으로 69.0점, 특정 폐기 전략을 적용하면 78.6점입니다. Gemini 3 Pro는 59.2점입니다. 무려 19.4점 차이입니다. 문서 찾기와 웹 검색 조합 작업에선 현재 시점 글로벌 최상위권 수준입니다.

벤치마크	Qwen3.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro
OmniDocBench v1.5	90.8	85.7	87.7	88.5
BrowseComp	78.6	65.8	67.8 (Opus 4.6)	59.2
Arena-Hard v2	86.1	—	—	—

출처: Qwen 공식 블로그 (qwen.ai/blog), 2026.02.15 기준

Arena-Hard v2에서 86.1점은 솔직히 놀랍습니다. 2위인 Kimi K2보다 20점, 3위 DeepSeek보다 24.6점 높습니다. 중국 내 경쟁 모델과의 격차가 상당합니다.

▲ 목차로 돌아가기

에이전트 코딩, master급에서 ELO가 반 토막 난 이유

벤치마크 점수가 좋다고 실제 코딩 업무에서도 그럴 거라고 생각하면 막상 해보면 다릅니다. 독립 연구자가 70개 실제 GitHub 저장소를 대상으로 진행한 APEX Testing 결과를 보면 이야기가 달라집니다. (출처: APEX Testing, apex-testing.org, 2026.02.25)

Hard·Expert 난이도에서 Qwen3.5 397B는 ELO 약 1550 수준을 유지합니다. 그런데 master급(여러 파일에 걸쳐 수십 단계를 조율해야 하는 작업)에서 ELO가 1194로 떨어집니다. 이 수치가 어느 수준인지 감이 오시나요? 같은 테스트에서 GPT-5.3 Codex는 Easy부터 Master까지 거의 일관된 점수를 유지했습니다. Qwen3.5의 경우 파일 수가 늘어나고 작업 단계가 길어질수록 맥락 추적에서 무너지는 패턴이 실측됩니다.

⚠️ 주의해야 할 상황

대규모 코드베이스 리팩토링, 여러 모듈에 걸친 버그 추적, 복잡한 의존성 수정 같은 작업에선 Qwen3.5 397B가 중간에 맥락을 잃고 이미 완료된 작업을 반복하거나 아무것도 구현하지 않고 “완료됐다”고 선언하는 사례가 실측됐습니다. (출처: APEX Testing 독립 벤치마크, 2026.02.25)

반면 Terminal-Bench 2.0 공식 벤치마크에서는 52.5점으로 Gemini 3 Pro(54.2점)에 거의 근접합니다. 공식 벤치마크와 실제 사용 환경 사이에 생각보다 큰 간극이 있다는 얘기입니다. 이유는 아직 공개되지 않았습니다만, 벤치마크 환경과 실제 복잡한 저장소 구조의 차이일 가능성이 높습니다.

💡 공식 벤치마크와 독립 테스트 결과를 나란히 놓으니 이런 차이가 보였습니다

공식 벤치마크는 통제된 환경에서 단일 작업을 측정합니다. 실제 업무에서 에이전트는 수십 개 파일을 탐색하면서 상태를 유지해야 합니다. Qwen3.5가 단순 작업엔 탁월하지만 복잡성이 누적될수록 성능이 빠르게 하락하는 패턴은, MoE 구조에서 활성 파라미터가 제한되는 것과 연관이 있을 수 있습니다.

▲ 목차로 돌아가기

API 가격 — DashScope vs DeepInfra, 실제 얼마나 다른가

Qwen3.5 계열은 오픈소스(Apache 2.0)이기 때문에 공식 알리바바 API만 쓸 필요가 없습니다. 써보니까 이 부분이 꽤 중요합니다. 어디서 호출하느냐에 따라 토큰당 비용이 크게 달라집니다.

알리바바 DashScope를 통해 Qwen3.5-Plus(397B 기반 호스팅 모델)를 쓰면 입력 토큰 100만 개당 약 $0.26, 출력 100만 개당 약 $1.56입니다. (출처: nolist.ai Alibaba Qwen3.5 Plus 분석, 2026.02.15) 반면 DeepInfra에서 구버전 Qwen2.5-72B를 쓰면 입력 100만 개당 $0.23으로 성능 대비 훨씬 저렴합니다. 이미 그 수준에서도 GPT-4o의 1/10 가격입니다.

모델	제공처	입력(100만 토큰)	출력(100만 토큰)	특이사항
Qwen3.5-Plus	DashScope	$0.26	$1.56	1M 컨텍스트, 공식 도구 포함
Qwen3.5-35B-A3B	DashScope	$0.1625	$1.30	성능 지수 37.1 vs 50 (Plus 대비 낮음)
Qwen2.5-72B	DeepInfra	$0.23	$0.23	캐시 지원, GPT-4o의 1/10 수준
GPT-4o (참고)	OpenAI	$2.50	$10.00	비교 기준

출처: nolist.ai Qwen3.5 Plus 분석(2026.02.15), DeepInfra Qwen 가격 가이드(2026.02.02)

단, 한 가지 놓치면 안 되는 부분이 있습니다. DashScope의 Singapore 엔드포인트와 US Virginia 엔드포인트를 구분해서 써야 합니다. 국내에서 접근 시 지역에 따라 응답 속도 차이가 있습니다. 또한 엔터프라이즈 환경에서 SOC 2나 HIPAA 규정 준수가 필요한 경우, 알리바바 클라우드는 현재 해당 인증을 공식 목록에 명시하지 않고 있습니다.

▲ 목차로 돌아가기

지금 바로 무료로 써볼 수 있는 방법

Qwen3.5-Max-Preview는 현재 세 가지 경로로 접근할 수 있습니다. 첫 번째는 arena.ai입니다. 가입 없이 바로 Qwen3.5-Max-Preview와 대화할 수 있고, 블라인드 비교 테스트도 가능합니다. 다른 모델과 맹목 비교를 해보고 싶다면 가장 빠른 방법입니다.

두 번째는 chat.qwen.ai입니다. 알리바바 공식 채팅 인터페이스로, Thinking·Fast·Auto 세 가지 모드를 선택할 수 있습니다. Auto 모드에서는 웹 검색과 코드 인터프리터를 함께 쓸 수 있습니다. 단, 무료 사용 한도가 있고 한도 초과 시 유료 전환이 필요합니다.

세 번째는 오픈소스 로컬 실행입니다. Apache 2.0 라이선스로 Hugging Face와 ModelScope에 가중치가 공개되어 있습니다. Ollama, LM Studio, vLLM을 사용하면 로컬 배포가 가능합니다. 다만 397B 전체를 돌리려면 수백GB 메모리가 필요합니다. 일반적인 소비자용 GPU로는 27B나 35B 소형 모델부터 시작하는 게 현실적입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Qwen3.5-Max-Preview는 정식 출시 모델인가요?

아직 프리뷰 버전입니다. 알리바바는 2026년 3월 18일 LM Arena에 배포했고, 공식 발표문에서 “약 2주 내 정식 출시” 예정이라고 밝혔습니다. 현재(2026.04.02 기준) 정식 출시가 이루어졌을 가능성이 있으나, API 공식 제공 여부는 알리바바 공식 채널에서 별도 확인이 필요합니다.

Qwen3.5-Plus와 Qwen3.5-Max-Preview는 다른 모델인가요?

Qwen3.5-Plus는 397B 기반의 호스팅 API 서비스 명칭이고, Qwen3.5-Max-Preview는 LM Arena에 배포된 차세대 플래그십 프리뷰 모델입니다. 정확히 같은 모델인지 여부는 알리바바 공식 문서에서 명확하게 구분하지 않고 있습니다. 공개된 벤치마크 수치는 Max-Preview가 높습니다.

한국어 성능은 어떤가요?

Qwen3.5는 201개 언어를 지원한다고 명시되어 있습니다. (출처: Qwen 공식 블로그, 2026.02.15) 다국어 벤치마크인 MMMLU에서 88.5점을 기록했습니다. 단, 한국어 단독 실측 데이터는 공식 문서에 별도로 공개된 게 없습니다. 직접 테스트해 보는 게 가장 정확합니다.

CoC, SOC 2 같은 규정 준수가 필요한 기업 환경에서 써도 되나요?

주의가 필요합니다. 알리바바 클라우드 Model Studio의 규정 준수 인증 목록에는 SOC 2나 HIPAA가 현재 명시되어 있지 않습니다. 규정 준수가 필수인 환경이라면 법무·IT 보안팀과 서비스 계약 조건을 먼저 확인해야 합니다.

Claude Code나 Cline 같은 도구에서 Qwen3.5-Plus를 쓸 수 있나요?

가능합니다. 알리바바 공식 문서에 따르면 DashScope API는 OpenAI 호환 엔드포인트를 제공합니다. Claude Code, Cline, OpenClaw, OpenCode 등에서 BaseURL을 DashScope 엔드포인트로 지정하면 연동됩니다. (출처: Qwen 공식 블로그, 2026.02.15) 단, 각 도구별 설정 방식이 다르므로 공식 문서 확인이 필요합니다.

▲ 목차로 돌아가기

마치며 — 4가지 수치가 말해주는 것

Qwen3.5-Max-Preview는 분명히 인상적인 모델입니다. LMArena 1464점, Arena-Hard v2 86.1점, OmniDocBench 90.8점. 이 숫자들은 그냥 나온 게 아닙니다. 특히 문서 인식과 웹 검색 에이전트 성능은 현시점 글로벌 상위권에 해당합니다.

그런데 master급 코딩 작업에서 ELO 1194로 추락하는 패턴은 생각해볼 필요가 있습니다. 단순하고 명확한 작업에서는 탁월하고, 복잡성이 누적되는 작업에서는 한계가 있습니다. 어떤 작업에 쓰냐에 따라 체감이 완전히 달라집니다.

비용 면에서 오픈소스 가중치 덕분에 선택지가 다양한 것은 장점입니다. 그리고 아직 프리뷰라는 점도 기억할 필요가 있습니다. 정식 출시 후 점수가 어떻게 수렴하는지 지켜볼 필요가 있습니다. 지금 당장 arena.ai에서 무료로 직접 확인해보는 게 가장 정직한 방법입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Qwen 공식 블로그 — Qwen3.5: Towards Native Multimodal Agents (qwen.ai/blog?id=qwen3.5)
Qwen 공식 블로그 — Qwen3.5-Max-Preview Now Available on Arena (qwen.ai/blog?id=qwen3.5-max-preview)
Alibaba Cloud 공식 블로그 — Qwen3.5-Max-Preview Unveiled! (alibabacloud.com)
DataCamp — Qwen3.5: Features, Access, and Benchmarks (datacamp.com/blog/qwen3-5)
APEX Testing 독립 벤치마크 — Qwen 3.5 craters on hard coding tasks (reddit.com/r/LocalLLaMA)
nolist.ai — Alibaba Qwen3.5 Plus 분석 (nolist.ai)

본 포스팅은 2026.04.02 기준으로 작성되었습니다. Qwen3.5-Max-Preview는 현재 프리뷰 단계이며, 정식 출시 이후 성능·가격·API 제공 방식 등이 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 실제 사용 전 공식 문서를 반드시 확인하시기 바랍니다. 인용된 수치는 각 출처 기재 시점 기준입니다.

Qwen3.5-Max, 4가지 수치로 직접 따져봤습니다

LMArena 1464점, 이게 얼마나 의미 있는 숫자인가

397B인데 17B만 켜진다는 게 무슨 뜻인가

문서 인식에서 GPT·Claude를 앞선 벤치마크 수치

에이전트 코딩, master급에서 ELO가 반 토막 난 이유

API 가격 — DashScope vs DeepInfra, 실제 얼마나 다른가

지금 바로 무료로 써볼 수 있는 방법

자주 묻는 것들

마치며 — 4가지 수치가 말해주는 것

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Qwen3.5-Max, 4가지 수치로 직접 따져봤습니다

LMArena 1464점, 이게 얼마나 의미 있는 숫자인가

397B인데 17B만 켜진다는 게 무슨 뜻인가

문서 인식에서 GPT·Claude를 앞선 벤치마크 수치

에이전트 코딩, master급에서 ELO가 반 토막 난 이유

API 가격 — DashScope vs DeepInfra, 실제 얼마나 다른가

지금 바로 무료로 써볼 수 있는 방법

자주 묻는 것들

마치며 — 4가지 수치가 말해주는 것

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기