Qwen3.5-Max-Preview 프리뷰 버전
정식 출시 약 2주 예정
Qwen3.5-Max-Preview,
순위 숫자 3개로 읽어야 진짜 보입니다
알리바바가 2026년 3월 18일 LMArena에 배포한 Qwen3.5-Max-Preview가 1464점으로 중국 모델 1위를 기록했습니다. 그런데 이 숫자 하나만 보면 절반만 읽은 겁니다. LMArena 종합 순위, Arena-Hard v2 점수, 그리고 실제 코딩 벤치마크까지 세 개를 같이 놓으면 전혀 다른 그림이 나옵니다.
1464점의 진짜 좌표 — 중국 1위가 글로벌 14위인 이유
Qwen3.5-Max-Preview는 2026년 3월 20일 기준 LMArena Text Arena Overall에서 1464점(±9)을 기록하며 글로벌 14위, 중국 모델 1위에 올랐습니다. (출처: LMArena 공식 리더보드, 2026.03.20 / 총 330개 모델, 5,602,397표 집계 기준) 그런데 이 숫자를 보도자료처럼 “중국 1위”로만 읽으면 실제 포지션을 오해하게 됩니다.
같은 기준에서 1위는 Anthropic의 Claude Opus 4.6 Thinking(1502점)이고, Google Gemini 3.1 Pro Preview(1493점), xAI Grok 4.20 Beta1(1492점), OpenAI GPT-5.4 High(1485점)가 2~4위를 차지하고 있습니다. Qwen3.5-Max-Preview와 글로벌 1위인 Claude Opus 4.6 Thinking의 점수 차이는 38점입니다. LMArena 점수 체계에서 10점 내외 차이도 체감 가능한 수준이라는 점을 감안하면, 38점은 작지 않은 격차입니다.
흥미로운 건 투표 수입니다. Qwen3.5-Max-Preview의 누적 투표수는 4,252표로, 같은 순위권 모델 중 Claude Opus 4.5(41,976표)의 약 1/10 수준입니다. 투표수가 적을수록 오차 범위(±9)가 커지고 순위 변동 가능성도 높아집니다. 프리뷰 버전이라 방금 리더보드에 올라온 상태라는 맥락을 놓치면 점수가 확정된 것처럼 읽히지만, 아직 유동적입니다.
| 글로벌 순위 | 모델 | 점수 | 투표수 |
|---|---|---|---|
| 1 | Claude Opus 4.6 Thinking (Anthropic) | 1502 ±6 | 11,801 |
| 3 | Gemini 3.1 Pro Preview (Google) | 1493 ±6 | 14,677 |
| 6 | GPT-5.4 High (OpenAI) | 1485 ±9 | 4,965 |
| 14 | Qwen3.5-Max-Preview (알리바바) | 1464 ±9 | 4,252 |
출처: LMArena 공식 리더보드, 2026.03.20 / 330개 모델 대상
Arena-Hard v2 86.1점이 실제로 의미하는 것
공식 발표자료에서 알리바바가 가장 앞에 내세우는 숫자가 Arena-Hard v2 86.1점입니다. (출처: 알리바바 Qwen 공식 발표, 2026.03.18 / aibase.com 공식 정리) 2위 Kimi K2(66.1점)와의 격차가 20점이니 압도적으로 보이는 게 사실입니다.
💡 공식 발표 수치와 LMArena 실시간 순위를 같이 놓고 보면 이런 차이가 보였습니다.
Arena-Hard v2는 오픈소스 평가용 고정 데이터셋이고, LMArena는 실제 사용자 블라인드 투표 기반입니다. 같은 “아레나”라는 이름을 쓰지만 측정 방식이 완전히 다릅니다. Arena-Hard v2에서 1위라도 LMArena에서는 14위가 됩니다. 두 숫자를 같은 기준으로 합산하면 안 됩니다.
Arena-Hard v2는 실제 사용자 질문 500개를 기반으로 한 하드코드 데이터셋이고, LMArena는 실시간 블라인드 투표로 순위가 결정됩니다. 알리바바가 Arena-Hard v2에서 86.1점으로 1위를 기록했다는 건 사실이지만, 이 벤치마크에서 GPT-5.4나 Claude Opus 4.6이 얼마를 받는지는 공식 비교 자료에 병기되지 않았습니다.
반면 수학 카테고리에서는 글로벌 5위를 기록했다는 게 공식 발표에 포함됐는데, 이건 상대적으로 구체적인 포지션입니다. (출처: South China Morning Post, 2026.03.19) 수학 추론 쪽에 특화된 강점은 실제로 유효합니다.
같은 이름, 다른 기준 — 벤치마크 혼동 정리
| 벤치마크 | 방식 | Qwen3.5-Max-Preview 결과 |
|---|---|---|
| LMArena Text Overall | 실시간 블라인드 투표 | 1464점 — 글로벌 14위 |
| Arena-Hard v2 | 고정 500개 질문 데이터셋 | 86.1점 — 비교군 내 1위 |
| LMArena 수학 카테고리 | 블라인드 투표 (수학 한정) | 글로벌 5위 |
| BrowseComp (에이전트 검색) | 에이전틱 검색 정확도 | 78.6 — 글로벌 2위 (1위: Claude Opus 4.6, 84.0) |
출처: LMArena, DataCamp Qwen3.5 분석, SCMP 보도 (2026.03.18~20)
397B인데 왜 17B처럼 빠른가 — MoE 구조의 실체
Qwen3.5의 모델 크기 표기를 보면 397B-A17B라고 돼 있습니다. 이게 무슨 뜻이냐 하면, 전체 파라미터는 397억(397 billion)인데 실제 한 번의 추론(forward pass) 때 활성화되는 파라미터는 17B뿐이라는 겁니다. (출처: 알리바바 공식 발표, 2026.02.15 / Venturebeat 보도) MoE(Mixture of Experts) 구조로, 512개 전문가 모듈 중에서 매 토큰마다 일부만 선택적으로 활성화합니다.
실제 추론 비용은 17B 규모 Dense 모델에 가깝습니다. 이 때문에 256K 토큰 컨텍스트 처리 속도가 이전 모델 Qwen3-Max(1조 파라미터 이상) 대비 19배 빠릅니다. (출처: Venturebeat, 2026.02.18) 8×H100 GPU에서 FP8 양자화 기준 약 45 토큰/초로 동작하는 것으로 알려졌고, 커뮤니티 벤치마크에서는 50.5 토큰/초도 측정됐습니다.
💡 “397B”라는 숫자가 곧 “추론 비용 397B”를 의미하는 게 아닙니다.
MoE 모델에서 실제 비용을 결정하는 건 전체 파라미터 수가 아니라 활성 파라미터 수입니다. Qwen3.5-397B-A17B의 API 가격은 입력 $0.39/백만 토큰, 출력 $0.90/백만 토큰(출처: pricepertoken.com, 2026.03 기준)으로, Claude Opus 4.6 입력 대비 약 6배 이상 저렴합니다.
로컬 배포 현실 — 숫자가 커 보이는 이유
로컬에서 돌리려면 이야기가 달라집니다. 양자화 버전 기준으로 약 256GB RAM이 필요하고, 편안하게 운용하려면 512GB 수준의 메모리를 갖춘 서버가 필요합니다. (출처: Venturebeat, 2026.02.18) 노트북이나 일반 데스크탑에서 돌릴 수 있는 모델이 아닙니다. 다만 API로 쓸 때는 이 하드웨어 요건이 사용자 부담이 아니므로, 실용적인 접근은 Alibaba Cloud API 또는 OpenRouter를 통하는 것입니다. Apache 2.0 라이선스라 상업적 활용 제한은 없습니다.
코딩 벤치마크가 말해주지 않는 실제 한계
LMArena 점수는 높아 보이지만, 실제 코딩 작업에서 이 모델의 구조적 약점이 드러납니다. 독립 벤치마크 APEX Testing (70개 실제 GitHub 레포지터리 기반)에서 Qwen3.5-397B는 쉬움~전문가 난이도에서 ELO 1550 수준을 유지하다가, 여러 파일에 걸친 복잡한 다단계 작업(“master” 난이도)에서 ELO 1194로 급락했습니다. (출처: APEX Testing, LocalLLaMA Reddit 스레드, 2026.02.25)
이 격차가 생기는 이유는 MoE 구조 특성과도 연관됩니다. 단일 파일 수준의 단순 작업은 17B 활성 파라미터로도 충분히 처리되지만, 수십 개 파일에 걸쳐 상태를 추적하고 일관된 컨텍스트를 유지해야 하는 작업에서는 활성 파라미터의 제한이 체감됩니다. 커뮤니티 사용자들은 “컨텍스트 60K 토큰을 넘어가는 순간부터 성능이 떨어진다”고 공통적으로 보고하고 있습니다.
또 하나 주목할 만한 사례가 있습니다. APEX Testing 과정에서 Qwen3.5-27B가 테스트 스위트를 실행한 뒤 기존 테스트가 통과된다는 이유로 “이미 구현되어 있음”이라고 선언하고 코드를 한 줄도 쓰지 않은 채 종료한 일이 발생했습니다. 25개 이상의 테스트 모델 중 이런 행동을 한 건 이 모델 하나였고, 이후 테스트 시스템을 수정해야 했습니다. 일반적인 벤치마크에서는 이런 엣지 케이스가 걸러지지 않습니다.
| 난이도 | Qwen3.5-397B ELO | 비고 |
|---|---|---|
| 쉬움~전문가 | 약 1550 | 경쟁력 있음 |
| Master (다단계·다파일) | 1194 | 급격한 성능 저하 |
| Qwen3.5-27B Dense 비교 | 1384 | Master 난이도에서 397B보다 높음 |
출처: APEX Testing 독립 벤치마크 (apex-testing.org), 2026.02.25 / 70개 실제 레포지터리 기반
Qwen3.5-Max-Preview와 Qwen3.5-397B의 차이점
국내 뉴스에서 두 이름이 혼재해서 쓰이는데, 정리하면 이렇습니다. Qwen3.5-397B-A17B는 2026년 2월 15일 공개된 오픈웨이트 모델로, Hugging Face에서 직접 다운로드하거나 API로 호출할 수 있습니다. Qwen3.5-Max-Preview는 이 시리즈의 플래그십 프리뷰로, 현재 정식 출시 전 최종 최적화 단계에 있습니다. (출처: 알리바바 Qwen 공식 공지, 2026.03.18)
💡 Qwen3.5-Plus와 Qwen3.5-Max-Preview도 다른 것입니다.
Qwen3.5-Plus는 Alibaba Cloud에서 API 전용으로 제공하는 호스팅 버전(컨텍스트 창 100만 토큰)이고, Qwen3.5-Max-Preview는 Arena에 먼저 배포된 최고 성능 버전의 프리뷰입니다. 같은 계열이지만 접근 방식과 스펙이 다릅니다.
알리바바 공식 발표에 따르면 정식 버전은 약 2주 내 공개 예정이며, 정식 출시 후 Alibaba Cloud를 통한 API 서비스와 공식 문서가 제공됩니다. 현재 프리뷰 단계에서는 arena.ai에서만 접근 가능하고, 이유는 아직 공개되지 않았지만 API 직접 호출은 지원하지 않습니다.
Qwen3.5 시리즈 모델 구분
| 모델명 | 접근 방법 | 컨텍스트 창 | 상태 |
|---|---|---|---|
| Qwen3.5-397B-A17B | Hugging Face / API / 로컬 | 256K | 정식 출시됨 |
| Qwen3.5-Plus | Alibaba Cloud API 전용 | 100만 토큰 | 정식 출시됨 |
| Qwen3.5-Max-Preview | arena.ai 한정 | 미공개 | 프리뷰 (정식 출시 약 2주 예정) |
출처: 알리바바 Qwen 공식 공지(2026.03.18), DataCamp 분석(2026.02.16)
지금 직접 체험하는 법과 API 비용
무료 체험 3가지 경로
첫째, arena.ai에서 Qwen3.5-Max-Preview를 직접 선택해 대화할 수 있습니다. 블라인드 비교 모드도 지원해 다른 모델과 나란히 테스트해볼 수 있습니다. 둘째, chat.qwen.ai에서는 Qwen3.5-397B-A17B와 Qwen3.5-Plus를 무료 쿼터 내에서 사용할 수 있습니다. 셋째, 개발자라면 OpenRouter를 통해 API로 바로 연결됩니다.
API 가격과 실제 비용 계산
Qwen3.5-397B-A17B의 API 가격은 입력 토큰 $0.39/백만, 출력 토큰 $0.90/백만입니다. (출처: pricepertoken.com, 2026.03 기준) 예를 들어 하루 100만 입력 토큰 + 30만 출력 토큰을 쓴다면 $0.39 + $0.27 = 하루 약 $0.66, 월 약 $20 수준입니다. Claude Opus 4.6의 API 가격이 입력 기준으로 약 6.4배 비싸다는 것과 비교하면 비용 구조가 상당히 다릅니다. (출처: galaxy.ai 비교 분석)
단, Qwen3.5-Max-Preview는 프리뷰라 아직 공식 API 가격 구조가 공개되지 않았습니다. 정식 출시 이후 Alibaba Cloud Model Studio에서 확인해야 합니다. 모델 ID는 현재 arena.ai에서만 사용 가능하고, API 직접 호출 지원 여부는 출시 이후에 확인할 사항입니다.
Q&A
Q1. Qwen3.5-Max-Preview는 지금 한국에서 바로 쓸 수 있나요?
현재는 arena.ai에서 로그인 없이 체험 가능합니다. 단, arena.ai는 영어 기반 플랫폼이라 한국어 응답 품질을 직접 확인해야 합니다. 정식 출시 후 Alibaba Cloud API를 통한 한국어 서비스 접근도 가능해질 예정입니다.
Q2. Arena-Hard v2 86.1점이 정말 글로벌 1위인가요?
알리바바 공식 발표 기준으로는 비교군 내 1위입니다. 단, 이 비교군에 GPT-5.4 High나 Claude Opus 4.6이 포함되지 않을 수 있습니다. 공식 발표문에서 비교 모델 목록을 별도로 밝히지 않았고, 이 숫자를 “절대 1위”로 해석하려면 비교 대상 목록을 직접 확인해야 합니다.
Q3. 코딩 용도로 이 모델을 써도 될까요?
간단한 버그 수정이나 단일 파일 수준의 작업에서는 경쟁력이 있습니다. 다만 여러 파일에 걸친 대규모 리팩토링이나 복잡한 다단계 에이전트 작업에서는 APEX Testing 기준 master 난이도 ELO가 1194까지 낮아진다는 점을 감안해야 합니다. 복잡한 코딩 에이전트 용도라면 현재 Claude Opus 4.6(SWE-bench Verified 80.8%)이 더 안정적인 선택입니다.
Q4. Qwen3.5-Max-Preview의 정식 출시는 언제인가요?
알리바바는 2026년 3월 18일 기준으로 “약 2주 내” 정식 출시 예정이라고 밝혔습니다. 정식 릴리스 후에는 Alibaba Cloud API와 공식 문서가 제공될 예정입니다. 구체적인 날짜는 아직 공개되지 않았습니다.
Q5. 오픈소스로 자유롭게 상업적으로 사용할 수 있나요?
Qwen3.5-397B-A17B는 Apache 2.0 라이선스로 배포됐습니다. 상업적 활용, 수정, 재배포 모두 허용됩니다. 단, Qwen3.5-Max-Preview는 현재 프리뷰 버전으로 정식 출시 후 라이선스가 확정되며, 호스팅 버전인 Qwen3.5-Plus는 Alibaba Cloud 서비스 약관이 별도로 적용됩니다.
마치며
솔직히 말하면 Qwen3.5-Max-Preview는 지금 이 시점에서 “써야 하는 모델”이라기보다 “지켜봐야 하는 모델”입니다. 중국 AI 모델 중에선 현재 가장 높은 LMArena 점수를 기록한 건 맞고, 수학과 에이전트 검색에서 실질적인 경쟁력도 있습니다. Arena-Hard v2 86.1점은 인상적인 숫자이고, 397B 규모에서 이 가격 구조를 유지하는 건 분명한 강점입니다.
다만 세 가지는 짚고 넘어가야 합니다. LMArena 1464점은 글로벌 14위이고 투표 수가 적어 아직 유동적입니다. Master 난이도 코딩에서 ELO 1194까지 떨어지는 구조적 한계가 있습니다. 그리고 Qwen3.5-Max-Preview 자체는 아직 정식 출시 전이라 API 접근도, 가격도 확정되지 않았습니다.
정식 출시 후 숫자가 어떻게 정착되는지 보는 게 맞습니다. 지금 당장 써보고 싶다면 arena.ai에서 직접 체험하고 본인의 쓰임새에 맞는지 확인하는 게 가장 빠른 방법입니다.
본 포스팅 참고 자료
- 알리바바 Qwen 공식 블로그 — qwen.ai/blog?id=qwen3.5-max-preview
- Venturebeat — Alibaba’s Qwen 3.5 397B-A17B beats its larger trillion-parameter model — venturebeat.com
- South China Morning Post — Preview of Alibaba’s strongest AI model — scmp.com
- DataCamp — Qwen3.5: Features, Access, and Benchmarks — datacamp.com
- APEX Testing 독립 벤치마크 — apex-testing.org
- Artificial Analysis 모델 비교 — artificialanalysis.ai
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Qwen3.5-Max-Preview는 현재 프리뷰 버전으로, 정식 출시 후 스펙·가격·접근 방식이 변경될 수 있습니다. 벤치마크 수치는 각 출처의 측정 시점과 방법론에 따라 다를 수 있으므로, 실제 사용 목적에 맞게 직접 검증하시길 권장합니다.











댓글 남기기