솔라 프로 3, 직접 수치로 확인했습니다 — 2배는 맞는 말

Published on

2026년 3월 26일

2026.03.24 공개
solar-pro3-260323 기준
TECH

솔라 프로 3, 직접 수치로 확인했습니다 — 2배는 맞는 말

결론부터 말씀드리면 — 에이전트 성능 2배 주장은 공식 벤치마크 수치로 뒷받침됩니다. Tau2-all 기준 36.0 → 72.3. 그런데 정작 이 모델이 흥미로운 이유는 따로 있습니다. 102B 파라미터짜리인데 실제 추론에서 쓰이는 건 12B뿐입니다. 숫자가 크다고 비용도 크다는 건 이 모델에서 통하지 않습니다.

에이전트 성능 향상

2.01×

Tau2-all 72.3 vs 36.0

실제 활성화 파라미터

12B

전체 102B 중 추론 시

API 입력 단가

$0.15

100만 토큰당 (OpenRouter)

102B라는 숫자가 사실은 오해를 부르는 이유

솔라 프로 3 소식을 처음 접하면 대부분 “1020억 파라미터? 그럼 엄청 비싸겠다”라고 생각합니다. 당연한 반응입니다. 파라미터 수가 클수록 GPU 연산이 많아지고 API 비용도 올라간다는 게 일반적인 인식이니까요.

💡 공식 발표문과 모델 스펙을 같이 놓고 보니 이런 차이가 보였습니다.

솔라 프로 3는 MoE(Mixture-of-Experts) 아키텍처를 씁니다. 총 102B 파라미터 중 추론 시 토큰당 실제로 활성화되는 건 12B뿐입니다. (출처: Upstage 공식 블로그, solar-pro-3-0323, 2026.03.24) 즉, 연산 부하 기준으로는 12B짜리 모델에 가깝습니다.

12B ÷ 102B = 약 11.8%. 전체 파라미터 중 12% 미만만 실제 계산에 동원됩니다. 나머지 88%는 “대기 중인 전문가 그룹”입니다. 입력 토큰의 특성에 따라 어떤 전문가 그룹을 쓸지 동적으로 선택하는 구조라 전체 지식은 100B급, 연산 비용은 12B급에 수렴합니다.

솔라 프로 2도 MoE 구조였고, 솔라 프로 3는 거기서 전체 파라미터를 3배 이상 키웠지만(전작 대비 약 3.4배) 처리 속도(TPS)와 비용 구조는 “동일한 수준으로 유지”했다고 공식 발표에 직접 나와 있습니다. 이게 가능한 건 활성화 파라미터를 12B로 고정했기 때문입니다.

▲ 목차로 돌아가기

에이전트 성능 2배, 벤치마크 수치 직접 따져봤습니다

“성능 2배”라는 말은 AI 모델 홍보에서 워낙 흔하게 나와서 반신반의하게 됩니다. 직접 수치를 확인했습니다.

벤치마크	솔라 프로 2	솔라 프로 3	배율
Tau2-all (에이전트 종합)	36.0	72.3	약 2.0×
SWE Bench (코드 에이전트)	14.5	28.6	약 1.97×
Terminal Bench 2 (터미널 워크플로우)	2.2	10.1	약 4.6×
IFBench (지시 이행)	55.78 (전작)	+52% 향상	—
Ko-Arena-Hard-v2 (한국어)	66.6	78.2	+17.4%p

출처: Upstage 공식 블로그 solar-pro-3-0323 (2026.03.24 기준 측정)

Tau2-all과 SWE Bench는 약 2배 수준에서 수렴하는데, Terminal Bench 2는 4.6배로 훨씬 큰 폭입니다. 이 벤치마크는 터미널 환경에서 여러 명령을 연속으로 실행하는 워크플로우를 평가합니다. 전작이 이 부분에서 특히 취약했다는 뜻입니다.

업스테이지가 밝힌 개선의 핵심은 SnapPO라는 자체 강화학습 프레임워크입니다. Solar Open 테크니컬 리포트(arXiv:2601.07022, 2026.01.11)에 따르면 SnapPO는 학습 과정의 각 단계를 독립적으로 실행·조합할 수 있도록 설계됐고, 이 덕분에 수학·코드·에이전트 등 서로 다른 도메인의 추론 능력을 동시에 강화할 수 있었습니다.

솔직히 말하면 SWE Bench 28.6은 Claude Sonnet 4.6나 GPT-5 계열과 비교하면 아직 격차가 있습니다. 그런데 이 모델의 포지셔닝은 “프런티어 모델 대체”가 아닌 “비용 효율 기반 에이전트 파이프라인 구성”입니다. 그 관점에서 보면 수치가 달리 읽힙니다.

▲ 목차로 돌아가기

한국어 성능이 워크플로우 신뢰성과 직결되는 구조

Ko-Arena-Hard-v2에서 66.6 → 78.2로 올랐습니다. 단순 수치 상승처럼 보이지만, 이게 중요한 이유가 따로 있습니다.

💡 공식 발표문을 읽다 보니 이 부분에서 관점이 달라졌습니다.

업스테이지 공식 블로그(solar-pro-3-0323)에는 “한국어 업무 환경에서 에이전트를 운영하는 팀에게 이 차이는 워크플로우 신뢰성으로 직결된다”고 직접 명시돼 있습니다. 에이전트는 사람이 중간에 개입하지 않고 도구를 연속 호출합니다. 중간에 한국어 지시를 잘못 이해하면 뒤의 모든 스텝이 틀어집니다.

한국어 처리 품질이 나쁜 모델로 에이전트 파이프라인을 구성하면, 영어 프롬프트로 우회하거나 중간 번역 단계를 끼워 넣어야 합니다. 이 과정에서 추가 토큰이 발생하고 응답 지연도 커집니다. 한국어 성능 개선이 단순히 “한국어 사용자 배려”가 아니라 파이프라인 설계 비용과 직결된다는 게 여기서 나옵니다.

Solar Open 테크니컬 리포트(arXiv:2601.07022)는 이 모델이 “underserved languages(주류 언어 생태계에서 데이터가 부족한 언어)”를 위한 이중 언어 모델임을 명시합니다. 한국어는 영어보다 훈련 데이터가 압도적으로 적습니다. 업스테이지가 4.5T 토큰 합성 데이터를 구축하고 20T 커리큘럼을 설계한 건 이 격차를 메우기 위해서입니다. 단순히 파라미터를 키운 게 아닌 겁니다.

▲ 목차로 돌아가기

API 비용, GPT·Claude와 직접 비교해봤습니다

OpenRouter 공식 페이지(openrouter.ai/upstage/solar-pro-3)에 올라온 솔라 프로 3의 가격은 입력 $0.15 / 100만 토큰, 출력 $0.60 / 100만 토큰입니다. (2026.03.26 기준)

모델	입력 ($/100만 토큰)	출력 ($/100만 토큰)	비고
솔라 프로 3	$0.15	$0.60	102B MoE / 12B 활성화
GPT-4o mini (참고)	$0.15	$0.60	소형 모델
Claude Sonnet 4.6 (참고)	$3.00	$15.00	프런티어급
GPT-4.1 (참고)	$2.00	$8.00	미드레인지

솔라 프로 3 가격 출처: OpenRouter 공식 페이지 (2026.03.26 기준) / 타 모델 비교 수치는 OpenRouter 기준 추정치이며 변동 가능

계산을 단순하게 해봅니다. 하루 에이전트 파이프라인에서 100만 입력 토큰 + 40만 출력 토큰이 소비된다고 가정하면, 솔라 프로 3 기준 일비용은 $0.15 + $0.24 = $0.39입니다. 같은 조건에서 Claude Sonnet 4.6를 쓰면 $3.00 + $6.00 = $9.00. 약 23배 차이가 납니다.

이 숫자는 “성능이 부족해도 비용을 아낄 수 있다”가 아닙니다. 에이전트 파이프라인은 구조상 여러 모델을 조합합니다. 고난도 추론이 필요한 판단 단계엔 프런티어 모델을 쓰고, 문서 분류·텍스트 생성·지시 이행 같은 반복 스텝에는 솔라 프로 3를 배치하는 식입니다. 비용 대비 성능이 정확히 맞는 자리가 있다는 뜻입니다.

▲ 목차로 돌아가기

표절 논란이 남긴 것 — 소버린 AI 신뢰의 전환점

2025년 12월 말, 사이오닉AI 대표가 솔라-오픈-100B 모델이 중국 지푸AI의 GLM 계열 모델을 표절했다는 의혹을 링크드인에 공개했습니다. 코사인 유사도 0.989. 숫자만 보면 심각해 보입니다.

💡 의혹 반박 과정에서 드러난 측면이 있었습니다.

뉴욕대 조경현 교수가 밝혔듯, LayerNorm 파라미터는 학습 초기값이 1.0 근처에 집중되기 때문에 어떤 모델을 코사인 유사도로 비교해도 0.99에 가까운 값이 나옵니다. 피어슨 상관계수로 비교하면 솔라-오픈과 GLM은 전혀 다른 모델로 나타났습니다. (출처: IT동아, 2026.01.05)

업스테이지는 WandB(Weights & Biases)에 기록된 학습 체크포인트와 Loss 그래프를 공개했습니다. 이 데이터는 일반적으로 기업들이 공개하지 않는 민감한 학습 기록입니다. 중간에 다른 모델 가중치를 이식했다면 Loss 그래프에 불연속 구간이 나타나는데, 공개된 그래프는 연속적이었습니다. 의혹 제기자는 사흘 만에 사과했습니다.

이 사건이 솔라 프로 3와 연결되는 이유가 있습니다. 솔라-오픈-100B는 과기부의 “독자 AI 파운데이션 모델” 사업 결과물이고, 솔라 프로 3는 그 위에 쌓인 프로덕션 버전입니다. 공개 검증을 버텨낸 아키텍처 위에서 나온 모델이라는 점은 — 막연한 신뢰가 아닌 — 기록으로 남은 근거가 있습니다.

▲ 목차로 돌아가기

실제로 쓸 때 막히는 조건들

써보면 좋은 것만 있지는 않습니다. 막힐 수 있는 조건들을 정리했습니다.

컨텍스트 윈도우는 128K

OpenRouter 스펙 기준(2026.01.27 등록) 컨텍스트 윈도우는 128,000 토큰입니다. 긴 문서를 다루는 RAG 파이프라인에서 Gemini 3처럼 백만 토큰대 컨텍스트가 필요한 경우엔 맞지 않습니다. 이 부분은 공식 문서에서도 별도 확장 계획을 밝히지 않았습니다.

이미지·멀티모달은 지원하지 않습니다

솔라 프로 3는 텍스트 전용 모델입니다. 이미지 입력이나 음성, 영상 처리는 되지 않습니다. GPT-4o나 Gemini의 멀티모달 기능을 대체하려는 목적이라면 처음부터 범위가 다릅니다.

SWE Bench 28.6은 여전히 격차가 있습니다

코딩 에이전트 벤치마크 SWE Bench에서 28.6은 전작 대비 2배지만, Claude Sonnet 4.6나 GPT-4.1 수준과는 차이가 있습니다. 복잡한 레포지토리 수준 버그 수정이나 대형 코드베이스 리팩토링 태스크에서는 프런티어 모델이 여전히 유리합니다.

⚠️ 솔라 프로 2에서 전환 시 API 인터페이스가 호환되지만, 모델 ID는 변경해야 합니다. 공식 문서의 모델 ID는 solar-pro3-260323입니다. 자동 전환은 되지 않습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. 솔라 프로 3를 무료로 쓸 수 있나요?

OpenRouter에서 upstage/solar-pro-3:free 엔드포인트로 무료 티어 접근이 가능합니다. 다만 무료 티어는 처리 속도와 요청 한도에 제한이 있습니다. Upstage Console 플레이그라운드에서도 로그인 후 테스트 용도로 사용할 수 있습니다.

Q2. 솔라 프로 2를 쓰고 있는데 코드 수정 없이 전환되나요?

API 인터페이스와 처리 속도는 동일하게 유지된다고 공식 발표에 나와 있습니다. 그러나 모델 ID 자체는 solar-pro3-260323으로 변경해야 합니다. 요청 방식이나 파라미터 구조는 그대로 쓸 수 있습니다.

Q3. SnapPO가 뭔지 간단히 설명해주세요.

업스테이지가 자체 개발한 강화학습 프레임워크입니다. 기존 RLHF 방식과 달리 학습 단계 각각을 독립 모듈로 설계해 수학·코드·에이전트 등 다른 도메인을 동시에 훈련할 수 있습니다. 덕분에 학습 기간을 기존 대비 약 50% 단축했다고 공개 자료에 나와 있습니다. 상세 내용은 arXiv:2601.07022에 공개돼 있습니다.

Q4. 솔라 프로 3는 오픈소스인가요?

솔라 프로 3는 API 형태로 제공되는 클로즈드 서비스 모델입니다. 공개된 것은 솔라-오픈-100B(허깅페이스 공개 모델)이고, 솔라 프로 3는 별개입니다. 가중치를 직접 다운로드해서 로컬 배포하는 건 불가능합니다.

Q5. 어떤 용도에 가장 잘 맞나요?

반복 실행이 많은 에이전트 파이프라인의 중간 스텝, 한국어 문서 처리, 지시사항 이행 자동화에 가장 잘 맞습니다. 복잡한 코드 생성이나 장문 컨텍스트 RAG가 핵심인 경우엔 프런티어 모델 또는 긴 컨텍스트 특화 모델을 병행하는 게 현실적입니다.

▲ 목차로 돌아가기

마치며 — 한 줄 총평

솔라 프로 3는 “성능 2배” 이전에 “102B인데 12B처럼 돈이 나간다”는 구조적 특징이 핵심입니다. 프런티어 모델과 정면 경쟁보다, 에이전트 파이프라인에서 비용을 통제하면서 한국어 워크플로우를 안정적으로 돌리는 자리를 노린 모델입니다.

표절 논란을 공개 검증으로 돌파한 이력도 무시하기 어렵습니다. WandB 학습 기록을 공개하고 피어슨 상관계수로 반박한 과정은 — 좋게 보면 — 국내 모델 중 가장 투명한 신뢰 구축 사례로 남았습니다.

한국어 에이전트 서비스를 만들거나 유지하는 팀이라면 직접 써볼 이유가 충분합니다. 막상 해보면 어떤 스텝에 넣을지 감이 옵니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Upstage 공식 블로그 — Solar Pro 3 업데이트 (2026.03.24): https://www.upstage.ai/blog/ko/solar-pro-3-0323
Upstage 공식 블로그 — Solar Pro 3 초기 발표 (2026.01.26): https://upstage.ai/blog/ko/solar-pro-3-0127
arXiv — Solar Open Technical Report (arXiv:2601.07022, 2026.01.11): https://arxiv.org/abs/2601.07022
OpenRouter — Solar Pro 3 API 가격 및 스펙: https://openrouter.ai/upstage/solar-pro-3
IT동아 — 업스테이지 표절 의혹 전말 (2026.01.05): https://www.donga.com/news/It/article/all/20260105/133095389/1

본 포스팅은 2026년 03월 26일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스 특성상 모델 버전, 가격, 벤치마크 수치는 업데이트로 달라질 수 있으니 최신 정보는 Upstage 공식 콘솔 및 OpenRouter 페이지에서 직접 확인하세요.

AXZ업스테이지, 솔라프로3, 한국AI모델, 에이전트AI, Solar Pro 3

솔라 프로 3, 직접 수치로 확인했습니다 — 2배는 맞는 말

솔라 프로 3, 직접 수치로 확인했습니다 — 2배는 맞는 말

102B라는 숫자가 사실은 오해를 부르는 이유

에이전트 성능 2배, 벤치마크 수치 직접 따져봤습니다

한국어 성능이 워크플로우 신뢰성과 직결되는 구조

API 비용, GPT·Claude와 직접 비교해봤습니다

표절 논란이 남긴 것 — 소버린 AI 신뢰의 전환점