2026.03.24 기준
solar-pro3-260323 기준
IT/AI

Solar Pro 3, 비용 그대로인데 성능이 두 배라고요?

결론부터 말씀드리면, 업스테이지 공식 벤치마크 기준으로는 맞습니다. Solar Pro 2 대비 에이전트 종합 성능(Tau2-all)이 36.0 → 72.3으로 올랐는데, API 가격과 처리 속도는 그대로입니다. 근데 이게 가능한 이유가 좀 재밌습니다. 102B짜리 모델이지만 실제 추론할 때는 12B만 깨어납니다. 이 구조 때문에 가능한 일입니다.

72.3

Tau2-all (vs 36.0)

12B

실제 활성 파라미터

$0.15

입력 1M 토큰당

128K

컨텍스트 윈도우

102B인데 왜 30B급 모델처럼 빠른 건가요

Solar Pro 3의 총 파라미터는 102B(약 1020억 개)입니다. 숫자만 보면 GPT-4 급의 무거운 모델처럼 보이는데, 막상 API 응답 속도는 Solar Pro 2와 동일합니다. 이게 어떻게 가능한지, 공식 기술 보고서(arXiv 2601.07022, Upstage Solar Team, 2026.01)에 구조가 딱 나와 있습니다.

💡 공식 발표 자료와 기술 보고서를 같이 놓고 보니 이런 차이가 보였습니다. “102B 모델”이라는 표현에 가려진 실제 작동 구조가 생각보다 훨씬 다릅니다.

Solar Pro 3는 MoE(Mixture-of-Experts) 아키텍처를 씁니다. 총 129개의 전문가 네트워크(Expert) 중 추론할 때마다 8개만 선택해서 활성화하는 방식입니다. 공유 전문가 1개 포함 시 실질적으로 활성화되는 파라미터는 12B입니다. (출처: Solar Open Technical Report, arXiv:2601.07022)

쉽게 계산하면, 추론 1회당 작동하는 파라미터는 전체의 약 11.8%에 불과합니다. 30~70B급 Dense 모델(파라미터 전부 활성화)과 실제 연산 부담이 비슷한 수준이라는 뜻입니다. 비용이 안 오르는 건 이 구조 덕분입니다.

항목	Solar Pro 3	Solar Pro 2
총 파라미터	102B (MoE)	31B (Dense)
활성 파라미터	12B	31B
컨텍스트 윈도우	128K	64K~66K
입력 가격 (1M 토큰)	$0.15	$0.15

(출처: OpenRouter Solar Pro 3 페이지, Upstage Console, artificialanalysis.ai, 2026.03 기준)

Solar Pro 2가 31B Dense 구조였는데, Pro 3에서는 총 규모는 3배 이상 커지면서도 추론 시 실제 계산량은 오히려 줄었습니다. 이게 핵심입니다.

▲ 목차로 돌아가기

성능이 2배 올랐다는 수치, 직접 뜯어봤습니다

“에이전트 성능 2배”라는 말이 마케팅 문구처럼 들릴 수 있는데, 업스테이지 공식 블로그(upstage.ai/blog/ko/solar-pro-3-0323, 2026.03.24)에 수치가 구체적으로 나와 있습니다. 종합 에이전트 벤치마크 Tau2-all 기준으로 Solar Pro 2가 36.0, Solar Pro 3가 72.3입니다. 정확히 2.0배입니다.

벤치마크	Solar Pro 2	Solar Pro 3	변화
Tau2-all (에이전트 종합)	36.0	72.3	+100%
SWE Bench (코딩 에이전트)	14.5	28.6	+97%
Terminal Bench 2 (터미널 워크플로우)	2.2	10.1	+359%
IFBench (지시 이행)	36.7	55.78	+52%
Ko-Arena-hard-v2 (한국어 선호도)	66.6	78.2	+17%

(출처: Upstage 공식 블로그 solar-pro-3-0323, 2026.03.24. 벤치마크는 2026년 3월 기준 공식 평가 프로토콜로 측정)

Terminal Bench 2 수치가 2.2 → 10.1로 약 4.6배 오른 게 눈에 띕니다. 터미널 워크플로우, 즉 코드 실행 + 파일 조작 + 명령어 연속 수행이 포함되는 시나리오에서 특히 크게 개선됐다는 뜻입니다. 멀티스텝 에이전트 작업에서 이전 모델이 중간에 맥락을 잃거나 도구 호출 순서를 틀리는 문제를 집중적으로 잡은 결과라고 업스테이지 측이 공식 블로그에서 직접 언급했습니다.

한국어 선호도(Ko-Arena-hard-v2)가 66.6 → 78.2로 오른 건 한국어 업무 환경에서 실제로 체감되는 차이입니다. 같은 질문을 한국어로 넣었을 때 이전 모델보다 더 자연스럽고 의도에 맞는 답변이 나온다는 뜻인데, 한국어 에이전트를 운영하는 팀이라면 이 수치가 워크플로우 안정성과 직결됩니다.

▲ 목차로 돌아가기

SnapPO가 뭔지 공식 논문에서 확인했습니다

Solar Pro 3의 성능 향상이 특정 벤치마크 최적화로 이루어진 게 아니라는 걸 공식 측이 강조하는 이유가 있습니다. 핵심은 강화학습 프레임워크 SnapPO(Snapshot Policy Optimization)인데, 업스테이지가 독자 개발한 기술이라 다른 블로그에서 제대로 다룬 경우를 못 봤습니다.

💡 SnapPO 기술 보고서(arXiv:2601.07022)와 공식 블로그 내용을 같이 보면, 이 프레임워크가 단순히 “학습을 잘 했다”는 게 아니라 강화학습의 구조적 병목을 해결한 방식이라는 게 보입니다.

기존 온라인 강화학습(Online RL)은 데이터 생성 → 보상 계산 → 모델 업데이트가 순서대로 강하게 묶여 있습니다. 여러 목표(추론 능력, 안전성, 한국어 선호도 등)를 동시에 훈련하려면 각 목표마다 인프라를 새로 세팅해야 해서 확장이 어렵습니다. SnapPO는 이 세 단계를 분리(decoupling)해서 각자 독립적으로 실행하고 중간 결과를 캐시하는 방식을 씁니다. (출처: Solar Open Technical Report, arXiv:2601.07022, 2026.01)

실질적으로는 두 가지 효과를 냅니다. 첫째, 컴퓨팅 노드를 늘려도 병목 없이 선형으로 처리량이 늘어납니다. 둘째, 수학·코드·에이전트 등 서로 다른 도메인의 보상을 독립적으로 계산하고 학습 중에 합치기 때문에, 하나의 학습 과정에서 여러 능력을 동시에 키울 수 있습니다. SnapPO를 통해 Solar Pro 3는 수학(HMMT’26, AIME’26), 대학원 수준 과학(GPQA-Diamond), 에이전트 워크플로우 모두에서 개선을 동시에 이뤄냈습니다.

여기서 생각해볼 점이 하나 있습니다. SnapPO 기반 훈련에서 에이전트 성능이 올라간 이유 중 하나가 “개별 도구 호출은 되는데 전체 워크플로우를 끝까지 완주하지 못하는 문제”를 집중 훈련했기 때문입니다. 단순히 정확도 수치를 올리는 게 아니라, 실제 프로덕션에서 반복적으로 관찰된 장애 패턴을 타겟으로 삼은 것인데, 이런 설계 방향이 Terminal Bench 2 수치가 크게 뛴 배경이 됩니다.

▲ 목차로 돌아가기

Solar Pro 2 쓰던 팀이라면 코드 바꿀 게 없습니다

업스테이지가 Solar Pro 3를 출시하면서 강조한 부분 중 실제 개발팀에 가장 중요한 게 이 부분이라고 생각합니다. Solar Pro 2에서 Pro 3로 전환할 때 API 인터페이스, 처리량(TPS), 서빙 동작이 동일하게 유지됩니다. 모델명만 바꾸면 됩니다. (출처: Upstage 공식 블로그, solar-pro-3-0323)

💡 단순한 편의가 아닙니다. 기업 환경에서 LLM을 교체할 때 가장 큰 비용은 모델 자체가 아니라 파이프라인 재설계·테스트·배포 과정에서 발생합니다. 이 마이그레이션 비용을 0에 가깝게 만든 게 이 설계의 핵심입니다.

OpenAI SDK 호환 방식으로 API를 호출하는 팀이라면, base_url을 https://api.upstage.ai/v1으로 유지하면서 model 파라미터만 solar-pro-3로 바꾸면 끝입니다. Upstage Console 문서(console.upstage.ai/docs)에 명시된 내용입니다. OpenRouter에서도 동일 모델 ID로 접근 가능하고, 1월 출시 이후 수십억 토큰이 이미 OpenRouter를 통해 처리됐다고 공식 블로그에 나와 있습니다.

한 가지 추가로 확인할 점은 구조화 출력(Structured Output)입니다. Solar Pro 3는 JSON 형식 100% 지원을 공식으로 내세웁니다. API 호출 시 response_format을 json_object로 지정하면 형식이 보장되고, 이는 에이전트 파이프라인에서 다음 단계로 결과를 넘길 때 파싱 실패를 줄여줍니다. 멀티스텝 워크플로우를 운영하는 팀에게 이 부분이 실질적으로 중요합니다.

▲ 목차로 돌아가기

경쟁 모델 대비 솔직한 비교

Solar Pro 3를 쓸지 말지 판단할 때 다른 선택지와 비교해야 공정합니다. 2026년 3월 기준 같은 API 형태로 쓸 수 있는 주요 모델들과 나란히 놓고 봤습니다.

모델	입력 가격 (1M 토큰)	컨텍스트 윈도우	한국어 특화	이미지 입력
Solar Pro 3	$0.15	128K	✅ 전용 훈련	❌
GPT-4.1	$2.00	1M	일반 다국어	✅
Claude Sonnet 4.6	$3.00	1M	일반 다국어	✅
GPT-5.4	$5.00+	1M+	일반 다국어	✅

(출처: OpenRouter, artificialanalysis.ai, Upstage Console, 2026.03.30 기준. 가격은 공식 API 기준)

가격 면에서 Solar Pro 3의 입력 단가($0.15/1M)는 GPT-4.1($2.00)의 약 7.5%, Claude Sonnet 4.6($3.00)의 약 5%입니다. 한국어 에이전트를 대량으로 돌리는 B2B 환경이라면 토큰 비용 차이가 누적 금액으로 크게 벌어집니다. 한국어 특화 훈련을 받은 모델을 이 가격에 쓸 수 있다는 게 Solar Pro 3의 가장 선명한 장점입니다.

단, 이미지 입력이 필요하거나 장문 서류(계약서, 보고서 수백 페이지)를 통째로 컨텍스트에 넣어야 하는 경우라면 GPT-4.1이나 Claude 계열이 현실적입니다. 128K가 약 96,000단어인데, 단일 장문 분석에는 충분한 경우도 많지만 복수 문서를 동시에 다룰 때는 부족해질 수 있습니다.

▲ 목차로 돌아가기

이 조건이라면 Solar Pro 3를 쓰지 않는 게 낫습니다

Solar Pro 3가 잘 맞는 케이스가 분명하지만, 솔직히 쓰지 않는 게 나은 상황도 있습니다. 공식 스펙과 벤치마크 수치를 교차해서 보면 나오는 이야기입니다.

⚠️ 이런 케이스라면 다른 모델을 고려하세요

이미지·PDF 시각 처리가 필수인 경우 — Solar Pro 3는 이미지 입력을 지원하지 않습니다. 문서 OCR이 필요하다면 Upstage의 별도 Document AI 제품을 함께 써야 합니다.
컨텍스트 윈도우 128K 이상이 필요한 경우 — 여러 장의 긴 계약서, 코드베이스 전체 등을 한 번에 넣어야 한다면 GPT-4.1(1M)이나 Gemini 계열이 현실적입니다.
영어 전용 고성능 추론이 최우선인 경우 — Artificial Analysis Intelligence Index 기준 상위 모델들(GPT-5.4, Gemini 3.1 Pro Preview, Claude Opus 4.6 등)과 비교하면 Solar Pro 3는 영어 순수 추론 성능에서 1위 그룹은 아닙니다. 한국어 특화 가성비가 강점인 모델입니다.
멀티모달(음성, 영상) 처리가 필요한 경우 — 현재 Solar Pro 3는 텍스트 전용입니다.

반대로 Solar Pro 3가 딱 맞는 케이스는 이렇습니다. 한국어 텍스트 기반의 에이전트 파이프라인을 운영하고, 비용이 중요하고, Solar Pro 2를 이미 쓰고 있는 팀입니다. 이 세 가지가 동시에 해당된다면 전환하지 않을 이유가 없습니다.

이 부분이 좀 아쉬웠습니다. 멀티모달이나 긴 컨텍스트 지원은 차기 버전에서 나올 가능성이 있지만, 업스테이지 측이 공식 답변을 내놓지 않은 부분입니다. Solar Open 기술 보고서에서는 “약 200B 모델로 향후 업스케일 계획이 있다”고 언급하는데, 이게 Solar Pro 4와 어떻게 연결될지는 아직 공개된 게 없습니다.

▲ 목차로 돌아가기

Q&A

Q1. Solar Pro 3는 무료로 쓸 수 있나요?

OpenRouter에서 무료 티어(upstage/solar-pro-3:free)로 접근할 수 있습니다. 다만 무료 티어는 속도·요청 제한이 있고, 프로덕션 사용 시에는 Upstage Console API 유료 키를 발급받아야 합니다. 입력 기준 $0.15/1M 토큰, 출력 기준 $0.60/1M 토큰이 공식 가격입니다. (출처: OpenRouter, 2026.03 기준)

Q2. Solar Pro 2에서 Pro 3로 바꾸면 응답이 달라질 수 있나요?

성능이 달라지는 건 맞습니다. 업스테이지는 “API 인터페이스와 TPS는 동일하게 유지”한다고 공식 발표했지만, 모델 자체가 다르기 때문에 응답 내용·어투·추론 방식이 변할 수 있습니다. 특히 지시 이행(IFBench) 성능이 크게 올랐기 때문에 기존에 프롬프트를 느슨하게 쓰던 파이프라인에서 의도치 않게 더 정확한 응답이 나올 수 있습니다. 전환 전 핵심 케이스를 몇 개 먼저 테스트하는 게 안전합니다.

Q3. Solar Pro 3의 컨텍스트 윈도우가 128K인데, Solar Open 기술 보고서에는 131,072로 나와 있습니다. 다른 건가요?

같은 수치입니다. 131,072는 2의 17승 = 128 × 1,024로, 정확히 128K 토큰을 의미합니다. 마케팅 자료에서는 128K, 기술 보고서에서는 정확한 정수 131,072를 쓰는 방식입니다. (출처: Solar Open Technical Report, arXiv:2601.07022, Table 2)

Q4. Solar Pro 3가 한국어 특화라고 하는데, 영어 성능은 어떤가요?

Arena Hard v2(영어 사용자 선호도) 기준으로 Solar Pro 3가 62.5를 기록했습니다. 같은 가격대($0.15~$0.20/1M) 영어 모델들과 비교하면 경쟁력 있는 수준입니다. 단, Gemini 3.1 Pro Preview나 GPT-5.4 같은 상위 모델 대비 영어 순수 추론은 낮습니다. 한국어+영어 혼합 업무에는 잘 맞고, 영어만 쓴다면 같은 비용에 더 나은 선택지가 있을 수 있습니다.

Q5. Solar Open과 Solar Pro 3는 어떻게 다른가요?

Solar Open은 업스테이지가 오픈웨이트로 공개한 기반 모델(Base Model)이고, Solar Pro 3는 이 위에 에이전트·지시이행·한국어 특화 파인튜닝과 SnapPO 강화학습을 적용한 상용 API 모델입니다. Solar Open은 HuggingFace 등을 통해 로컬 배포가 가능하고, Solar Pro 3는 Upstage Console 또는 OpenRouter API로 접근합니다. 동일한 102B MoE 아키텍처를 공유하지만 후처리(SFT, RL)에서 갈립니다.

▲ 목차로 돌아가기

마치며

Solar Pro 3를 처음 봤을 때 솔직히 반신반의했습니다. “비용 그대로에 성능 2배”는 마케팅에서 자주 쓰이는 문구라서요. 근데 공식 기술 보고서랑 벤치마크 수치를 직접 뜯어보니, 이게 MoE 구조의 물리적 특성에서 나오는 결과라는 게 납득이 됐습니다.

102B를 만들었지만 실제로는 12B만 활성화한다 — 이 구조 덕분에 전력과 연산 비용이 Dense 30B급과 비슷하게 유지되고, 그게 가격을 유지하면서 성능을 끌어올릴 수 있었던 이유입니다. 그리고 Solar Pro 2 호환 API는 단순한 편의 기능이 아니라 기업 마이그레이션 비용을 처음부터 설계에서 없앤 것이라는 시각이 생겼습니다.

한국어 에이전트를 운영하는 팀에게는 지금 시점에 확인해볼 가치가 충분합니다. 반면 멀티모달이나 1M 이상 컨텍스트가 필요한 팀이라면, Solar Pro 3가 아직 그 자리를 채우지 못합니다. 이게 좀 아쉬운 부분이고, 차기 버전을 지켜봐야 할 이유이기도 합니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Upstage 공식 블로그 (KO) — Solar Pro 3 업데이트 발표: https://www.upstage.ai/blog/ko/solar-pro-3-0323
Upstage 공식 블로그 (EN) — Solar Pro 3: Better reasoning at production scale: https://www.upstage.ai/blog/en/solar-pro-3-0127
Solar Open Technical Report (arXiv:2601.07022, SnapPO 원문): https://arxiv.org/pdf/2601.07022
OpenRouter — Solar Pro 3 API 스펙 및 가격: https://openrouter.ai/upstage/solar-pro-3
Artificial Analysis — Solar Pro 2 vs GPT-4.1 비교: https://artificialanalysis.ai/models/comparisons/solar-pro-2-reasoning-vs-gpt-4-1
전자신문 — 업스테이지 솔라 프로3 공개 보도 (2026.03.24): https://www.etnews.com/20260324000153

본 포스팅은 2026년 3월 30일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Upstage 공식 채널에서 직접 확인하시기 바랍니다.

Solar Pro 3, 비용 그대로인데 성능이 두 배라고요?

102B인데 왜 30B급 모델처럼 빠른 건가요

성능이 2배 올랐다는 수치, 직접 뜯어봤습니다

SnapPO가 뭔지 공식 논문에서 확인했습니다

Solar Pro 2 쓰던 팀이라면 코드 바꿀 게 없습니다

경쟁 모델 대비 솔직한 비교

이 조건이라면 Solar Pro 3를 쓰지 않는 게 낫습니다

Q&A

마치며

📚 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Solar Pro 3, 비용 그대로인데 성능이 두 배라고요?

Solar Pro 3, 비용 그대로인데 성능이 두 배라고요?

102B인데 왜 30B급 모델처럼 빠른 건가요

성능이 2배 올랐다는 수치, 직접 뜯어봤습니다

SnapPO가 뭔지 공식 논문에서 확인했습니다

Solar Pro 2 쓰던 팀이라면 코드 바꿀 게 없습니다

경쟁 모델 대비 솔직한 비교

이 조건이라면 Solar Pro 3를 쓰지 않는 게 낫습니다

Q&A

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기