IT/AI
Solar Pro 3, ‘2배’라는데 어떤 2배일까요?
2026년 3월 24일, 업스테이지가 Solar Pro 3의 업데이트를 발표하면서 “에이전트 성능 2배 향상”을 내세웠습니다. 그런데 이 2배가 어디를 기준으로 한 건지, 글로벌 모델과 비교하면 어떤 수치가 나오는지는 따로 찾아봐야 합니다. 막상 숫자를 놓고 보면, 지금까지 많은 글에서 말하지 않은 부분이 보입니다.
‘2배’의 기준이 어디인가 — 숫자의 맥락
Solar Pro 3의 에이전트 성능 2배는 Solar Pro 2 대비 수치입니다. 업스테이지 공식 블로그에 따르면, 종합 에이전트 평가인 Tau2-all에서 Solar Pro 3는 72.3을 기록했고 Solar Pro 2는 36.0이었습니다. 코드 에이전트를 측정하는 SWE Bench에서도 28.6 대 14.5, 터미널 워크플로우를 보는 Terminal Bench 2에서는 10.1 대 2.2였습니다. (출처: Upstage AI 공식 블로그, 2026.03.24)
이 수치들은 전작 대비 개선폭이고, 글로벌 상위권 모델과의 절대 비교는 아닙니다. Terminal Bench 2 기준으로 GPT-5.4는 75.1%, Gemini 3.1 Pro는 68.5%, Claude Opus 4.6은 65.4%를 기록했습니다. Solar Pro 3의 10.1은 그 아래에 위치합니다. (출처: Medium, The March 2026 Frontier, 2026.03.09)
두 수치를 함께 읽으면 Solar Pro 3의 실력이 더 또렷하게 보입니다. 전작 대비 성장폭은 인상적이지만, 터미널 워크플로우처럼 실제 코드 에이전트 환경에서는 글로벌 프런티어 모델과 격차가 여전히 있습니다. 이 차이를 인식하고 쓰는 것과 모르고 쓰는 것은 실제 프로젝트에서 결과가 달라집니다.
102B인데 12B만 켜진다 — MoE 구조와 가격의 연결고리
Solar Pro 3의 스펙 시트를 보면 총 파라미터 102B라고 나옵니다. 그런데 실제 추론할 때는 12B만 활성화됩니다. MoE(Mixture-of-Experts) 아키텍처 덕분입니다. 전문가 네트워크 여러 개를 두고, 토큰마다 필요한 전문가만 골라 씁니다. 쓰지 않는 나머지는 가만히 대기합니다. (출처: OpenRouter 공식 모델 페이지, upstage/solar-pro-3)
💡 공식 API 가격 데이터와 모델 구조를 같이 놓고 보니, 숫자만 볼 때는 보이지 않던 연결 관계가 보입니다.
OpenRouter 기준 Solar Pro 3의 API 단가는 입력 1M 토큰당 $0.15, 출력 1M 토큰당 $0.60입니다. Claude Sonnet 4.6이 입력 $3, 출력 $15인 점과 비교하면 입력 기준 20배 차이입니다. (출처: OpenRouter 공식 페이지, 2026.01.27)
이 20배 격차가 의미하는 바는 단순합니다. 하루에 에이전트 호출 1,000번, 평균 50K 입력 토큰짜리 작업을 돌린다고 가정하면 총 입력량은 50B 토큰입니다. Claude Sonnet 4.6 기준 $150, Solar Pro 3 기준 $7.5입니다. 월 기준으로는 $4,500 대 $225입니다. 이 격차가 어디서 오는지가 바로 MoE 12B 활성 구조입니다.
단, 출력 토큰은 다릅니다. 출력 $0.60/1M은 Claude Sonnet 4.6($15)보다 25배 저렴하지만, Gemini 3.1 Pro($12/1M 출력)와 비교하면 20배 차이입니다. 출력이 많은 작업일수록 격차는 더 벌어집니다.
글로벌 모델과 나란히 놓으면 보이는 것
Solar Pro 3를 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 옆에 세워보겠습니다. 공식 발표 수치 기준입니다.
| 벤치마크 | Solar Pro 3 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE Bench | 28.6 | 80.8 | 57.7* | 80.6 |
| Terminal Bench 2 | 10.1 | 65.4 | 75.1 | 68.5 |
| 입력 단가 (1M) | $0.15 | $5 | $2.50 | $1.25~2 |
* GPT-5.4는 SWE-Bench Pro 기준 (OpenAI가 SWE-Bench Verified 대신 채택). 출처: Medium, The March 2026 Frontier (2026.03.09), OpenRouter 공식 페이지 (2026.01.27), Upstage AI 공식 블로그 (2026.03.24)
SWE Bench와 Terminal Bench 2에서 Solar Pro 3는 글로벌 3강과 수십 포인트 격차가 납니다. 솔직히 말하면, 터미널 에이전트 작업에서 GPT-5.4 대비 7배 이상 낮은 점수입니다. 코드 에이전트 파이프라인을 구성하는 팀이라면 이 차이를 무시하기 어렵습니다.
반면 가격 열만 보면 Solar Pro 3의 $0.15가 압도적입니다. GPT-5.4 대비 16배, Gemini 3.1 Pro 대비 약 8~13배 저렴합니다. 비용 민감도가 높은 작업에서 선택지가 달라질 수밖에 없습니다.
한국어 점수 78.2, 이게 왜 중요한가
Solar Pro 3는 Ko-Arena-hard-v2에서 78.2를 기록했습니다. Solar Pro 2의 66.6 대비 11.6포인트 올랐습니다. (출처: Upstage AI 공식 블로그, 2026.03.24) 이 벤치마크는 한국어 질문-응답 품질을 사람이 비교 평가하는 방식이어서, 단순 번역 정확도가 아니라 자연스러운 표현과 문맥 이해를 함께 봅니다.
💡 에이전트 관련 글들이 영어 벤치마크만 다루는 경우가 많은데, 한국어 에이전트 환경과 영어 환경은 오류가 나는 지점이 다릅니다. 한국어 지시사항을 처리하는 능력을 별도로 확인해야 하는 이유가 여기 있습니다.
글로벌 모델들은 한국어에서 영어 대비 성능 저하가 발생하는 경우가 있습니다. 지시사항의 미묘한 뉘앙스를 놓치거나, 경어체 처리에서 오류가 생기는 식입니다. Solar Pro 3는 한국어를 지속적으로 투자 대상으로 삼아왔기 때문에, 이 부분에서 차별점이 생깁니다.
실제 한국어 업무 환경에서 에이전트를 운영할 때, 한국어 지시사항이 잘못 해석되면 워크플로우 전체가 틀어집니다. Ko-Arena-hard-v2 점수가 높다는 것은 한국어 지시 이행 신뢰도가 높다는 신호로 읽을 수 있습니다. Solar Pro 2 시절보다 17% 향상된 수치입니다.
SnapPO — 업스테이지의 강화학습 기술이 만든 차이
Solar Pro 3의 성능 개선 핵심에는 SnapPO라는 자체 강화학습 프레임워크가 있습니다. 업스테이지가 Solar 오픈 모델 개발 과정에서 쌓아온 기술입니다. 기존 강화학습은 학습 단계들이 서로 의존적이라 특정 도메인에 집중하면 다른 도메인이 무너지는 트레이드오프가 생깁니다. SnapPO는 각 학습 단계를 독립 모듈로 설계해 수학·코드·에이전트 도메인을 동시에 강화할 수 있게 만들었습니다. (출처: Upstage AI 공식 블로그, 2026.03.24)
이 접근 방식의 결과는 수치로 확인됩니다. 업스테이지 공식 발표에서 Terminal Bench 2의 개선폭은 2.2 → 10.1로 약 359% 향상이었습니다. 단순히 데이터를 더 넣은 것이 아니라, 오류가 쌓이기 전에 스스로 잡아내는 능력과 맥락이 불완전할 때 판단하는 능력을 함께 훈련했기 때문입니다.
SnapPO의 상세 설계는 HuggingFace에 공개된 Solar Open 테크니컬 리포트에서 확인할 수 있습니다. 외부 공개된 자료인만큼, 모델 구조와 학습 방법을 직접 검토하고 도입 여부를 판단할 수 있습니다.
Solar Pro 3가 맞는 상황, 맞지 않는 상황
모든 상황에서 동일한 선택이 맞을 수는 없습니다. Solar Pro 3가 실제로 강점을 발휘하는 조건과 그렇지 않은 조건을 정리했습니다.
💡 가격 데이터와 벤치마크를 함께 놓고 보면, 모델 선택이 단순히 성능 순위의 문제가 아니라는 점이 보입니다.
✅ Solar Pro 3가 적합한 경우
- 한국어 지시사항이 포함된 에이전트 파이프라인: Ko-Arena-hard-v2 78.2로 한국어 지시 이행 신뢰도가 높습니다.
- API 호출량이 많고 비용에 민감한 워크로드: 입력 $0.15/1M로 프런티어 모델 대비 8~20배 저렴합니다. 월간 50B+ 토큰 규모라면 차이가 매우 큽니다.
- 기존 Solar Pro 2 운영 중인 팀: 동일한 API 인터페이스와 처리 속도를 유지해 마이그레이션 비용이 거의 없습니다.
- 단계별 추론이 필요한 업무: SnapPO 기반 훈련으로 다단계 계획 수립 능력이 강화됐습니다.
⚠️ Solar Pro 3보다 다른 선택이 나은 경우
- 터미널 코드 에이전트가 핵심인 작업: Terminal Bench 2 기준 GPT-5.4(75.1%)와 Solar Pro 3(10.1%) 사이에 7배 이상 차이가 납니다. 복잡한 코드 에이전트 파이프라인에서는 글로벌 프런티어 모델을 고려해야 합니다.
- SWE Bench 수준의 코드 수정 작업: 28.6 vs Claude Opus 4.6의 80.8, 같은 SWE Bench 점수 비교에서 약 3배 차이입니다.
- 1M 장문 맥락 작업: Solar Pro 3의 공식 컨텍스트 창 규모는 공식 문서에서 별도로 이유를 밝히지 않은 부분이 있어 장문 처리 안정성은 직접 테스트가 필요합니다.
솔직히 말하면, Solar Pro 3는 “모든 상황에서 프런티어 모델을 대체하는 모델”이 아닙니다. 비용 효율이 중요하고 한국어 환경이 핵심인 파이프라인에서, 가격 대비 성능비가 두드러지는 선택지입니다.
Q&A
Solar Pro 3는 무료로 사용할 수 있나요?
Solar Pro 2에서 Solar Pro 3로 전환할 때 코드 수정이 필요한가요?
MoE 모델이라 품질이 불안정하지 않나요?
SnapPO 기술은 어디서 더 자세히 확인할 수 있나요?
Solar Pro 3의 컨텍스트 창(Context Window) 크기는 얼마인가요?
마치며
Solar Pro 3의 “에이전트 성능 2배”는 사실이지만, 그 기준이 Solar Pro 2입니다. 글로벌 프런티어 모델인 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro와 나란히 놓으면 아직 격차가 있습니다. 특히 터미널 코드 에이전트 영역에서 이 차이는 상당합니다.
그럼에도 Solar Pro 3가 주목받는 이유는 둘입니다. 입력 $0.15/1M라는 가격과, 한국어 에이전트 환경에서의 신뢰도입니다. 이 두 조건이 맞는 상황에서 Solar Pro 3는 가격 대비 성능비가 강한 선택지입니다. 모든 에이전트 작업을 프런티어 모델로 돌릴 필요가 없을 때, 선택지의 폭이 넓어집니다.
이 포스팅은 어느 모델이 절대적으로 낫다는 이야기를 하려는 게 아닙니다. 수치를 직접 보고 자기 상황에 맞는 판단을 할 수 있도록 숫자를 나란히 놓은 것입니다. Solar Pro 3의 다음 업데이트에서 글로벌 에이전트 벤치마크 점수가 어떻게 바뀌는지 계속 지켜볼 필요가 있습니다.
본 포스팅 참고 자료
- Upstage AI 공식 블로그 — Solar Pro 3 업데이트: 에이전트 성능 2배 (2026.03.24) https://www.upstage.ai/blog/ko/solar-pro-3-0323
- Upstage AI 공식 블로그 — Solar Pro 3 출시 (2026.01.27) https://www.upstage.ai/blog/ko/solar-pro-3-0127
- OpenRouter 공식 모델 페이지 — upstage/solar-pro-3 (2026.01.27) https://openrouter.ai/upstage/solar-pro-3
- Medium — The March 2026 Frontier: GPT-5.4 vs. Gemini 3.1 vs. Claude 4.6 (2026.03.09) 원문 링크
- Upstage Solar Open 테크니컬 리포트 (HuggingFace) https://huggingface.co/upstage/Solar-Open-100B
본 포스팅은 2026년 3월 24일 기준 공개된 정보를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 각 공식 발표 기준이며 측정 환경에 따라 결과가 달라질 수 있습니다.











댓글 남기기