solar-pro3-260323 기준
TECH
솔라 프로 3, 직접 수치로 확인했습니다 — 2배는 맞는 말
결론부터 말씀드리면 — 에이전트 성능 2배 주장은 공식 벤치마크 수치로 뒷받침됩니다. Tau2-all 기준 36.0 → 72.3. 그런데 정작 이 모델이 흥미로운 이유는 따로 있습니다. 102B 파라미터짜리인데 실제 추론에서 쓰이는 건 12B뿐입니다. 숫자가 크다고 비용도 크다는 건 이 모델에서 통하지 않습니다.
102B라는 숫자가 사실은 오해를 부르는 이유
솔라 프로 3 소식을 처음 접하면 대부분 “1020억 파라미터? 그럼 엄청 비싸겠다”라고 생각합니다. 당연한 반응입니다. 파라미터 수가 클수록 GPU 연산이 많아지고 API 비용도 올라간다는 게 일반적인 인식이니까요.
💡 공식 발표문과 모델 스펙을 같이 놓고 보니 이런 차이가 보였습니다.
솔라 프로 3는 MoE(Mixture-of-Experts) 아키텍처를 씁니다. 총 102B 파라미터 중 추론 시 토큰당 실제로 활성화되는 건 12B뿐입니다. (출처: Upstage 공식 블로그, solar-pro-3-0323, 2026.03.24) 즉, 연산 부하 기준으로는 12B짜리 모델에 가깝습니다.
12B ÷ 102B = 약 11.8%. 전체 파라미터 중 12% 미만만 실제 계산에 동원됩니다. 나머지 88%는 “대기 중인 전문가 그룹”입니다. 입력 토큰의 특성에 따라 어떤 전문가 그룹을 쓸지 동적으로 선택하는 구조라 전체 지식은 100B급, 연산 비용은 12B급에 수렴합니다.
솔라 프로 2도 MoE 구조였고, 솔라 프로 3는 거기서 전체 파라미터를 3배 이상 키웠지만(전작 대비 약 3.4배) 처리 속도(TPS)와 비용 구조는 “동일한 수준으로 유지”했다고 공식 발표에 직접 나와 있습니다. 이게 가능한 건 활성화 파라미터를 12B로 고정했기 때문입니다.
에이전트 성능 2배, 벤치마크 수치 직접 따져봤습니다
“성능 2배”라는 말은 AI 모델 홍보에서 워낙 흔하게 나와서 반신반의하게 됩니다. 직접 수치를 확인했습니다.
| 벤치마크 | 솔라 프로 2 | 솔라 프로 3 | 배율 |
|---|---|---|---|
| Tau2-all (에이전트 종합) | 36.0 | 72.3 | 약 2.0× |
| SWE Bench (코드 에이전트) | 14.5 | 28.6 | 약 1.97× |
| Terminal Bench 2 (터미널 워크플로우) | 2.2 | 10.1 | 약 4.6× |
| IFBench (지시 이행) | 55.78 (전작) | +52% 향상 | — |
| Ko-Arena-Hard-v2 (한국어) | 66.6 | 78.2 | +17.4%p |
출처: Upstage 공식 블로그 solar-pro-3-0323 (2026.03.24 기준 측정)
Tau2-all과 SWE Bench는 약 2배 수준에서 수렴하는데, Terminal Bench 2는 4.6배로 훨씬 큰 폭입니다. 이 벤치마크는 터미널 환경에서 여러 명령을 연속으로 실행하는 워크플로우를 평가합니다. 전작이 이 부분에서 특히 취약했다는 뜻입니다.
업스테이지가 밝힌 개선의 핵심은 SnapPO라는 자체 강화학습 프레임워크입니다. Solar Open 테크니컬 리포트(arXiv:2601.07022, 2026.01.11)에 따르면 SnapPO는 학습 과정의 각 단계를 독립적으로 실행·조합할 수 있도록 설계됐고, 이 덕분에 수학·코드·에이전트 등 서로 다른 도메인의 추론 능력을 동시에 강화할 수 있었습니다.
솔직히 말하면 SWE Bench 28.6은 Claude Sonnet 4.6나 GPT-5 계열과 비교하면 아직 격차가 있습니다. 그런데 이 모델의 포지셔닝은 “프런티어 모델 대체”가 아닌 “비용 효율 기반 에이전트 파이프라인 구성”입니다. 그 관점에서 보면 수치가 달리 읽힙니다.
한국어 성능이 워크플로우 신뢰성과 직결되는 구조
Ko-Arena-Hard-v2에서 66.6 → 78.2로 올랐습니다. 단순 수치 상승처럼 보이지만, 이게 중요한 이유가 따로 있습니다.
💡 공식 발표문을 읽다 보니 이 부분에서 관점이 달라졌습니다.
업스테이지 공식 블로그(solar-pro-3-0323)에는 “한국어 업무 환경에서 에이전트를 운영하는 팀에게 이 차이는 워크플로우 신뢰성으로 직결된다”고 직접 명시돼 있습니다. 에이전트는 사람이 중간에 개입하지 않고 도구를 연속 호출합니다. 중간에 한국어 지시를 잘못 이해하면 뒤의 모든 스텝이 틀어집니다.
한국어 처리 품질이 나쁜 모델로 에이전트 파이프라인을 구성하면, 영어 프롬프트로 우회하거나 중간 번역 단계를 끼워 넣어야 합니다. 이 과정에서 추가 토큰이 발생하고 응답 지연도 커집니다. 한국어 성능 개선이 단순히 “한국어 사용자 배려”가 아니라 파이프라인 설계 비용과 직결된다는 게 여기서 나옵니다.
Solar Open 테크니컬 리포트(arXiv:2601.07022)는 이 모델이 “underserved languages(주류 언어 생태계에서 데이터가 부족한 언어)”를 위한 이중 언어 모델임을 명시합니다. 한국어는 영어보다 훈련 데이터가 압도적으로 적습니다. 업스테이지가 4.5T 토큰 합성 데이터를 구축하고 20T 커리큘럼을 설계한 건 이 격차를 메우기 위해서입니다. 단순히 파라미터를 키운 게 아닌 겁니다.
API 비용, GPT·Claude와 직접 비교해봤습니다
OpenRouter 공식 페이지(openrouter.ai/upstage/solar-pro-3)에 올라온 솔라 프로 3의 가격은 입력 $0.15 / 100만 토큰, 출력 $0.60 / 100만 토큰입니다. (2026.03.26 기준)
| 모델 | 입력 ($/100만 토큰) | 출력 ($/100만 토큰) | 비고 |
|---|---|---|---|
| 솔라 프로 3 | $0.15 | $0.60 | 102B MoE / 12B 활성화 |
| GPT-4o mini (참고) | $0.15 | $0.60 | 소형 모델 |
| Claude Sonnet 4.6 (참고) | $3.00 | $15.00 | 프런티어급 |
| GPT-4.1 (참고) | $2.00 | $8.00 | 미드레인지 |
솔라 프로 3 가격 출처: OpenRouter 공식 페이지 (2026.03.26 기준) / 타 모델 비교 수치는 OpenRouter 기준 추정치이며 변동 가능
계산을 단순하게 해봅니다. 하루 에이전트 파이프라인에서 100만 입력 토큰 + 40만 출력 토큰이 소비된다고 가정하면, 솔라 프로 3 기준 일비용은 $0.15 + $0.24 = $0.39입니다. 같은 조건에서 Claude Sonnet 4.6를 쓰면 $3.00 + $6.00 = $9.00. 약 23배 차이가 납니다.
이 숫자는 “성능이 부족해도 비용을 아낄 수 있다”가 아닙니다. 에이전트 파이프라인은 구조상 여러 모델을 조합합니다. 고난도 추론이 필요한 판단 단계엔 프런티어 모델을 쓰고, 문서 분류·텍스트 생성·지시 이행 같은 반복 스텝에는 솔라 프로 3를 배치하는 식입니다. 비용 대비 성능이 정확히 맞는 자리가 있다는 뜻입니다.
표절 논란이 남긴 것 — 소버린 AI 신뢰의 전환점
2025년 12월 말, 사이오닉AI 대표가 솔라-오픈-100B 모델이 중국 지푸AI의 GLM 계열 모델을 표절했다는 의혹을 링크드인에 공개했습니다. 코사인 유사도 0.989. 숫자만 보면 심각해 보입니다.
💡 의혹 반박 과정에서 드러난 측면이 있었습니다.
뉴욕대 조경현 교수가 밝혔듯, LayerNorm 파라미터는 학습 초기값이 1.0 근처에 집중되기 때문에 어떤 모델을 코사인 유사도로 비교해도 0.99에 가까운 값이 나옵니다. 피어슨 상관계수로 비교하면 솔라-오픈과 GLM은 전혀 다른 모델로 나타났습니다. (출처: IT동아, 2026.01.05)
업스테이지는 WandB(Weights & Biases)에 기록된 학습 체크포인트와 Loss 그래프를 공개했습니다. 이 데이터는 일반적으로 기업들이 공개하지 않는 민감한 학습 기록입니다. 중간에 다른 모델 가중치를 이식했다면 Loss 그래프에 불연속 구간이 나타나는데, 공개된 그래프는 연속적이었습니다. 의혹 제기자는 사흘 만에 사과했습니다.
이 사건이 솔라 프로 3와 연결되는 이유가 있습니다. 솔라-오픈-100B는 과기부의 “독자 AI 파운데이션 모델” 사업 결과물이고, 솔라 프로 3는 그 위에 쌓인 프로덕션 버전입니다. 공개 검증을 버텨낸 아키텍처 위에서 나온 모델이라는 점은 — 막연한 신뢰가 아닌 — 기록으로 남은 근거가 있습니다.
실제로 쓸 때 막히는 조건들
써보면 좋은 것만 있지는 않습니다. 막힐 수 있는 조건들을 정리했습니다.
컨텍스트 윈도우는 128K
OpenRouter 스펙 기준(2026.01.27 등록) 컨텍스트 윈도우는 128,000 토큰입니다. 긴 문서를 다루는 RAG 파이프라인에서 Gemini 3처럼 백만 토큰대 컨텍스트가 필요한 경우엔 맞지 않습니다. 이 부분은 공식 문서에서도 별도 확장 계획을 밝히지 않았습니다.
이미지·멀티모달은 지원하지 않습니다
솔라 프로 3는 텍스트 전용 모델입니다. 이미지 입력이나 음성, 영상 처리는 되지 않습니다. GPT-4o나 Gemini의 멀티모달 기능을 대체하려는 목적이라면 처음부터 범위가 다릅니다.
SWE Bench 28.6은 여전히 격차가 있습니다
코딩 에이전트 벤치마크 SWE Bench에서 28.6은 전작 대비 2배지만, Claude Sonnet 4.6나 GPT-4.1 수준과는 차이가 있습니다. 복잡한 레포지토리 수준 버그 수정이나 대형 코드베이스 리팩토링 태스크에서는 프런티어 모델이 여전히 유리합니다.
⚠️ 솔라 프로 2에서 전환 시 API 인터페이스가 호환되지만, 모델 ID는 변경해야 합니다. 공식 문서의 모델 ID는 solar-pro3-260323입니다. 자동 전환은 되지 않습니다.
자주 나오는 질문 5가지
마치며 — 한 줄 총평
솔라 프로 3는 “성능 2배” 이전에 “102B인데 12B처럼 돈이 나간다”는 구조적 특징이 핵심입니다. 프런티어 모델과 정면 경쟁보다, 에이전트 파이프라인에서 비용을 통제하면서 한국어 워크플로우를 안정적으로 돌리는 자리를 노린 모델입니다.
표절 논란을 공개 검증으로 돌파한 이력도 무시하기 어렵습니다. WandB 학습 기록을 공개하고 피어슨 상관계수로 반박한 과정은 — 좋게 보면 — 국내 모델 중 가장 투명한 신뢰 구축 사례로 남았습니다.
한국어 에이전트 서비스를 만들거나 유지하는 팀이라면 직접 써볼 이유가 충분합니다. 막상 해보면 어떤 스텝에 넣을지 감이 옵니다.
본 포스팅 참고 자료
- Upstage 공식 블로그 — Solar Pro 3 업데이트 (2026.03.24): https://www.upstage.ai/blog/ko/solar-pro-3-0323
- Upstage 공식 블로그 — Solar Pro 3 초기 발표 (2026.01.26): https://upstage.ai/blog/ko/solar-pro-3-0127
- arXiv — Solar Open Technical Report (arXiv:2601.07022, 2026.01.11): https://arxiv.org/abs/2601.07022
- OpenRouter — Solar Pro 3 API 가격 및 스펙: https://openrouter.ai/upstage/solar-pro-3
- IT동아 — 업스테이지 표절 의혹 전말 (2026.01.05): https://www.donga.com/news/It/article/all/20260105/133095389/1
본 포스팅은 2026년 03월 26일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스 특성상 모델 버전, 가격, 벤치마크 수치는 업데이트로 달라질 수 있으니 최신 정보는 Upstage 공식 콘솔 및 OpenRouter 페이지에서 직접 확인하세요.

댓글 남기기