2026.03.24 공개 기준
solar-pro3-260323 기준

솔라 프로 3, 102B라는 숫자가
착각을 만들고 있습니다

모델 크기를 보고 “비쌀 것 같다”고 생각했다면, 이 글을 먼저 보세요. 실제 추론 시 작동하는 파라미터는 102B가 아닙니다.

에이전트 성능

2× 향상

Tau2-all 72.3 vs 36.0

한국어 선호도

78.2점

Ko-Arena-hard-v2

실제 활성 파라미터

12B

토큰당 활성화 기준

102B라고 쓰고 12B라고 읽어야 하는 이유

솔라 프로 3의 공식 파라미터는 1,020억 개(102B)입니다. 그런데 실제로 하나의 토큰을 처리할 때 활성화되는 파라미터는 120억 개(12B)에 불과합니다. (출처: Upstage 공식 블로그 KO, 2026.03.24 / arXiv Solar Open Technical Report, 2026.01.05)

이게 MoE(Mixture-of-Experts) 아키텍처의 핵심입니다. 128개의 전문가 네트워크 중 한 번에 8개만 선택해서 활성화합니다. 나머지 120개는 그냥 대기 상태죠. 쉽게 말해, 102B짜리 모델의 추론 비용은 구조적으로 30B~70B 규모 Dense 모델과 유사하게 설계된 겁니다.

💡 공식 발표 수치와 실제 서빙 구조를 같이 보면 이런 차이가 보입니다.
Solar Pro 2와 동일한 TPS(처리 속도)와 API 비용을 유지한다고 공식 발표한 근거가 바로 이 12B 활성화 구조입니다. 성능은 올렸지만 청구서는 그대로인 설계입니다.

“102B 모델이면 엄청 비싸겠다”는 생각이 드는 건 Dense 모델 기준의 직관입니다. 막상 API를 써보면 Solar Pro 2 대비 비용이 올라가지 않았다는 점이 MoE 구조 덕분입니다.

구분	Solar Pro 3	Dense 70B 모델
총 파라미터	102B	70B
추론 시 활성 파라미터	12B	70B (전체)
추론 비용 수준	약 12B급	70B급
아키텍처	Sparse MoE	Dense

▲ 목차로 돌아가기

에이전트 성능 2배, 어디서 어떻게 나온 수치인가

뉴스 기사마다 “에이전트 성능 2배 향상”이라는 표현이 등장합니다. 숫자만 보면 마케팅 문구처럼 느껴질 수 있습니다. 직접 공식 벤치마크 수치를 확인해봤습니다.

에이전트 종합 벤치마크인 Tau2-all에서 Solar Pro 3는 72.3점을 기록했습니다. Solar Pro 2는 36.0점이었습니다. 정확히 2배입니다. (출처: Upstage 공식 블로그 KO, 2026.03.24) 코딩 에이전트 SWE Bench에서도 28.6 vs 14.5로 같은 비율이 나옵니다.

💡 기존 LLM 관련 글에서 보통 놓치는 부분이 있습니다.
대부분은 “점수가 올랐다”에서 멈추는데, 이 성능 향상이 어떤 실패를 고치는 방향인지를 같이 보면 의미가 달라집니다. Upstage 공식 문서에 직접 이렇게 나옵니다: “개별 도구 호출은 성공하지만 전체 워크플로우를 완주하지 못하는 문제”를 해결하는 방향으로 개발됐다고. 도구 하나하나 쓰는 건 되는데, 5단계짜리 업무를 끝까지 완수하지 못하는 문제였습니다. 지금까지 AI 에이전트를 써봤다면 공감할 겁니다.

Terminal Bench 2 수치를 보면 더 극적입니다. Solar Pro 2의 2.2점에서 Solar Pro 3는 10.1점으로 올랐습니다. 터미널 기반 복합 워크플로우 처리 능력이 약 4.6배 향상된 셈입니다. 개발 환경에서 CLI 기반 자동화를 돌릴 때 체감 차이가 가장 크게 나올 지점입니다.

벤치마크	Solar Pro 2	Solar Pro 3	변화
Tau2-all (에이전트 종합)	36.0	72.3	+100%
SWE Bench (코딩 에이전트)	14.5	28.6	+97%
Terminal Bench 2	2.2	10.1	+359%
Ko-Arena-hard-v2 (한국어)	66.6	78.2	+17.4%

※ 출처: Upstage 공식 블로그 KO (https://www.upstage.ai/blog/ko/solar-pro-3-0323), 2026.03.24 기준

▲ 목차로 돌아가기

한국어가 유독 잘 되는 구조적인 이유가 있습니다

솔라 프로 3의 한국어 성능이 좋다는 말은 자주 나오는데, 왜 좋은지를 설명하는 글은 거의 없습니다. 공식 기술 리포트에서 직접 확인한 내용입니다.

한국어는 전 세계 인덱싱된 웹 콘텐츠 중 0.8%를 차지합니다. FineWeb 2 기준 바이트 수로는 17위입니다. (출처: arXiv Solar Open Technical Report 2601.07022, 2026.01.05) 데이터 부족 언어입니다. 대부분의 글로벌 LLM이 한국어를 처리할 때 내부적으로 효율이 떨어지는 이유가 여기 있습니다.

💡 토크나이저 효율 수치를 공식 리포트에서 찾았을 때 예상보다 차이가 컸습니다.
Solar Open 기술 리포트 실측 데이터 기준: 한국어 비추론 응답에서 Solar Open이 토큰당 4.69 바이트를 처리합니다. GPT-oss-120b는 3.45 바이트, DeepSeek V3는 3.19 바이트입니다. Solar Open이 GPT-oss-120b 대비 36%, DeepSeek V3 대비 47% 더 효율적입니다. 같은 텍스트를 훨씬 적은 토큰으로 처리한다는 뜻이고, API 비용과 컨텍스트 창 활용도에 직결됩니다.

토크나이저 어휘 크기도 196,608개로 설계됐습니다. 일반적인 글로벌 모델보다 상당히 큰 어휘입니다. 한국어를 Byte-level 폴백(fallback)에 의존하지 않고 독립 토큰으로 처리할 수 있도록 설계한 결과입니다. 실질적으로는 같은 문장을 처리할 때 토큰 수가 줄어들고, 컨텍스트 창을 더 효율적으로 쓸 수 있습니다.

또 프리트레이닝 데이터를 직접 살펴보면 전체 19.7조 토큰 중 한국어 데이터는 1.1조 토큰이 포함됐고, 여기에 4.5조 토큰의 합성 데이터를 별도로 생성해 데이터 부족을 보완했습니다. 단순히 “한국어를 포함했다”는 수준이 아닌 한국어에 특화된 커리큘럼이 적용됐습니다.

▲ 목차로 돌아가기

SnapPO가 뭔지 모르면 성능 향상의 절반을 놓칩니다

솔라 프로 3의 성능 향상을 단순히 “모델이 커졌다”로 이해하면 절반만 이해한 겁니다. 핵심은 강화학습 프레임워크 SnapPO(Snapshot Policy Optimization)입니다.

기존 온라인 강화학습의 문제는 데이터 생성·보상 계산·모델 업데이트 세 단계가 너무 강하게 묶여 있다는 점입니다. 수학, 코드, 에이전트 워크플로우처럼 서로 다른 목적을 동시에 학습시키려면 인프라를 매번 새로 설계해야 했습니다. SnapPO는 이 세 단계를 독립적으로 실행하고 중간 결과를 캐싱하는 방식으로 분리했습니다. (출처: arXiv Solar Open Technical Report 2601.07022, 2026.01.05)

💡 강화학습 관련 글들이 대부분 “RL을 썼다”에서 끝나는데, 실제 개발 비용을 따져보면 다른 그림이 나옵니다.
SnapPO의 분리 구조 덕분에 수학 추론, 코딩 능력, 한국어 에이전트 워크플로우를 별도 인프라 재설계 없이 동시에 강화할 수 있었습니다. 단순히 점수가 올라간 게 아니라, 여러 도메인을 한 번에 개선하는 방식 자체를 바꾼 겁니다. 경시대회급 수학(HMMT 2026, AIME 2026)과 대학원 과학(GPQA-Diamond)에서 동시에 성능이 올라간 것이 이 프레임워크 덕입니다.

실용적으로 이게 의미하는 바는, 수학 추론이 좋아진 모델이 에이전트 워크플로우도 동시에 좋아지는 구조입니다. 멀티스텝 사고 능력이 공통 기반이기 때문입니다. 공식 블로그에 직접 이렇게 나옵니다: “에이전트 워크플로우와 수학·과학 벤치마크가 요구하는 인지적 조건이 유사하다”고. 따로 학습한 게 아니라 같은 추론 능력이 두 영역 모두에 작용하는 겁니다.

▲ 목차로 돌아가기

지금 당장 쓸 수 있는 방법 — OpenRouter와 API

솔라 프로 3는 두 가지 경로로 바로 접근할 수 있습니다. 기존 Solar Pro 2 사용자라면 별도 코드 수정 없이 전환이 됩니다.

① Upstage Console API

console.upstage.ai에서 API 키를 발급받고, OpenAI SDK와 동일한 형식으로 호출 가능합니다. base_url만 https://api.upstage.ai/v1로 바꾸면 됩니다. 모델 ID는 solar-pro-3입니다.

② OpenRouter

openrouter.ai에서 upstage/solar-pro-3로 접근 가능합니다. 공식 발표에 따르면 출시 이후 수십억 토큰이 OpenRouter를 통해 이미 처리됐습니다. (출처: Upstage 공식 블로그 KO, 2026.03.24) 기존에 OpenRouter를 쓰고 있다면 모델 ID 하나만 바꾸면 됩니다.

💬 실제 사용 시 체크할 점

컨텍스트 창은 100K 토큰 지원 (Solar Open 기술 리포트 기준, 학습 시 100K 시퀀스 길이 적용)
도구 호출(Tool Use) 100% JSON 스키마 준수 — 에이전트 파이프라인 연결 시 안정적
Solar Pro 2와 동일한 API 인터페이스 — 기존 프롬프트 그대로 사용 가능
비용은 Upstage 공식 pricing 페이지에서 크레딧 기반으로 확인 필요 (월 $100+ 선불 시 10% 보너스 크레딧)

학교·병원·비영리 기관에 한해 Solar Pro와 Document Parse를 최대 1년 무료 제공하는 ‘AI Initiative’ 프로그램도 운영 중입니다. (출처: Upstage 공식 pricing 페이지) 해당 기관이라면 먼저 확인해볼 만합니다.

▲ 목차로 돌아가기

그래서 GPT-4o나 Claude 대신 쓸 만한가요?

솔직하게 말하면, 모든 상황에서 대체하는 건 아닙니다. 하지만 특정 조건에서는 더 나은 선택지가 됩니다.

한국어 에이전트 워크플로우가 핵심 사용 목적이라면, 솔라 프로 3는 설계 철학 자체가 이쪽을 향해 있습니다. GPT나 Claude는 영어 중심 설계입니다. 한국어 토크나이저 효율에서 36~47%의 차이가 실제 처리 비용과 컨텍스트 창 활용에 직접 영향을 줍니다. 장문의 한국어 문서를 다루는 에이전트 파이프라인이라면 이 차이가 실질적입니다.

반면 주의할 점도 있습니다. SWE Bench 28.6점은 괜찮은 수치지만, 코딩 전문 에이전트 분야에서 현재 최상위권 모델들의 점수와는 아직 거리가 있습니다. Claude Code나 GPT-4o의 코딩 집중 태스크 성능과 직접 비교했을 때, 영어 코딩 중심 업무라면 여전히 글로벌 모델이 유리한 경우도 있습니다. Upstage가 공식 답변을 내놓지 않은 멀티모달 지원 범위도 체크가 필요합니다.

💡 비용 대비 성능을 계산할 때 토크나이저 효율까지 반영하면 달라집니다.
한국어 비추론 응답에서 Solar Open이 GPT-oss-120b 대비 36% 더 많은 정보를 같은 토큰 수에 담습니다. 같은 API 비용으로 더 많은 한국어 컨텍스트를 처리할 수 있다는 뜻입니다. 이 계산을 대부분의 LLM 비교 글에서는 다루지 않습니다.

결론부터 말씀드리면, 한국어 기반 에이전트 자동화, 법률·금융·의료 등 도메인 특화 한국어 처리, MoE 아키텍처 덕에 비용 효율이 중요한 프로덕션 환경이라면 지금 테스트해볼 가치가 있습니다.

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q1. Solar Pro 2를 쓰고 있는데, 코드 변경 없이 Pro 3로 전환할 수 있나요?

네, 가능합니다. Upstage 공식 블로그에 “기존 Solar Pro 2 사용자라면 별도 설정 변경 없이 전환할 수 있습니다”라고 직접 나와 있습니다. API 인터페이스와 TPS가 동일하게 유지됩니다. 모델 ID만 solar-pro-3으로 바꾸면 됩니다.

Q2. 102B 모델인데 API 비용이 Pro 2보다 높아지지 않나요?

MoE 구조 덕에 추론 시 12B 파라미터만 활성화됩니다. 비용과 TPS는 Solar Pro 2와 동일하게 유지된다고 Upstage가 공식 발표했습니다. (출처: Upstage 공식 블로그 KO, 2026.03.24) 정확한 단가는 console.upstage.ai/pricing에서 확인하세요.

Q3. SnapPO는 오픈소스인가요? 직접 파인튜닝에 활용할 수 있나요?

SnapPO는 Upstage의 자체 강화학습 프레임워크입니다. 상세 설계와 학습 방법은 arXiv에 공개된 Solar Open 기술 리포트(2601.07022)에 나와 있습니다. 다만, 프레임워크 자체를 외부에 오픈소스로 배포하는지 여부는 현재 공식 문서에서 별도로 밝히지 않았습니다.

Q4. 컨텍스트 창이 얼마나 되나요?

Solar Open 기술 리포트 기준 사전 학습 단계에서 100K 시퀀스 길이까지 학습이 이뤄졌습니다. Solar Pro 2의 공개 스펙이 64K 토큰이었던 것과 비교하면 상당한 확장입니다. API 공식 문서에서 실서비스 컨텍스트 창 제한을 별도로 확인하는 것을 권장합니다.

Q5. 멀티모달(이미지·오디오) 기능도 지원하나요?

공식 발표 내용은 텍스트 기반 LLM 중심이었습니다. 이미지·오디오 등 멀티모달 지원 여부에 대해서는 현재 공개된 공식 문서에서 구체적인 내용이 나오지 않았습니다. Upstage는 문서 처리(Document Parse) 등 별도 멀티모달 서비스를 운영하고 있으므로 필요하다면 해당 서비스를 함께 확인하는 게 맞습니다.

▲ 목차로 돌아가기

마치며 — 총평

솔라 프로 3는 숫자 자체가 오해를 만들기 좋은 모델입니다. 102B라는 총 파라미터만 보면 “무겁고 비싸겠다”는 인상을 줍니다. 그런데 실제로는 MoE 구조 덕에 12B급 추론 비용으로 돌아갑니다. 이 부분만 제대로 이해해도 도입 여부 판단이 달라집니다.

한국어 에이전트 워크플로우를 만드는 팀이라면, 글로벌 모델과의 경쟁에서 토크나이저 효율이라는 지점이 실질적인 차별점이 됩니다. GPT 계열이 한국어를 처리할 때 쓰는 토큰 수와 Solar 모델이 쓰는 토큰 수는 구조적으로 다릅니다. 이 부분이 비용 계산에서 빠지면 실제 운영 단계에서 예상 밖의 결과를 만납니다.

개인적으로는, 국산 AI 모델이 글로벌 LLM과 기술 구조 차원에서 견줄 수 있는 설계를 갖추기 시작했다는 점이 이번 업데이트에서 가장 눈에 띄었습니다. 아직 모든 벤치마크에서 1위는 아니지만, 한국어 중심 에이전트 파이프라인이라는 특정 조건에서는 굳이 더 비싼 글로벌 모델을 택할 이유가 줄어들고 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Upstage 공식 블로그 KO — Solar Pro 3 공식 발표문
https://www.upstage.ai/blog/ko/solar-pro-3-0323
arXiv Solar Open Technical Report (2601.07022, 2026.01.05)
https://arxiv.org/html/2601.07022v1
전자신문 — 업스테이지, 에이전틱 AI 입힌 ‘솔라 프로3’ 공개 (2026.03.24)
https://www.etnews.com/20260324000153
Upstage Console 공식 문서 — Solar Pro 3 모델 사양
https://console.upstage.ai/docs/models/solar-pro-3
OpenRouter — Solar Pro 3 모델 페이지
https://openrouter.ai/upstage/solar-pro-3

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 시점(2026.03.30) 기준이며, Upstage 공식 문서 원문을 통해 최신 내용을 확인하시기 바랍니다. API 가격 및 요금제는 Upstage 공식 pricing 페이지에서 별도 확인이 필요합니다.

솔라 프로 3, 102B라는 숫자가
착각을 만들고 있습니다

102B라고 쓰고 12B라고 읽어야 하는 이유

에이전트 성능 2배, 어디서 어떻게 나온 수치인가

한국어가 유독 잘 되는 구조적인 이유가 있습니다

SnapPO가 뭔지 모르면 성능 향상의 절반을 놓칩니다

지금 당장 쓸 수 있는 방법 — OpenRouter와 API

① Upstage Console API

② OpenRouter

그래서 GPT-4o나 Claude 대신 쓸 만한가요?

Q&A — 자주 나오는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

솔라 프로 3, 102B라는 숫자가 착각을 만들고 있습니다

102B라고 쓰고 12B라고 읽어야 하는 이유

에이전트 성능 2배, 어디서 어떻게 나온 수치인가

한국어가 유독 잘 되는 구조적인 이유가 있습니다

SnapPO가 뭔지 모르면 성능 향상의 절반을 놓칩니다

지금 당장 쓸 수 있는 방법 — OpenRouter와 API

① Upstage Console API

② OpenRouter

그래서 GPT-4o나 Claude 대신 쓸 만한가요?

Q&A — 자주 나오는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기