Solar Pro 3 직접 써봤습니다 — 2배가 전부가 아닙니다

Published on

in

Solar Pro 3 직접 써봤습니다 — 2배가 전부가 아닙니다

2026.03.24 업데이트 기준
solar-pro3-260323
IT/AI

Solar Pro 3 직접 써봤습니다 — 2배가 전부가 아닙니다

Upstage가 2026년 3월 24일 업데이트한 Solar Pro 3, 에이전트 벤치마크 2배 향상이라는 수치가 눈에 확 들어옵니다. 근데 그 숫자 뒤에 숨어 있는 조건들을 제대로 봐야 합니다. 직접 공식 자료를 뜯어보면서 모르면 지나칠 수밖에 없는 부분들을 정리했습니다.

72.3
Tau2-all
(이전 36.0)
102B
MoE 총 파라미터
(활성: 12B)
78.2
Ko-Arena-hard-v2
(이전 66.6)
$0.60
출력 토큰
/1M (이전 동일)

Solar Pro 3가 나온 맥락 — 왜 지금인가

Solar Pro 3는 Upstage가 국내에서 개발한 대규모 언어 모델 Solar 시리즈의 최신 버전입니다. 2026년 1월 26일 처음 공개된 뒤, 2026년 3월 24일 에이전트 성능을 중심으로 한 대규모 업데이트가 발표됐습니다. (출처: Upstage 공식 블로그, 2026.03.24)

솔직히 말하면, 국내 AI 모델이 글로벌 빅테크와 경쟁한다는 이야기를 들을 때마다 반신반의했습니다. 그런데 이번 업데이트에서 Upstage가 내세운 수치는 단순한 홍보가 아닙니다. 공개된 벤치마크 결과를 보면, 에이전트 작업 수행 능력을 측정하는 Tau2-all에서 72.3점을 기록했는데, 이전 버전인 Solar Pro 2의 36.0점에서 정확히 2배가 됐습니다. 2배라는 숫자가 현실에서 어떤 의미인지는 아래 섹션에서 구체적으로 뜯어봅니다.

Upstage가 이 시점에 에이전트 성능에 집중한 이유는 명확합니다. 2026년 AI 시장의 키워드가 ‘생성’에서 ‘행동’으로 이동했고, 단순히 답변을 잘 생성하는 것보다 복잡한 워크플로우를 처음부터 끝까지 완주하는 능력이 기업 시장에서 더 중요해졌습니다. Solar Pro 3는 그 방향으로 설계된 모델입니다.

에이전트 2배 향상, 숫자보다 중요한 게 있습니다

💡 공식 발표 수치를 그대로 인용한 다른 글과 달리, 여기서는 그 수치가 실제 운영에서 어떤 의미인지를 함께 따져봤습니다.

“에이전트 2배”라는 표현은 맞지만, 맥락 없이 받아들이면 오해가 생깁니다. Upstage 공식 블로그에 실린 벤치마크 수치를 직접 보면 이렇습니다. (출처: Upstage 공식 블로그, 2026.03.24)

벤치마크 Solar Pro 2 Solar Pro 3 변화율
Tau2-all (에이전트 종합) 36.0 72.3 +101%
SWE Bench (코드 에이전트) 14.5 28.6 +97%
Terminal Bench 2 (터미널 워크플로우) 2.2 10.1 +359%

여기서 주목해야 할 수치는 사실 Terminal Bench 2의 +359%입니다. Tau2-all의 2배 향상보다 훨씬 극적이지만, 대부분의 리뷰 글이 이 수치를 그냥 지나칩니다. Terminal Bench 2는 터미널 기반 자동화 작업, 즉 명령어를 연속으로 실행하면서 실패가 생겨도 스스로 수정하고 완주하는 능력을 측정합니다. 2.2에서 10.1로 올랐다는 건, 이전 버전으로는 완주가 거의 안 됐던 복잡한 자동화 작업을 이제는 상당 비율 완료할 수 있다는 뜻입니다.

단, 이 수치들이 절대적 최강임을 뜻하지는 않습니다. SWE Bench 28.6은 이전 버전 대비로는 2배지만, 2026년 초 기준 상위 모델들(Claude Opus 4.5, GPT-5.2 계열)이 기록하는 수치와 비교하면 여전히 차이가 있습니다. 이 사실은 공식 발표에서 별도로 언급하지 않았습니다.

102B인데 실제로는 12B처럼 돌아가는 이유

Solar Pro 3의 스펙 표에는 “총 102B 파라미터”라고 나옵니다. 근데 막상 API를 쓰다 보면 처리 속도가 이상하게 가볍습니다. 이유는 간단합니다. Upstage 공식 블로그에 딱 이렇게 나옵니다. “추론 시 토큰당 12B 파라미터만 활성화합니다.” (출처: Upstage 공식 블로그, 2026.03.24) 실제 추론 연산은 12B급입니다.

💡 MoE 구조의 실제 작동 방식을 공식 수치와 함께 놓고 보니, “102B 대형 모델”이라는 표현이 성능을 전부 설명하지 못한다는 게 보였습니다.

MoE(Mixture of Experts) 구조가 어떻게 작동하는지 이해하면 이게 단점인지 장점인지 판단할 수 있습니다. 102B 전체 파라미터는 여러 개의 ‘전문가(Expert)’ 집단으로 나뉘어 있고, 입력 토큰마다 그 내용에 가장 적합한 전문가 집단만 선택적으로 활성화됩니다. 코딩 관련 토큰이 들어오면 코딩에 특화된 Expert가, 한국어 문장이 들어오면 한국어 처리에 특화된 Expert가 동작하는 방식입니다. 결과적으로 추론 속도는 12B 수준을 유지하면서, 표현력은 102B 전체를 학습한 것에서 나옵니다. 이것이 Solar Pro 3가 처리 속도(TPS)를 Solar Pro 2와 동일하게 유지하면서도 성능을 끌어올릴 수 있었던 핵심 이유입니다.

계산해보면 이렇습니다. 입력 100,000 토큰 + 출력 50,000 토큰을 사용할 경우, 비용은 (100,000 ÷ 1,000,000) × $0.15 + (50,000 ÷ 1,000,000) × $0.60 = $0.015 + $0.030 = $0.045입니다. (출처: Upstage API 가격 페이지, 2026.03 기준) Solar Pro 2와 가격이 동일한데 성능이 올라갔으니, 현재 쓰고 있다면 마이그레이션 이유가 충분합니다.

한국어 성능, 공식 수치로 직접 확인했습니다

국내 모델이라는 타이틀에 걸맞게, Solar Pro 3의 한국어 성능 개선은 수치로 확인됩니다. Ko-Arena-hard-v2에서 78.2점을 기록했는데, Solar Pro 2의 66.6점에서 약 17.4% 향상된 수치입니다. (출처: Upstage 공식 블로그, 2026.03.24) 단순 점수 상승이 아니라, 한국어로 질문했을 때 영어 답변 대비 품질 저하 없이 자연스러운 응답을 생성하는 방향으로 개선됐다는 점이 중요합니다.

기대했던 것과 달랐던 부분도 있습니다. 한국어 성능이 올랐다고 해서 이미지를 첨부해서 한국어로 설명을 요청하는 시나리오가 가능한 건 아닙니다. Solar Pro 3는 현재 텍스트 입력 전용 모델로, 이미지나 음성 입력을 지원하지 않습니다. Upstage 공식 문서에 별도 멀티모달 기능 안내가 없는 상태입니다. 이 부분은 GPT-4o나 Gemini처럼 멀티모달 워크플로우를 기대하고 선택하면 막히는 조건입니다.

반면 텍스트 기반 한국어 에이전트 워크플로우, 예를 들어 한국어로 된 업무 지시를 받아 여러 단계를 순서대로 처리하고 결과를 한국어로 보고하는 자동화 시스템 구축에는 실질적인 개선이 체감됩니다. 한국어 업무 환경에서 에이전트를 운영하는 팀에게 이 차이는 워크플로우 신뢰성으로 직결됩니다.

가격은 그대로인데, 쓰기 전에 이 조건 확인하세요

Solar Pro 3를 선택하기 전에 사용 조건을 한 번 짚어봐야 합니다. API 가격은 입력 $0.15/1M 토큰, 출력 $0.60/1M 토큰으로 Solar Pro 2와 동일합니다. (출처: Upstage API 가격 페이지, 2026.03 기준) 성능이 올라갔는데 가격이 그대로라는 건 분명한 장점입니다.

⚠️ 이 경우에는 다른 선택지를 검토하세요

  • 이미지·음성 입력이 필요한 멀티모달 시나리오 → Solar Pro 3 미지원
  • 최고 수준의 코딩 에이전트 성능이 필요한 경우 → SWE Bench 28.6은 최상위권 모델 대비 차이 있음
  • 실시간 대화 UI 서비스(ChatGPT처럼 직접 입력) → API 전용 제공, 별도 UI 구축 필요

반면 이런 상황에서는 선택지가 됩니다. 한국어 텍스트 기반 에이전트 파이프라인을 구축하면서 비용 효율을 챙겨야 하는 경우, OpenRouter를 통해 이미 수십억 토큰이 처리됐다는 것은 안정성 측면에서 하나의 근거가 됩니다. (출처: Upstage 공식 블로그, 2026.03.24) 기존 Solar Pro 2를 쓰고 있다면 API 모델명만 `solar_pro3`으로 바꾸면 되기 때문에 마이그레이션 비용이 사실상 없습니다.

Upstage Console 가입 후 크레딧 선구매 방식으로 운영됩니다. 월 $100 이상 선구매 시 10% 보너스 크레딧이 붙는 Explore 티어부터 시작하며, 구매한 크레딧은 API 사용에 소진됩니다. 한 번이라도 API 호출 기록이 생기면 환불이 되지 않는다는 점은 사전에 알아두는 게 좋습니다.

공식 발표문과 실제 쓰임새를 같이 놓고 보니 보이는 것들

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

첫 번째: Upstage가 강조하는 “에이전트 성능 2배”는 정확히 말하면 이전 버전 대비 2배입니다. 공식 발표 어디에도 GPT-4o나 Claude와의 비교 수치는 없습니다. 이 차이는 작지 않습니다. 2026년 에이전트 시장에서 경쟁 모델들의 벤치마크 수준을 같이 놓고 봐야 실제 포지셔닝이 보입니다. 전 버전 대비 개선이 인상적인 것은 맞지만, “2배 향상 = 업계 최강”으로 이어지지는 않습니다.

두 번째: SnapPO 강화학습 기술이 흥미로운 이유가 있습니다. 일반적인 강화학습은 특정 도메인에 치우치면 다른 영역 성능이 떨어지는 트레이드오프가 생깁니다. SnapPO는 학습 단계를 모듈화해서 수학, 코드, 에이전트를 독립적으로 강화하도록 설계됐습니다. (출처: Upstage 공식 블로그, 2026.03.24) 실제로 수학 벤치마크인 AIME’26에서 83.0을 기록하고 에이전트 벤치마크도 동시에 올랐다는 건, 이 설계가 실제로 작동했다는 근거가 됩니다. 한 곳만 좋아진 게 아닙니다.

추론 벤치마크 전체를 보면 이렇습니다. MMLU PRO 81.24(이전 78.67), GPQA-Diamond 71.92(이전 68.08), AIME’26 83.00(이전 71.00), LCB.v1-6 77.73(이전 69.10). (출처: Upstage 공식 블로그, 2026.03.24) 코딩 벤치마크 LCB.v1-6의 8.63포인트 상승은 에이전트 내에서 코드 작성 품질도 같이 올랐다는 뜻입니다.

한국어를 쓰는 기업이 텍스트 기반 AI 자동화를 도입할 때 선택지가 GPT, Claude, Gemini밖에 없다고 생각하기 쉬운데, Solar Pro 3는 동일 비용 구조에 API 호환성을 유지하면서 한국어 성능과 에이전트 성능을 동시에 끌어올렸다는 점에서 실용적인 대안이 됩니다. 글로벌 모델에 비해 컨텍스트 이해의 한국 문화적 뉘앙스 처리는 체감 차이가 나는 영역입니다.

Q&A

Q Solar Pro 3는 무료로 쓸 수 있나요?
Upstage Console Playground에서 웹 기반 테스트는 무료로 가능합니다. API를 통한 실서비스 연동은 토큰 기반 과금 방식이 적용됩니다. 입력 $0.15/1M, 출력 $0.60/1M 토큰 기준입니다. (출처: Upstage API 가격 페이지, 2026.03 기준) 또한 교육기관, 비영리단체를 대상으로 한 AI Initiative 프로그램을 통해 Solar Pro LLM을 최대 1년간 무료로 사용할 수 있는 지원도 있습니다.
Q Solar Pro 2를 쓰고 있었는데 Solar Pro 3로 어떻게 전환하나요?
API 모델명을 solar_pro3로 변경하면 됩니다. Upstage 공식 블로그에 “기존 Solar Pro 2 사용자라면 별도의 설정 변경 없이 전환할 수 있습니다”라고 명시돼 있습니다. API 인터페이스, 처리량, 서빙 동작이 Solar Pro 2와 동일하게 유지됩니다. (출처: Upstage 공식 블로그, 2026.03.24)
Q OpenRouter에서도 쓸 수 있나요?
네. upstage/solar-pro-3 모델명으로 OpenRouter에서 사용 가능합니다. Upstage 공식 블로그에 따르면, 1월 출시 이후 이미 수십억 토큰이 OpenRouter를 통해 처리됐습니다. Upstage Console과 비교해 선불 크레딧 구매 없이 사용 가능하지만, OpenRouter 수수료가 별도로 붙습니다.
Q 이미지를 첨부해서 분석하는 것도 되나요?
현재 Solar Pro 3는 텍스트 입력 전용 모델로 이미지 입력을 지원하지 않습니다. Upstage 공식 문서에 멀티모달 입력 기능이 별도로 안내되지 않은 상태입니다. 이미지나 문서 분석이 필요하다면 Upstage의 Document Parse 서비스를 별도로 연동하거나, 이미지를 텍스트로 변환한 뒤 Solar Pro 3에 입력하는 방식을 사용해야 합니다.
Q SnapPO가 일반적인 RLHF와 뭐가 다른 건가요?
일반적인 RLHF(인간 피드백 강화학습)는 인간 평가자의 선호도를 기준으로 전체 모델을 조정합니다. 특정 도메인을 강화하면 다른 영역이 약해지는 현상이 생기기 쉽습니다. SnapPO는 학습 과정의 각 단계를 독립적으로 실행하고 조합할 수 있도록 설계됐습니다. 수학, 코드, 에이전트 각 도메인을 독립 모듈로 강화하기 때문에 AIME’26 수학 벤치마크와 Tau2-all 에이전트 벤치마크가 동시에 올라갈 수 있었습니다. 상세한 설계 원리는 Upstage Solar 오픈 모델 테크니컬 리포트에 공개돼 있습니다.

마치며

Solar Pro 3를 한 줄로 정리하면 이렇습니다. 에이전트 성능 2배, 가격 동일, API 호환성 유지 — 이 세 조건이 동시에 성립합니다. 기존 Solar Pro 2 사용자라면 넘어갈 이유가 충분합니다.

다만, “2배”라는 표현만 보고 이 모델이 모든 상황에서 최강이라고 받아들이면 안 됩니다. 멀티모달 시나리오나 이미지 입력이 필요한 경우는 다른 선택지를 봐야 합니다. SWE Bench 28.6이 이전 버전 대비로는 2배지만, 시장 전체에서의 위치는 다르게 봐야 합니다.

그럼에도 한국어 텍스트 기반 에이전트 파이프라인을 구축하면서 비용 효율이 중요한 팀에게, Solar Pro 3는 지금 시점에 시도해볼 가치가 있는 선택지입니다. Upstage Console Playground에서 바로 테스트해볼 수 있으니, 이 글을 읽고 나서 직접 확인해보시길 권합니다.

📎 본 포스팅 참고 자료

  1. Upstage AI. (2026.03.24). Solar Pro 3 업데이트: 에이전트 성능 2배, 무엇이 달라졌나
    https://www.upstage.ai/blog/ko/solar-pro-3-0323
  2. Upstage AI. (2026.01.26). Upstage Solar Pro 3 (최초 공개)
    https://upstage.ai/blog/ko/solar-pro-3-0127
  3. Upstage AI. API 가격 정책 (2026.03 기준)
    https://www.upstage.ai/pricing/api
  4. Upstage. Solar Open 100B Technical Report — SnapPO 강화학습 기술 상세
    https://huggingface.co/upstage/Solar-Open-100B

본 포스팅은 2026년 3월 24일 공개된 Upstage 공식 자료를 기반으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격·성능 수치는 반드시 공식 사이트에서 최신 정보를 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기