GPT-OSS, 8GB VRAM으로 된다고요?

Published on

in

GPT-OSS, 8GB VRAM으로 된다고요?

2025.08.05 공개 기준
gpt-oss-120b / gpt-oss-20b
Apache 2.0 라이선스

GPT-OSS, 8GB VRAM으로 된다고요?

OpenAI가 GPT-2 이후 6년 만에 꺼낸 오픈웨이트 모델, GPT-OSS. 120B라는 숫자를 보고 “내 PC로는 어림도 없겠다”고 생각했다면, 그 판단이 틀렸을 수 있습니다. 공식 발표문과 실제 구동 수치를 같이 놓고 보니 꽤 다른 그림이 나왔습니다.

실제 활성 파라미터
5.1B
120B 중 토큰당 활성
최소 VRAM (CPU-MoE)
5~8GB
RTX 3060Ti급 가능
OpenAI o4-mini 대비 수학
97.9%
AIME 2025 정답률

GPT-OSS란? — OpenAI가 6년 만에 꺼낸 카드

GPT-OSS는 OpenAI가 2025년 8월 5일 공개한 오픈웨이트 언어 모델입니다. GPT-2(2019년) 이후 처음으로 가중치를 공개하는 언어 모델이고, gpt-oss-120b와 gpt-oss-20b 두 가지 크기로 나왔습니다. Apache 2.0 라이선스를 적용해 상업적 사용도 제약 없이 가능합니다. (출처: OpenAI 공식 블로그, 2025.08.05)

여기서 짚어둘 게 하나 있습니다. OpenAI는 이걸 “오픈소스”라고 홍보했지만, 엄밀히는 오픈웨이트(open-weight)입니다. 모델 가중치는 다운로드·파인튜닝이 가능하지만, 학습 데이터셋·학습 코드·아키텍처 세부 내용은 비공개입니다. 마케팅 언어와 실제 사이에 간격이 있다는 걸 먼저 알아두는 게 좋습니다.

훈련 방식은 내부 추론 모델인 o3, o4-mini와 동일한 포스트트레이닝 파이프라인을 적용했고, 추론 노력(reasoning effort)을 낮음·중간·높음 세 단계로 설정할 수 있습니다. Hugging Face에서 바로 다운로드 가능하고, Ollama, LM Studio, vLLM 등 주요 로컬 추론 툴과 전부 호환됩니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — “오픈소스”라는 단어가 학습 코드 공개를 의미하지 않는다는 점, 그래서 커뮤니티 포크·재현 연구가 완전히 자유롭지는 않습니다.

▲ 목차로 돌아가기

120B인데 왜 8GB VRAM으로 돌아가는가

GPT-OSS-120b를 처음 보면 “80GB GPU가 있어야 하는 거 아냐?”라고 생각하기 쉽습니다. OpenAI도 공식 문서에서 “단일 80GB GPU에서 구동 가능하다”고 쓰고 있으니까요. (출처: OpenAI 공식 블로그, 2025.08.05) 그런데 실제로는 RTX 3060Ti 정도 사양에서도 돌아갑니다. 이유가 MoE(Mixture of Experts) 아키텍처에 있습니다.

gpt-oss-120b의 총 파라미터는 117B지만, 토큰 하나를 처리할 때 실제 활성화되는 파라미터는 5.1B뿐입니다. 128개 전문가 집단 중 토큰당 4개만 선택해서 씁니다. 그러니까 연산 관점에서는 5B짜리 모델처럼 동작하는 셈입니다. (출처: OpenAI 공식 모델 카드, 2025.08.05) 120B라는 숫자가 실제 연산 부담을 대변하지 않는다는 게 핵심입니다.

더 나아가서, llama.cpp의 --cpu-moe 옵션을 쓰면 MoE 전문가 레이어를 CPU로 넘기고 Attention 레이어만 GPU에 올릴 수 있습니다. 이 구조로 돌리면 GeekNews 실측 기준 VRAM 5GB에서 초당 18토큰, 8GB에서 초당 25.6토큰이 나옵니다. 단, 시스템 RAM은 최소 64GB, 이상적으로는 96GB가 필요합니다. GPU 리소스가 적어도 RAM이 충분하다면 현실적인 선택지가 됩니다.

📊 구동 환경별 실측 속도 (llama.cpp CPU-MoE 기준)

VRAM 사용 프롬프트 처리 추론 속도 RAM 요건
5GB 122.7 토큰/초 18.0 토큰/초 96GB
8GB 134.4 토큰/초 25.6 토큰/초 64GB
22GB 163.0 토큰/초 30.8 토큰/초 64GB

(출처: GeekNews / llama.cpp CPU-MoE 구동 실측, 2025.08)

▲ 목차로 돌아가기

벤치마크 수치 — o4-mini를 이기는 영역이 있습니다

OpenAI 공식 문서에 따르면 gpt-oss-120b는 경쟁 수학에서 o4-mini를 실제로 앞섭니다. AIME 2025 기준 gpt-oss-120b는 97.9%, o4-mini는 99.5%로 근소한 차이지만, AIME 2024에서는 gpt-oss-120b가 96.6%, o3가 95.2%로 오히려 역전됩니다. (출처: OpenAI 공식 모델 페이지, 2025.08.05) 무료 오픈웨이트 모델이 유료 프론티어 모델의 특정 영역을 넘는다는 건 생각보다 강한 신호입니다.

HealthBench에서도 gpt-oss-120b가 o1, GPT-4o를 넘어섰다고 OpenAI가 직접 밝혔습니다. 이건 단순한 수학 벤치마크와 다르게 실제 의료 관련 질의 응답 품질을 측정한 결과라서, 의료·과학 문서 분석 용도로는 꽤 진지하게 고려할 만합니다.

📊 OpenAI 공식 벤치마크 비교 (2025.08.05 기준)

벤치마크 gpt-oss-120b gpt-oss-20b o3 o4-mini
MMLU 90.0 85.3 93.4 93.0
GPQA Diamond 80.1 71.5 83.3 81.4
AIME 2024 96.6 ▲ 96.0 95.2 98.7
AIME 2025 97.9 98.7 ▲ 98.4 99.5
HLE 19.0 17.3 24.9 17.7

▲ 표시: o3·o4-mini보다 높은 수치 / (출처: openai.com/open-models, 2025.08.05)

▲ 목차로 돌아가기

한국어는 솔직히 아쉽습니다

막상 써보면 다릅니다. OpenAI 공식 문서에 “mostly English, text-only dataset”이라고 명시돼 있습니다. (출처: OpenAI 공식 발표문, 2025.08.05) 영어·STEM·코딩 중심으로 훈련했다는 뜻이고, 한국어는 주 학습 대상이 아니었습니다.

네이버 블로그에 올라온 gpt-oss-20b 직접 구동 테스트에서 수능 언어영역 기출문제 정답률은 100%였지만, ‘짜장면 테스트’로 불리는 한국어 문장 이해 능력 평가에서는 정답과 오답이 반반으로 갈렸습니다. 수학·논리 문제는 강하지만 한국어 미묘한 뉘앙스나 한국 문화 맥락이 필요한 응답은 지금 시점에서 기대치를 낮춰야 합니다. (출처: 네이버 블로그 실사용 후기, 2025.08.07)

창의적 글쓰기도 약점입니다. Reddit r/LocalLLaMA 스레드에서 여러 사용자가 “코딩·수학엔 강하지만 글쓰기·창의성은 엉망”이라고 평가했습니다. 세계 지식도 부족하다는 지적이 반복됩니다. 논리·추론에 최적화된 포스트트레이닝 방식의 부작용으로 보이는 부분입니다.

⚠️ 이런 용도라면 GPT-OSS는 맞지 않습니다

  • 한국어 감성 글쓰기·카피라이팅
  • 한국 시사·문화 관련 최신 정보 조회 (학습 데이터 컷오프: 2024년 4월)
  • 이미지·PDF 파일 분석 (텍스트 전용 모델, 멀티모달 미지원)
  • 일상 대화 챗봇 용도

▲ 목차로 돌아가기

128k 컨텍스트의 함정 — 공식 수치와 실제가 다릅니다

공식 문서에는 128k 컨텍스트를 지원한다고 나옵니다. (출처: OpenAI 공식 모델 카드, 2025.08.05) 그런데 실사용에서는 컨텍스트가 길어질수록 앞부분 내용을 잊어버리는 현상이 보고됩니다. Reddit r/LocalLLaMA에서 2026년 1월에 올라온 스레드에는 “GPT-OSS의 실제 컨텍스트는 공식 128k에도 미치지 못한다”는 평가가 다수 등장했습니다. 숫자가 지원 범위를 보장하지는 않는다는 뜻입니다.

비교 관점에서 보면 차이가 더 도드라집니다. Llama 4 Maverick의 컨텍스트 창은 1,000k 토큰(약 1,500 A4 페이지)으로, GPT-OSS-120b(131k)의 약 7.6배입니다. (출처: Artificial Analysis 모델 비교, 2026.03) 긴 문서를 통째로 처리해야 하는 작업이라면 이 격차가 결정적입니다.

💡 공식 발표문의 “128k”는 아키텍처 설계 최대치입니다. 실제 추론에서 어텐션이 균등하게 작동하지 않아 중간 구간 정보가 희석될 수 있습니다. 긴 문서 전체 처리보다는 핵심 청크를 뽑아 넣는 RAG 방식이 현실적으로 더 안정적입니다.

▲ 목차로 돌아가기

GPT-OSS vs Llama 4 Maverick — 이미지가 필요하면 얘기가 달라집니다

둘 다 오픈웨이트 모델이고 상업 이용이 가능합니다. 그런데 결정적인 차이가 있습니다. Llama 4 Maverick은 이미지 입력을 지원하지만, GPT-OSS는 텍스트 전용입니다. (출처: Artificial Analysis 모델 비교, 2026.03) PDF나 스크린샷을 분석해야 하는 워크플로우라면 GPT-OSS는 처음부터 고려 대상에서 빠집니다.

벤치마크에서는 GPT-OSS-120b가 GPQA, MMLU 기준으로 Llama 4 Maverick을 앞섭니다. 가격도 API 호출 기준 입력 토큰이 Llama 4 Maverick 대비 약 70% 더 저렴합니다. (출처: galaxy.ai 모델 비교, 2026.03) 순수 텍스트 추론·코딩 작업이라면 GPT-OSS가 성능과 비용 양쪽에서 유리하지만, 멀티모달이 필요한 순간 이 비교 자체가 의미 없어집니다.

📊 GPT-OSS-120b vs Llama 4 Maverick 핵심 비교

항목 GPT-OSS-120b Llama 4 Maverick
총 파라미터 117B (활성 5.1B) 402B (활성 17B)
컨텍스트 창 131k 토큰 1,000k 토큰
이미지 입력 ❌ 불가 ✅ 가능
라이선스 Apache 2.0 Llama 4 커뮤니티
GPQA Diamond 80.1 ▲
API 입력 가격 약 70% 저렴 기준

(출처: Artificial Analysis, galaxy.ai 모델 비교 / OpenAI 공식 문서, 2026.03 기준)

▲ 목차로 돌아가기

실제로 써야 할 상황과 피해야 할 상황

GPT-OSS가 가장 빛나는 시나리오는 분명합니다. 데이터가 외부 서버로 나가면 안 되는 환경, 즉 온프레미스·오프라인 인프라에서 추론 모델을 써야 할 때입니다. AI Sweden, Orange, Snowflake가 GPT-OSS 얼리 파트너로 참여한 이유도 여기 있습니다. 내부 데이터를 외부 API로 보내지 않고도 o4-mini 수준에 근접한 추론을 로컬에서 돌릴 수 있다는 것, 이게 핵심 가치입니다. (출처: OpenAI 공식 블로그, 2025.08.05)

코딩 에이전트·수학 솔버·과학 문서 분석처럼 순수 텍스트 기반 추론 작업에서도 비용 효율이 좋습니다. API로 호출할 때 gpt-oss-20b 기준 입력 $0.05/1M 토큰, 출력 $0.16/1M 토큰입니다. GPT-4o(입력 $2.5/1M, 출력 $10/1M) 대비 50배 이상 저렴합니다. (출처: 인프런 클립, GPT-OSS 알아보기, 2025) 토큰 비용이 중요한 고빈도 API 호출 시나리오라면 계산해볼 가치가 있습니다.

반대로 쓰지 말아야 할 상황도 뚜렷합니다. 첫째, 이미지나 PDF를 함께 처리해야 한다면 처음부터 다른 모델을 골라야 합니다. 둘째, 한국어 감성 응답이 중요한 서비스라면 현재 수준의 GPT-OSS는 아직 무리입니다. 셋째, 추론 노력(reasoning effort)을 “high”로 설정하면 응답 속도가 현저히 느려집니다. 낮은 레이턴시가 중요한 실시간 서비스에서는 이 부분을 실측한 후 결정해야 합니다.

💡 API 비용 직접 계산 예시 — RAG 기반 챗봇에 하루 10만 건 질의, 평균 입력 1,000토큰이라면: GPT-4o 기준 월 $7,500, gpt-oss-20b 기준 월 약 $150. 순수 텍스트 추론이라면 50배 차이가 납니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. GPT-OSS와 ChatGPT는 어떻게 다른가요?

ChatGPT는 OpenAI 서버에서 돌아가는 유료 서비스이고, GPT-OSS는 가중치를 직접 다운받아 로컬에서 구동하는 오픈웨이트 모델입니다. GPT-OSS는 사용료가 없지만 하드웨어를 직접 준비해야 하고, 멀티모달(이미지 처리)은 지원하지 않습니다.

Q2. MacBook M-시리즈에서 돌릴 수 있나요?

OpenAI가 Apple Metal 플랫폼용 참조 구현을 공식으로 제공합니다. (출처: OpenAI 공식 블로그, 2025.08.05) gpt-oss-20b는 통합 메모리 16GB 모델(M2 Pro 이상)에서 구동 가능합니다. gpt-oss-120b는 최소 64GB 시스템 RAM 권장이라 MacBook보다는 Mac Studio·Mac Pro 쪽이 현실적입니다.

Q3. 파인튜닝은 어떻게 하나요?

Hugging Face의 gpt-oss-recipes 레포지토리에 공식 파인튜닝 예제가 공개돼 있습니다. NVIDIA의 QAT(양자화 인식 훈련) 방식을 적용하면 FP4 정밀도로도 BF16 대비 성능 손실 없이 파인튜닝이 가능하다는 실험 결과가 있습니다. (출처: NVIDIA 공식 개발자 블로그, 2025.08.29) 일반 SFT부터 QAT까지 단계별 선택이 가능합니다.

Q4. 안전성 문제는 없나요?

OpenAI는 출시 전 악의적 파인튜닝 시나리오(생물학·사이버 보안 데이터 특화)를 직접 실험했고, 고위험 능력 수준에 도달하지 못했다는 결과를 논문으로 공개했습니다. (출처: OpenAI 안전성 연구 논문, 2025.08.05) 다만 오픈웨이트 모델 특성상 릴리스 이후 외부 파인튜닝에 대한 통제는 없습니다. CoT를 직접 사용자에게 노출하지 말라는 공식 가이드라인도 있습니다.

Q5. Ollama로 간단하게 쓸 수 있나요?

출시 당시부터 Ollama와 공식 파트너 관계로 협업했습니다. (출처: OpenAI 공식 블로그, 2025.08.05) ollama pull gpt-oss-20b 형태로 바로 다운로드 가능하고, OpenAI API와 호환되는 Responses API 포맷으로 사용할 수 있습니다.

▲ 목차로 돌아가기

마치며

GPT-OSS는 “OpenAI가 드디어 오픈소스 진영에 합류했다”는 이벤트 그 이상입니다. MoE 아키텍처 덕분에 소비자용 PC에서도 구동 가능한 추론 모델이 생겼고, Apache 2.0 라이선스로 상업 서비스에 그대로 쓸 수 있습니다. API 호출 비용 관점에서도 GPT-4o 대비 50배 이상 차이가 납니다.

그렇다고 만능은 아닙니다. 이미지를 처리할 수 없고, 한국어 응답 품질은 아직 검증이 필요하고, 128k 컨텍스트라고 공식 표기돼 있어도 실제 긴 문서 처리에서 망각 현상이 보고됩니다. 이 세 가지만 미리 알고 들어가도 GPT-OSS를 써야 할 상황과 쓰지 말아야 할 상황을 꽤 정확하게 가릴 수 있습니다.

솔직히 말하면, 순수 텍스트 추론·코딩·수학 작업에서 데이터를 로컬에 묶어두고 싶다면 지금 당장 검토해볼 이유가 충분합니다. 그 외의 용도라면 조금 더 기다리는 게 현실적입니다.

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing gpt-oss (2025.08.05)
  2. OpenAI 공식 오픈모델 페이지
  3. NVIDIA 공식 개발자 블로그 — GPT-OSS QAT 파인튜닝 (2025.08.29)
  4. GeekNews — GPT-OSS-120B 8GB VRAM 구동 실측
  5. Artificial Analysis — GPT-OSS-120b vs Llama 4 Maverick 비교

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치 및 가격 정보는 2026년 3월 25일 기준이며, OpenAI·NVIDIA 공식 채널에서 최신 내용을 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기