GPT-4o mini 파인튜닝, 쓸수록 더 나오는 비용 구조

Published on

in

GPT-4o mini 파인튜닝, 쓸수록 더 나오는 비용 구조

2026.04.24 기준 · OpenAI API 공식 가격 기준

GPT-4o mini 파인튜닝은 저렴하다”는 말이 맞습니다 — 학습을 돌리는 순간까지는요. 막상 만들어진 모델을 호출하기 시작하면 기본 모델보다 추론 비용이 2배 올라갑니다. 공식 가격 페이지에 그대로 나와 있는 내용인데, 이 구조를 모르고 프로덕션에 올렸다가 청구서를 받고 당황하는 사례가 꽤 있습니다.

학습 비용
$3.00 / 1M 토큰
GPT-4o mini 파인튜닝
추론 입력 비용
$0.30 / 1M 토큰
기본 모델 대비 2배
RFT 학습
$100 / 시간
o4-mini 기준

파인튜닝 비용, 학습이 전부가 아닙니다

문제는 그다음입니다. 파인튜닝된 모델을 실제 서비스에서 호출할 때 적용되는 추론 비용은 기본 GPT-4o mini와 다릅니다. OpenAI 공식 가격 페이지에는 파인튜닝 완료 후 추론에 대해 입력 $0.30 / 1M 토큰, 출력 $1.20 / 1M 토큰이 명시돼 있습니다. (출처: OpenAI API Pricing, 2026.04 기준) 기본 모델 요금인 입력 $0.15, 출력 $0.60과 비교하면 정확히 2배입니다.

학습을 한 번 돌리는 건 저렴하지만, 만들어진 모델을 매일 쓰면 비용이 기본 모델 대비 계속 2배로 누적됩니다.

공식 가격표로 본 3단계 비용 구조

단계 항목 비용 비고
① 학습 Training 토큰 $3.00 / 1M GPT-4o mini 기준
② 추론(입력) Fine-tuned 입력 토큰 $0.30 / 1M 기본 모델의 2배
② 추론(출력) Fine-tuned 출력 토큰 $1.20 / 1M 기본 모델의 2배
③ 캐시 입력 Cached input $0.15 / 1M 캐싱 적용 시
참고 기본 GPT-4o mini 입력 $0.15 / 1M 파인튜닝 없이 사용 시

출처: OpenAI API Pricing (2026.04 기준)

실제로 계산해보면 이렇게 나옵니다

구체적인 숫자로 확인해보겠습니다. 하루 요청이 1만 건이고, 요청당 평균 400 토큰 입력 / 400 토큰 출력이라고 가정합니다. 한 달 30일 기준입니다.

💡 공식 가격과 실제 사용량을 같이 놓고 보니 이런 차이가 보였습니다
기본 GPT-4o mini 월 추론 비용:
입력: 10,000건 × 400토큰 × 30일 = 120,000,000 토큰 → $0.15 × 120 = $18.00
출력: 동일 규모 → $0.60 × 120 = $72.00
월 합계: $90.00
파인튜닝된 GPT-4o mini 월 추론 비용:
입력: $0.30 × 120 = $36.00
출력: $1.20 × 120 = $144.00
월 합계: $180.00
→ 월 추론 비용 차이: $90 추가 발생. 연간으로 환산하면 $1,080 더 나옵니다.

학습 비용($0.90)은 단 한 번만 내지만, 추론 비용 차이는 서비스가 살아 있는 한 매달 누적됩니다. 요청량이 많을수록 이 격차는 더 벌어집니다.

파인튜닝이 “시스템 프롬프트를 줄여서 비용을 절감한다”는 주장이 있습니다. 400토큰짜리 시스템 프롬프트를 제거해 요청당 입력 토큰이 줄어들면 절감이 되는 건 맞습니다. 하지만 파인튜닝 모델의 입력 단가 자체가 2배이기 때문에, 시스템 프롬프트가 절반 이상이 아니면 오히려 더 비쌉니다. (출처: pricepertoken.com/fine-tuning, 2026.02 기준)

2026년 4월 현재, 파인튜닝을 새로 시작하려는 상황이라면 GPT-4o mini보다 GPT-4.1 mini를 먼저 확인해볼 필요가 있습니다. OpenAI 공식 가격표에서 파인튜닝 후 추론 기준으로 두 모델을 비교하면 숫자 차이가 꽤 납니다. (출처: OpenAI API Pricing, 2026.04 기준)

항목 GPT-4o mini (FT) GPT-4.1 mini (FT)
학습 비용 (1M 토큰) $3.00 $3.20(학습) / 추론↓
추론 입력 (1M 토큰) $0.30 $0.80 → 기본 $0.40
추론 출력 (1M 토큰) $1.20 $3.20 → 기본 $1.60
기본 모델 대비 추론 배율 × 2.0배 × 2.0배
💡 가격표와 실제 사용 흐름을 함께 보니 이런 차이가 나왔습니다

솔직히 말하면, 지금 시점에서 GPT-4o mini 파인튜닝을 새로 시작하려는 분이라면 GPT-4.1 mini와 비용·성능을 모두 테스트해보는 게 낫습니다. OpenAI가 4.1 라인을 밀고 있고, 4o mini는 사실상 구형 포지션으로 밀려가고 있습니다.

RFT(강화 파인튜닝)는 아예 구조가 다릅니다

시간제 과금이라는 점을 먼저 알아야 합니다

일반 지도학습(SFT) 기반 파인튜닝과 달리, 강화 파인튜닝(Reinforcement Fine-Tuning, RFT)은 완전히 다른 과금 방식을 씁니다. 현재 RFT API는 o4-mini-2025-04-16 모델만 지원하며, 학습에 소요된 실제 시간(wall-clock time) 기준으로 시간당 $100이 청구됩니다. (출처: OpenAI Help Center, Billing guide for the Reinforcement Fine-Tuning API)

여기서 중요한 부분이 있습니다. 전체 작업 시간 중 데이터 검증, 대기열 대기, 모델 가중치 다운로드, 안전 평가 시간은 청구되지 않습니다. 실제 핵심 학습 루프에서 소비된 시간만 과금됩니다. OpenAI 공식 문서에 나온 예시를 보면, 전체 6시간짜리 작업에서 청구된 시간은 4시간뿐이었고 비용은 $400이었습니다. 이 말은 작업을 돌려놓고 오래 기다렸다고 해서 그 시간 전체를 다 내는 게 아니라는 뜻입니다.

실패한 작업에는 체크포인트까지만 청구됩니다

RFT 작업이 중간에 실패하면 마지막 체크포인트 저장 시점까지의 학습 시간만 비용이 나옵니다. 2시간 학습 후 체크포인트를 저장하고 이후 1시간 더 돌다가 실패하면, 청구 금액은 $200입니다. 실패로 날아간 1시간은 과금되지 않습니다. (출처: OpenAI Help Center, Billing guide for the Reinforcement Fine-Tuning API)

RFT와 일반 파인튜닝 중 무엇을 선택할지는 태스크 성격에 달려 있습니다. 결과물의 정답·오답이 명확하게 평가될 수 있는 도메인(수학, 코드, 사실 확인 등)이라면 RFT가 강력하고, 그렇지 않으면 SFT가 현실적입니다.

데이터 공유하면 추론 비용 50% 깎이는 조건

RFT(강화 파인튜닝) 작업을 만들 때 데이터 공유(data sharing) 옵션을 활성화하면, 완성된 모델의 추론 요금이 절반으로 내려갑니다. 공식 가격표에 이렇게 나와 있습니다.

모델 학습비 추론 입력 추론 출력
o4-mini (표준) $100/시간 $4.00/1M $16.00/1M
o4-mini + 데이터 공유 $100/시간 $2.00/1M $8.00/1M

출처: OpenAI API Pricing (2026.04 기준)

학습 비용은 동일하지만 추론 입력·출력이 각각 50% 낮아집니다. RFT로 만든 모델을 프로덕션에서 많이 호출할 계획이라면 이 옵션이 장기 비용을 크게 낮춥니다.

💡 공식 발표문과 실제 과금 흐름을 같이 놓고 보니 이런 차이가 보였습니다
데이터 공유 옵션은 파인튜닝 잡을 생성할 때 API 파라미터로 한 번 설정하면 됩니다. 이후에 소급 적용은 안 됩니다. 또한 공유된 데이터는 OpenAI의 모델 개선에 활용될 수 있어, 기업 내부 데이터나 개인정보가 포함된 학습셋이라면 정책을 먼저 확인해야 합니다. (출처: OpenAI Help Center, Sharing feedback and fine-tuning data)

민감하지 않은 도메인 데이터를 쓰는 프로젝트라면 데이터 공유를 처음부터 켜두는 게 낫습니다. 나중에 잡을 다시 만들면 학습 비용을 한 번 더 내야 합니다.

Q&A

Q. GPT-4o mini 파인튜닝 최소 예제 수는 몇 개인가요?
A. OpenAI는 최소 10개를 기술적 하한선으로 정해두고 있습니다. 다만 실제로 의미 있는 성능 차이를 얻으려면 50개 이상, 복잡한 도메인이라면 500~1,000개를 권장합니다. 예제가 너무 적으면 학습은 완료되더라도 과적합이 생겨서 일반화 성능이 떨어질 수 있습니다. (출처: Azure OpenAI Fine-tune Tutorial, OpenAI Developer Community)
Q. 파인튜닝된 모델은 별도 스토리지 요금이 있나요?
A. OpenAI 기준으로 파인튜닝된 모델 자체의 호스팅·스토리지는 과금되지 않습니다. 학습에 업로드한 파일(데이터셋)은 File Search 스토리지 기준으로 1GB 초과 시 GB당 하루 $0.10이 발생할 수 있습니다. 모델을 사용하지 않더라도 잡 파일이 남아 있으면 소량의 요금이 생길 수 있으니, 쓰지 않는 파일은 삭제하는 게 깔끔합니다. (출처: OpenAI API Pricing, 2026.04 기준)
Q. 배치(Batch) API로 파인튜닝 추론 비용을 줄일 수 있나요?
A. 네, Batch API를 사용하면 파인튜닝된 모델 추론에도 약 50% 할인이 적용됩니다. 실시간 응답이 필요 없는 배치 처리 작업이라면, 파인튜닝 모델의 높은 추론 단가를 상당 부분 상쇄할 수 있습니다. 단, 완료 시간이 24시간까지 걸릴 수 있으므로 지연이 허용되는 워크플로우에서만 유효합니다.
Q. Gemini 2.0 Flash 파인튜닝과 비교하면 어느 쪽이 저렴한가요?
A. 학습 비용 기준으로는 두 모델 모두 $3.00 / 1M 토큰으로 동일합니다. 그런데 결정적인 차이가 있습니다. Google은 파인튜닝된 Gemini 모델의 추론 비용을 기본 모델과 동일하게 유지합니다. OpenAI처럼 파인튜닝 후 추론 단가가 2배로 올라가지 않습니다. 장기적으로 추론 볼륨이 높은 프로젝트라면 Google이 유리해질 수 있습니다. (출처: pricepertoken.com/fine-tuning, 2026.02 기준)
Q. 파인튜닝 없이 프롬프트 엔지니어링으로 충분한 경우는 언제인가요?
A. 요청량이 하루 수천 건 미만이거나, 태스크가 자주 바뀌거나, 아직 프로토타입 단계라면 프롬프트 엔지니어링이 훨씬 현실적입니다. 파인튜닝은 초기 학습 비용보다 이후 추론 비용 구조가 더 무거울 수 있어서, 실제 요청 볼륨을 예측하고 손익분기를 계산한 뒤 결정하는 게 맞습니다. 하루 1만 건 이상, 시스템 프롬프트가 400토큰 이상일 때부터 파인튜닝이 의미 있는 절감을 만들 수 있습니다.

마치며

2026년 4월 현재 추가로 확인할 포인트는 두 가지입니다. 새로 파인튜닝을 시작한다면 GPT-4.1 mini도 같이 비교해볼 것, 그리고 RFT를 쓴다면 데이터 공유 옵션을 처음부터 켜두면 추론 비용이 50% 낮아진다는 점입니다.

파인튜닝의 비용 효율은 학습 비용이 아니라 얼마나 많이 호출하느냐에 달려 있습니다. 볼륨이 낮다면 기본 모델 + 잘 만든 시스템 프롬프트가 훨씬 유리합니다.

본 포스팅 참고 자료

  1. OpenAI 공식 API 가격 페이지 (2026.04 기준)
  2. OpenAI API Docs — Pricing 상세 테이블
  3. OpenAI Help Center — RFT API 청구 가이드
  4. pricepertoken.com — LLM Fine-Tuning Pricing 2026 비교

본 포스팅 작성 이후 서비스 정책·가격·기능이 변경될 수 있습니다. 최신 요금은 OpenAI 공식 가격 페이지에서 반드시 재확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기