“GPT-4o mini 파인튜닝은 저렴하다”는 말이 맞습니다 — 학습을 돌리는 순간까지는요. 막상 만들어진 모델을 호출하기 시작하면 기본 모델보다 추론 비용이 2배 올라갑니다. 공식 가격 페이지에 그대로 나와 있는 내용인데, 이 구조를 모르고 프로덕션에 올렸다가 청구서를 받고 당황하는 사례가 꽤 있습니다.
파인튜닝 비용, 학습이 전부가 아닙니다
문제는 그다음입니다. 파인튜닝된 모델을 실제 서비스에서 호출할 때 적용되는 추론 비용은 기본 GPT-4o mini와 다릅니다. OpenAI 공식 가격 페이지에는 파인튜닝 완료 후 추론에 대해 입력 $0.30 / 1M 토큰, 출력 $1.20 / 1M 토큰이 명시돼 있습니다. (출처: OpenAI API Pricing, 2026.04 기준) 기본 모델 요금인 입력 $0.15, 출력 $0.60과 비교하면 정확히 2배입니다.
학습을 한 번 돌리는 건 저렴하지만, 만들어진 모델을 매일 쓰면 비용이 기본 모델 대비 계속 2배로 누적됩니다.
공식 가격표로 본 3단계 비용 구조
| 단계 | 항목 | 비용 | 비고 |
|---|---|---|---|
| ① 학습 | Training 토큰 | $3.00 / 1M | GPT-4o mini 기준 |
| ② 추론(입력) | Fine-tuned 입력 토큰 | $0.30 / 1M | 기본 모델의 2배 |
| ② 추론(출력) | Fine-tuned 출력 토큰 | $1.20 / 1M | 기본 모델의 2배 |
| ③ 캐시 입력 | Cached input | $0.15 / 1M | 캐싱 적용 시 |
| 참고 | 기본 GPT-4o mini 입력 | $0.15 / 1M | 파인튜닝 없이 사용 시 |
출처: OpenAI API Pricing (2026.04 기준)
실제로 계산해보면 이렇게 나옵니다
구체적인 숫자로 확인해보겠습니다. 하루 요청이 1만 건이고, 요청당 평균 400 토큰 입력 / 400 토큰 출력이라고 가정합니다. 한 달 30일 기준입니다.
입력: 10,000건 × 400토큰 × 30일 = 120,000,000 토큰 → $0.15 × 120 = $18.00
출력: 동일 규모 → $0.60 × 120 = $72.00
월 합계: $90.00
입력: $0.30 × 120 = $36.00
출력: $1.20 × 120 = $144.00
월 합계: $180.00
학습 비용($0.90)은 단 한 번만 내지만, 추론 비용 차이는 서비스가 살아 있는 한 매달 누적됩니다. 요청량이 많을수록 이 격차는 더 벌어집니다.
파인튜닝이 “시스템 프롬프트를 줄여서 비용을 절감한다”는 주장이 있습니다. 400토큰짜리 시스템 프롬프트를 제거해 요청당 입력 토큰이 줄어들면 절감이 되는 건 맞습니다. 하지만 파인튜닝 모델의 입력 단가 자체가 2배이기 때문에, 시스템 프롬프트가 절반 이상이 아니면 오히려 더 비쌉니다. (출처: pricepertoken.com/fine-tuning, 2026.02 기준)
2026년 4월 현재, 파인튜닝을 새로 시작하려는 상황이라면 GPT-4o mini보다 GPT-4.1 mini를 먼저 확인해볼 필요가 있습니다. OpenAI 공식 가격표에서 파인튜닝 후 추론 기준으로 두 모델을 비교하면 숫자 차이가 꽤 납니다. (출처: OpenAI API Pricing, 2026.04 기준)
| 항목 | GPT-4o mini (FT) | GPT-4.1 mini (FT) |
|---|---|---|
| 학습 비용 (1M 토큰) | $3.00 | $3.20(학습) / 추론↓ |
| 추론 입력 (1M 토큰) | $0.30 | $0.80 → 기본 $0.40 |
| 추론 출력 (1M 토큰) | $1.20 | $3.20 → 기본 $1.60 |
| 기본 모델 대비 추론 배율 | × 2.0배 | × 2.0배 |
솔직히 말하면, 지금 시점에서 GPT-4o mini 파인튜닝을 새로 시작하려는 분이라면 GPT-4.1 mini와 비용·성능을 모두 테스트해보는 게 낫습니다. OpenAI가 4.1 라인을 밀고 있고, 4o mini는 사실상 구형 포지션으로 밀려가고 있습니다.
RFT(강화 파인튜닝)는 아예 구조가 다릅니다
시간제 과금이라는 점을 먼저 알아야 합니다
일반 지도학습(SFT) 기반 파인튜닝과 달리, 강화 파인튜닝(Reinforcement Fine-Tuning, RFT)은 완전히 다른 과금 방식을 씁니다. 현재 RFT API는 o4-mini-2025-04-16 모델만 지원하며, 학습에 소요된 실제 시간(wall-clock time) 기준으로 시간당 $100이 청구됩니다. (출처: OpenAI Help Center, Billing guide for the Reinforcement Fine-Tuning API)
여기서 중요한 부분이 있습니다. 전체 작업 시간 중 데이터 검증, 대기열 대기, 모델 가중치 다운로드, 안전 평가 시간은 청구되지 않습니다. 실제 핵심 학습 루프에서 소비된 시간만 과금됩니다. OpenAI 공식 문서에 나온 예시를 보면, 전체 6시간짜리 작업에서 청구된 시간은 4시간뿐이었고 비용은 $400이었습니다. 이 말은 작업을 돌려놓고 오래 기다렸다고 해서 그 시간 전체를 다 내는 게 아니라는 뜻입니다.
실패한 작업에는 체크포인트까지만 청구됩니다
RFT 작업이 중간에 실패하면 마지막 체크포인트 저장 시점까지의 학습 시간만 비용이 나옵니다. 2시간 학습 후 체크포인트를 저장하고 이후 1시간 더 돌다가 실패하면, 청구 금액은 $200입니다. 실패로 날아간 1시간은 과금되지 않습니다. (출처: OpenAI Help Center, Billing guide for the Reinforcement Fine-Tuning API)
RFT와 일반 파인튜닝 중 무엇을 선택할지는 태스크 성격에 달려 있습니다. 결과물의 정답·오답이 명확하게 평가될 수 있는 도메인(수학, 코드, 사실 확인 등)이라면 RFT가 강력하고, 그렇지 않으면 SFT가 현실적입니다.
데이터 공유하면 추론 비용 50% 깎이는 조건
RFT(강화 파인튜닝) 작업을 만들 때 데이터 공유(data sharing) 옵션을 활성화하면, 완성된 모델의 추론 요금이 절반으로 내려갑니다. 공식 가격표에 이렇게 나와 있습니다.
| 모델 | 학습비 | 추론 입력 | 추론 출력 |
|---|---|---|---|
| o4-mini (표준) | $100/시간 | $4.00/1M | $16.00/1M |
| o4-mini + 데이터 공유 | $100/시간 | $2.00/1M | $8.00/1M |
출처: OpenAI API Pricing (2026.04 기준)
학습 비용은 동일하지만 추론 입력·출력이 각각 50% 낮아집니다. RFT로 만든 모델을 프로덕션에서 많이 호출할 계획이라면 이 옵션이 장기 비용을 크게 낮춥니다.
민감하지 않은 도메인 데이터를 쓰는 프로젝트라면 데이터 공유를 처음부터 켜두는 게 낫습니다. 나중에 잡을 다시 만들면 학습 비용을 한 번 더 내야 합니다.
Q&A
마치며
2026년 4월 현재 추가로 확인할 포인트는 두 가지입니다. 새로 파인튜닝을 시작한다면 GPT-4.1 mini도 같이 비교해볼 것, 그리고 RFT를 쓴다면 데이터 공유 옵션을 처음부터 켜두면 추론 비용이 50% 낮아진다는 점입니다.
파인튜닝의 비용 효율은 학습 비용이 아니라 얼마나 많이 호출하느냐에 달려 있습니다. 볼륨이 낮다면 기본 모델 + 잘 만든 시스템 프롬프트가 훨씬 유리합니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·가격·기능이 변경될 수 있습니다. 최신 요금은 OpenAI 공식 가격 페이지에서 반드시 재확인하세요.

댓글 남기기