GPT-5.4 환각 33% 감소, 공식 수치로 확인했습니다

Published on

2026년 3월 18일

2026.03.05 기준
GPT-5.4 Thinking
OpenAI 공식 발표

“GPT-5.4, 환각이 33% 줄었다”는 말을 보셨을 겁니다. 맞는 말입니다. 그런데 OpenAI 공식 발표문을 직접 읽어보면, 그 수치 바로 옆에 또 다른 숫자가 붙어 있습니다. 개별 주장 기준 33% 감소와 전체 응답 오류 기준 18% 감소 — 둘은 다른 이야기입니다. 어느 쪽이 실무에서 더 중요한지, 공식 원문 수치를 토대로 직접 짚어봤습니다.

33%

개별 주장 오류 감소
(vs GPT-5.2)

18%

전체 응답 내 오류 감소
(공식 원문 수치)

83%

GDPval 전문가 비교
(44개 직종 기준)

33%와 18%, 뭐가 다른 걸까요?

OpenAI가 2026년 3월 5일 공개한 공식 발표문(openai.com/index/introducing-gpt-5-4/)에는 GPT-5.4 환각 감소 수치가 두 가지로 명시돼 있습니다. 하나는 개별 주장(individual claims) 기준 33% 감소, 다른 하나는 전체 응답(full responses) 기준 18% 감소입니다. 대부분의 블로그에서는 33%만 언급하는데, 두 수치는 다른 기준을 측정하기 때문에 의미가 다릅니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

개별 주장 33% 감소는 “하나의 문장 안에 틀린 사실이 들어있을 확률”이 줄었다는 의미입니다. 반면 전체 응답 18% 감소는 “답변 전체에 단 하나의 오류라도 포함될 확률”이 줄었다는 뜻입니다. 긴 보고서를 생성할 때처럼 문장이 많아질수록, 전체 응답 오류 포함 확률은 개별 주장 오류율보다 훨씬 빠르게 높아집니다. 실무에서 완성된 문서를 그대로 제출해야 하는 상황이라면, 18%라는 수치가 더 현실적인 기준입니다.

이 수치들은 OpenAI가 “사용자가 직접 오류를 신고한 프롬프트(de-identified prompts where users flagged factual errors)”를 기반으로 측정한 내부 데이터입니다. 공개된 독립 벤치마크가 아니라는 점도 짚어둘 필요가 있습니다. (출처: OpenAI 공식 블로그, 2026.03.05)

▲ 목차로 돌아가기

GPT-5.4 Pro가 기본형보다 낮은 점수를 받은 벤치마크

▼ GPT-5.4 vs GPT-5.4 Pro 주요 벤치마크 비교 (OpenAI 공식 발표 기준)
벤치마크	GPT-5.4	GPT-5.4 Pro	Pro가 앞서는가
GDPval (전문가 지식 작업)	83.0%	82.0%	❌ 아님
FrontierMath Tier 4 (고난도 수학)	27.1%	38.0%	✅ 맞음
ARC-AGI-2 (추상 추론)	73.3%	83.3%	✅ 맞음
Investment Banking Modeling (내부)	87.3%	83.6%	❌ 아님
BrowseComp (웹 검색)	82.7%	89.3%	✅ 맞음

실제 직장에서 일어나는 지식 작업 전반(GDPval)과 금융 모델링(투자은행 벤치마크) 같은 실무 중심 평가에서는 기본형이 오히려 Pro를 앞섭니다. Pro의 강점은 고난도 수학, 추상 추론, 웹 검색처럼 복잡성이 극단적으로 높아지는 영역에 집중돼 있습니다. Pro 요금을 쓸 이유가 분명한 사람은 그 영역에 해당하는 사람입니다. (출처: OpenAI 공식 발표문, 2026.03.05)

▲ 목차로 돌아가기

1M 토큰 쓰면 요금이 2배로 올라갑니다

⚠️ 공식 발표문 원문

“Requests that exceed the standard 272K context window count against usage limits at 2x the normal rate.” — OpenAI 공식 발표문, 2026.03.05

계산해 보면 이렇습니다. API에서 gpt-5.4의 표준 입력 단가는 $2.50/1M tokens입니다. 272K를 초과하는 구간에서는 사실상 $5.00/1M tokens로 올라갑니다. 100만 토큰 전체를 채운다면 표준 단가 기준 $2.50이어야 할 비용이 약 $4.39 수준으로 높아집니다. (272K는 표준 요금, 나머지 728K는 2배 요금 적용 시 추정 계산)

$$\text{1M 토큰 추정 비용} = \frac{272}{1000} \times \$2.50 + \frac{728}{1000} \times \$5.00 = \$0.68 + \$3.64 = \$4.32$$

※ 위 계산은 추정 산식입니다. OpenAI 공식 단가($2.50/M tokens 기준)와 2× 가중치 적용 구간을 기반으로 역산. 실제 청구액은 사용 방식에 따라 다를 수 있으며, 공식 확인 필요.

1M 토큰 기능이 “있다”는 것과 “저렴하게 쓸 수 있다”는 것은 다른 이야기입니다. 장문 문서를 자주 다루는 사용자라면, 컨텍스트 창을 얼마나 채우는지가 실제 요금에 직접 영향을 줍니다.

▲ 목차로 돌아가기

인간 72.4%를 넘었다는 수치, 어디서 나온 걸까요

💡 벤치마크 조건을 같이 보면 이 수치가 달리 읽힙니다

OSWorld-Verified는 “스크린샷과 마우스·키보드 명령”만 허용하는 환경에서 데스크탑을 탐색하는 능력을 측정합니다. GPT-5.4는 이 조건에서 75.0%, 인간은 72.4%를 기록했습니다. 다만 독립 분석 자료(Medium, Barnacle Goose, 2026.03.06)에 따르면 직전 1위 모델인 Kimi K2.5(63.3%)와 Claude Sonnet 4.5(62.9%)를 크게 앞선 결과이기도 합니다. GPT-5.3-Codex(74.0%) 대비로는 1%p 차이입니다. 의미 있는 수치이지만, “인간을 넘었다”는 말이 모든 컴퓨터 작업에서 성립하는 것은 아닙니다.

▲ 목차로 돌아가기

Tool Search가 토큰 47% 줄인다는 수치, 조건이 있습니다

이 수치에는 조건이 붙어 있습니다. OpenAI가 제시한 테스트 환경은 Scale의 MCP Atlas 벤치마크에서 36개 MCP 서버를 모두 활성화한 상태, 즉 수만 개의 토큰 규모 도구 정의가 한꺼번에 프롬프트에 들어가는 극단적인 시나리오입니다. 일반적으로 소규모 Tool 3~5개만 사용하는 에이전트에서는 효율 격차가 이보다 훨씬 작을 수 있습니다. (확인 필요: 소규모 도구 환경에서의 실측 데이터는 공식 발표문에 없음)

💡 공식 발표문 수치를 직접 재현 가능한 방식으로 정리하면

250개 MCP Atlas 작업, 36개 서버 전체 활성화 → Tool Search 적용 시 총 토큰 47% 감소, 동일 정확도 유지. 이 조건 그대로를 직접 따라하면 수치 검증이 가능합니다. 단, 서버 수가 줄어들수록 절감 효과는 비례해 감소합니다.

Tool Search가 가장 빛나는 상황은 MCP 서버나 대형 도구 생태계를 운영하는 개발자 환경입니다. 일반 ChatGPT 사용자에게는 직접적인 영향이 없고, API를 통해 에이전트를 구축하는 개발자에게 해당되는 기능입니다.

▲ 목차로 돌아가기

금융 분석에서는 Claude가 앞섭니다

GDPval에서 GPT-5.4가 83.0%로 1위를 차지한 건 사실입니다. 그런데 벤치마크를 좀 더 좁히면 경쟁 구도가 달라집니다. FinanceAgent v1.1은 복잡한 정량 데이터 파싱과 리스크 매트릭스 평가를 포함한 금융 전문 벤치마크인데, 여기서는 Claude Sonnet 4.6이 63.3%로 앞서고, Claude Opus 4.6이 60.1%로 그다음이며, GPT-5.4는 56.0%입니다. (출처: Medium, Barnacle Goose 분석, 2026.03.06)

SWE-Bench Verified(격리된 버그 수정 벤치마크)에서도 Claude Opus 4.6이 80.8%, Gemini 3.1 Pro가 80.6%, Claude Sonnet 4.6이 79.6%이며 GPT-5.4는 77.2%입니다. GPT-5.4가 앞서는 벤치마크는 컨텍스트가 넓고 복합적인 작업 환경인 SWE-Bench Pro(57.7%), 컴퓨터 사용(75.0%), 추상 추론(ARC-AGI-2, 73.3%)입니다.

💡 어떤 모델이 맞는지는 하려는 작업에 달려 있습니다

광범위한 지식 작업·프레젠테이션·스프레드시트 → GPT-5.4
금융 데이터 분석·정형화된 보고서 → Claude Sonnet 4.6
격리된 코드 버그 수정 → Claude Opus 4.6 / Gemini 3.1 Pro
컴퓨터 직접 조작·에이전트 자동화 → GPT-5.4

솔직히 말하면, GPT-5.4가 전 분야 1위라는 말은 사실이 아닙니다. 특정 도메인에서는 여전히 경쟁 모델이 앞섭니다. 어떤 작업을 자주 하느냐에 따라 모델 선택이 달라지는 이유가 바로 이 때문입니다.

▲ 목차로 돌아가기

Q&A — 가장 많이 물어보는 5가지

▾

OpenAI 공식 문서에서 GPT-5.4와 GPT-4o 간 직접 비교 수치는 별도로 제시되지 않습니다. 다만 이전 발표(2025.08.07)에 따르면 GPT-5(초기 버전) 대비 GPT-4o 기준 환각 감소율은 약 26%였습니다. GPT-5.4는 GPT-5.2 대비 개별 주장 기준 33% 추가 감소했으므로, GPT-4o와의 누적 격차는 상당하다고 볼 수 있습니다. 다만 정확한 수치는 “확인 필요” 상태입니다.

ChatGPT Plus 구독자는 1M 토큰 컨텍스트를 사용할 수 있나요?
▾

ChatGPT 앱 내에서 GPT-5.4 Thinking을 사용하는 경우 컨텍스트 창은 GPT-5.2 Thinking과 동일하게 유지됩니다(변경 없음). 1M 토큰 확장 컨텍스트는 Codex와 API 환경에서만 실험적으로 지원됩니다. 또한 272K 초과 구간은 2배 요금이 적용됩니다. (출처: OpenAI 공식 발표문, 2026.03.05)

▾

ChatGPT에서 GPT-5.4 Thinking이 GPT-5.2 Thinking의 기본 자리를 대체합니다. 다만 GPT-5.2 Thinking은 2026년 6월 5일까지 유료 사용자 대상 모델 선택기 내 “레거시 모델” 섹션에서 3개월간 계속 사용할 수 있습니다. (출처: OpenAI 공식 발표문, 2026.03.05)

▾

2025년 8월 31일입니다. 독립 분석 자료(Medium, Barnacle Goose, 2026.03.06)에 명시된 수치입니다. GPT-5.2의 지식 컷오프도 동일하게 2025년 8월로, 이 부분은 GPT-5.4에서 업데이트되지 않았습니다.

무료 사용자도 GPT-5.4 Thinking을 쓸 수 있나요?
▾

공식 발표에 따르면 GPT-5.4 Thinking은 ChatGPT Plus, Team, Pro 사용자에게 우선 제공됩니다. 무료 사용자의 접근 가능 여부와 제한 조건은 현재 시점 기준으로 “확인 필요”입니다. Enterprise 및 Edu 플랜은 관리자 설정을 통해 얼리 액세스를 활성화할 수 있습니다. (출처: OpenAI 공식 발표문, 2026.03.05)

▲ 목차로 돌아가기

마치며

환각 감소는 개별 주장 기준 33%, 전체 응답 기준 18%입니다. 1M 토큰 컨텍스트는 272K 초과 시 요금이 2배로 오릅니다. Pro가 항상 기본형보다 좋지는 않습니다. 금융 데이터 분석에서는 Claude Sonnet 4.6이 앞섭니다. Tool Search의 47% 절감은 수십 개의 MCP 서버를 운영하는 환경에서의 수치입니다.

이 다섯 가지가 OpenAI 공식 발표문에서 직접 확인한 내용입니다. 어떤 AI 모델을 고를지 판단할 때, 숫자 하나보다 그 숫자 옆에 붙은 조건이 더 중요할 때가 많습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 OpenAI 공식 발표문(2026.03.05) 및 참고 자료 기준이며, 이후 업데이트로 달라질 수 있습니다. 추정 계산은 공개 단가를 기반으로 한 역산이며, 실제 청구액과 다를 수 있습니다.

Aardvark OpenAI, AI할루시네이션, ChatGPT 2026, GPT-5.4, 환각감소

GPT-5.4 환각 33% 감소, 공식 수치로 확인했습니다

33%와 18%, 뭐가 다른 걸까요?

GPT-5.4 Pro가 기본형보다 낮은 점수를 받은 벤치마크

1M 토큰 쓰면 요금이 2배로 올라갑니다

인간 72.4%를 넘었다는 수치, 어디서 나온 걸까요

Tool Search가 토큰 47% 줄인다는 수치, 조건이 있습니다

금융 분석에서는 Claude가 앞섭니다

Q&A — 가장 많이 물어보는 5가지

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4 환각 33% 감소, 공식 수치로 확인했습니다

33%와 18%, 뭐가 다른 걸까요?

GPT-5.4 Pro가 기본형보다 낮은 점수를 받은 벤치마크

1M 토큰 쓰면 요금이 2배로 올라갑니다

인간 72.4%를 넘었다는 수치, 어디서 나온 걸까요

Tool Search가 토큰 47% 줄인다는 수치, 조건이 있습니다

금융 분석에서는 Claude가 앞섭니다

Q&A — 가장 많이 물어보는 5가지

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기