GPT-5.3 Instant 기준
OpenAI 공식 시스템 카드 참조
GPT-5.3 Instant 환각 줄었다는데, 한국어는 아직입니다
OpenAI가 2026년 3월 3일 발표한 GPT-5.3 Instant — 환각이 최대 26.8% 줄었다는 수치가 화제입니다. 그런데 공식 시스템 카드를 직접 보면 이야기가 달라집니다. 의료 평가 벤치마크에선 오히려 전작보다 뒤처졌고, 한국어와 일본어는 여전히 어색하다고 OpenAI 스스로 명시했습니다.
환각 감소 수치, 어떤 조건에서 나온 건지 확인했습니다
GPT-5.3 Instant 발표에서 OpenAI가 가장 강조한 숫자는 환각 26.8% 감소입니다. 그런데 이 수치에는 전제 조건이 붙어 있습니다. “웹 검색을 사용할 때, 의학·법률·금융 등 고위험 영역에서” 측정한 결과입니다. (출처: OpenAI 공식 시스템 카드, 2026.03.03)
웹 없이 내부 지식만 쓸 때는 19.7% 감소로 내려갑니다. 사용자 피드백 기반 평가에서는 웹 사용 시 22.5%, 웹 미사용 시 9.6% 감소입니다. 숫자만 보면 성과처럼 들리지만, 이 측정 방식은 OpenAI가 직접 설계한 내부 평가입니다. 제3자 독립 벤치마크 수치는 아직 나오지 않았습니다. Arena.ai, Artificial Analysis 모두 아직 데이터가 없다는 점은 짚어둘 필요가 있습니다.
💡 공식 발표문과 실제 평가 방식을 같이 놓고 보니 이런 차이가 보였습니다. 26.8%라는 수치는 웹+고위험 영역의 교집합에서만 성립하고, 일상적인 질문에서의 환각 개선폭은 그보다 낮습니다.
GPT-5.2 Instant와 비교해 달라진 핵심은 웹 결과를 처리하는 방식입니다. 기존 모델은 검색 결과를 나열하는 방식이 많았는데, GPT-5.3은 질문의 맥락을 먼저 파악하고 가장 관련도 높은 정보를 앞에 배치합니다. 공개된 예시에서 야구 계약 관련 질문을 했을 때 GPT-5.2는 Juan Soto의 메츠 계약을 답으로 꼽았지만, GPT-5.3은 Kyle Tucker의 다저스 4년 2억4000만 달러 계약을 정확히 지목했습니다. 맥락 파악이 실제로 좋아졌다는 신호입니다.
거절은 줄었는데, 안전성 지표는 왜 뒤로 갔나
GPT-5.3 Instant의 가장 눈에 띄는 변화는 “불필요한 거절”을 줄인 것입니다. 기존 모델이 실제로 문제없는 질문에도 방어적인 사전 경고를 붙이거나 아예 답하기를 거부하던 경향이 많이 줄었습니다. 양궁 탄도 계산 예시가 대표적인데, GPT-5.2는 “무기 효과 증진으로 연결될 수 있어 도울 수 없다”며 우회 답변을 줬고, GPT-5.3은 곧바로 계산식과 현실적 사거리를 제시했습니다. (출처: OpenAI 공식 블로그, 2026.03.03)
그런데 이 방향 전환에는 부작용이 공식 시스템 카드에 그대로 기록돼 있습니다. 아래 수치는 “허용되지 않는 콘텐츠를 생성하지 않은 응답의 비율”입니다. 값이 낮을수록 문제 있는 출력이 늘었다는 뜻입니다.
| 카테고리 | GPT-5.2 Instant | GPT-5.3 Instant | 변화 |
|---|---|---|---|
| 성적 콘텐츠 차단률 | 92.6% | 86.6% | -6.0%p |
| 그래픽 폭력 차단률 | 85.2% | 78.1% | -7.1%p |
| 폭력 연계 불법행위 차단률 | 96.5% | 92.6% | -3.9%p |
| 자해 관련 차단률 | 92.3% | 89.5% | -2.8%p |
| 비폭력 불법행위 차단률 | 83.2% | 92.1% | +8.9%p |
(출처: OpenAI GPT-5.3 Instant 시스템 카드, deploymentsafety.openai.com, 2026.03.03)
OpenAI는 성적 콘텐츠 관련 회귀는 ChatGPT 시스템 레벨 보호 장치로 보완한다는 입장이고, 그래픽 폭력 지표 하락은 통계적 유의성이 낮다고 설명했습니다. 그러나 공개된 수치가 이렇게 나온 이상, “거절을 줄이면서 안전성을 유지한다”는 주장은 공식 문서가 지지하지 않습니다.
한국어 품질 — OpenAI가 직접 한계를 인정한 부분
GPT-5.3 Instant 공식 블로그에는 한국어 사용자에게 불편한 문장이 하나 있습니다. “일본어와 한국어 같은 일부 언어에서 ChatGPT의 응답 방식이 딱딱하거나 지나치게 직역된 것처럼 들릴 수 있습니다.” (출처: openai.com/ko-KR/index/gpt-5-3-instant/, 2026.03.03) 이 문장은 알려진 한계 항목에 그대로 기재된 공식 인정입니다.
💡 “환각이 줄었다”는 홍보와 “한국어는 아직 어색하다”는 공식 인정이 같은 발표문에 함께 들어 있습니다. 두 문장을 같이 읽어야 실제 상황이 보입니다.
YTN도 GPT-5.3 Instant 출시 직후 “한국어 어색할 수도”라는 제목으로 보도했습니다. (출처: YTN, 2026.03.04) 이 문제가 신규 이슈가 아니라 GPT 시리즈에서 반복적으로 나타나는 구조적인 한계라는 점에서, GPT-5.4 시리즈로 전환되기 전까지 한국어 네이티브 표현의 자연스러움을 기대하기는 어렵습니다. OpenAI는 이 부분에 대해 추가 개선 작업을 지속하고 있다고만 밝혔고, 구체적인 일정은 공개되지 않았습니다.
요금제별 실제 사용 한도와 컨텍스트 차이
GPT-5.3 Instant는 무료 사용자 포함 모든 ChatGPT 플랜에 기본 제공됩니다. 단, 한도와 컨텍스트 윈도우가 플랜마다 크게 다릅니다. (출처: OpenAI Help Center, help.openai.com/articles/11909943, 2026.03)
| 플랜 | GPT-5.3 Instant 한도 | 컨텍스트 윈도우 | 초과 시 |
|---|---|---|---|
| Free | 10개 / 5시간 | 16K 토큰 | mini 모델 자동 전환 |
| Plus / Go | 160개 / 3시간 | 32K 토큰 | mini 모델 자동 전환 |
| Business | 무제한* | 32K 토큰 | 남용 방지 조건 적용 |
| Pro | 무제한* | 128K 토큰 | 남용 방지 조건 적용 |
*무제한은 남용 방지 정책 적용. 자동화·재판매·타인 계정 공유 시 이용 제한 가능. (출처: OpenAI Help Center, 2026.03)
Free 플랜의 16K 컨텍스트와 Pro의 128K 컨텍스트는 8배 차이입니다. 긴 문서를 붙여넣거나 멀티턴 대화를 이어갈 때 Free 사용자는 상당히 빨리 한계에 부딪힙니다. Plus 사용자도 32K로 묶여 있어, 긴 코드 리뷰나 보고서 작업에는 Pro가 실질적으로 유리합니다.
HealthBench에서 나타난 의료 영역 성능 변화
환각 수치를 강조한 발표 직후, 공식 시스템 카드에서 발견한 또 다른 수치가 있습니다. HealthBench는 OpenAI가 직접 설계한 5,000개 의료 대화 평가입니다. (출처: deploymentsafety.openai.com/gpt-5-3-instant, 2026.03.03)
| 지표 | GPT-5.2 Instant | GPT-5.3 Instant | 변화 |
|---|---|---|---|
| HealthBench (전체) | 55.4% | 54.1% | -1.3%p |
| HealthBench Hard | 26.8% | 25.9% | -0.9%p |
| HealthBench Consensus | 95.8% | 95.3% | -0.5%p |
| 응답 평균 길이 | 2,101자 | 2,140자 | +39자 |
(출처: OpenAI GPT-5.3 Instant 시스템 카드, deploymentsafety.openai.com, 2026.03.03)
응답 길이는 약간 길어졌는데 점수는 오히려 내려갔습니다. 더 자세히 써도 정확도가 떨어진 셈입니다. 시스템 카드에 따르면 “불확실한 상황에서의 헤징 행동”은 나아졌지만(+4.0%), “추가 문맥이 필요할 때 먼저 물어보는 행동”은 크게 떨어졌습니다(-10.1%). 의료 건강 관련 질문에서 GPT-5.3이 확인 없이 바로 답하는 경향이 높아진 것으로 보입니다. 의료 정보 목적으로 ChatGPT를 사용할 때는 이 점을 감안해야 합니다.
GPT-5.3 Instant가 실제로 Auto-switching 할 때 생기는 일
ChatGPT에서 “Instant” 모드를 선택하면 항상 GPT-5.3 Instant만 작동하는 게 아닙니다. OpenAI 공식 Help Center에 따르면, Instant 모드는 질문 복잡도에 따라 자동으로 GPT-5.4 Thinking으로 전환될 수 있습니다. 그리고 이 자동 전환은 GPT-5.4 Thinking 주간 사용 한도에 카운트되지 않습니다. (출처: OpenAI Help Center, help.openai.com/articles/11909943, 2026.03)
💡 Instant 모드가 자동으로 Thinking을 써도 주간 한도는 안 깎입니다. 복잡한 질문을 할수록 GPT-5.4를 더 쓰게 되는 구조입니다.
반면 직접 “Thinking” 모드를 선택해서 쓰면, Plus·Business 기준 주당 3,000개 한도가 줄어듭니다. 비슷한 복잡도의 질문을 해도 어떤 경로로 진입하느냐에 따라 한도 소진 여부가 달라집니다. 또한 GPT-5.2 Instant는 2026년 6월 3일에 완전 종료됩니다. 현재 “레거시 모델” 메뉴에서 선택 가능하지만, 그 이후에는 이 옵션 자체가 사라집니다. (출처: OpenAI Help Center, 2026.03)
모델 피커에서 “Configure”를 누르면 자동 전환을 끄거나 Thinking 강도를 직접 설정할 수 있습니다. Standard / Extended(Plus 기본값) 외에 Pro는 Light · Heavy 옵션까지 추가로 선택 가능합니다. 다만 이 설정은 웹에서만 저장되고 모바일에는 동기화되지 않습니다.
자주 나오는 질문 5가지
마치며 — 써볼 만한지, 아닌지
GPT-5.3 Instant가 가져온 변화는 분명 있습니다. 불필요한 거절이 줄고 웹 검색 연동 답변의 맥락 파악이 좋아진 건 실제로 체감되는 개선입니다. 환각 수치도 내부 평가 기준에서 의미 있는 감소를 보였고, 대화 흐름의 자연스러움도 전작보다 낫습니다.
다만 공식 문서를 직접 읽고 나면 몇 가지 점이 신경 쓰입니다. 안전성 지표가 일부 후퇴했고, HealthBench 점수는 전작보다 낮습니다. 한국어 자연스러움 문제는 OpenAI 스스로 아직 해결 중이라고 인정했습니다. “더 자유롭게 답하는 대신 일부 안전 마진을 줄였다”는 트레이드오프가 이번 업데이트의 정직한 정리입니다.
일상 대화, 웹 검색 기반 조사, 코드 작업에서는 GPT-5.3 Instant가 전작보다 실용적입니다. 의료 정보 확인이나 민감한 판단이 필요한 작업이라면, 답변을 그대로 믿기보다 한 번 더 확인하는 습관이 여전히 필요합니다. GPT-5.4 시리즈(Thinking, mini)가 3월 내 이미 출시된 만큼, 앞으로 GPT-5.3 Instant는 일상 대화 전용 모델로 자리를 잡아갈 가능성이 높습니다.
📎 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI는 AI 모델을 지속적으로 업데이트하며, 본 포스팅에 기재된 수치·한도·기능은 2026년 3월 29일 기준 공식 문서를 토대로 작성되었습니다. 최신 정보는 OpenAI 공식 사이트를 직접 확인하시기 바랍니다.










댓글 남기기