gpt-5.3-chat-latest
GPT-5.3 Instant, 공식 수치 4개로 직접 확인했습니다
할루시네이션 26.8% 감소 — 이 숫자만 보고 “드디어 믿을 만해졌다”고 넘어가면 실제로 손해 보는 경우가 생깁니다. 공식 발표문과 시스템 카드를 나란히 놓고 읽었더니, 업그레이드 소식과 함께 조용히 공개된 수치들이 보였습니다.
(출처: OpenAI 공식 블로그)
(5.2 대비 하락, 시스템 카드)
(공식 발표)
GPT-5.3 Instant가 바꾼 것, 한 줄로 먼저
GPT-5.3 Instant는 2026년 3월 3일 출시된 ChatGPT의 기본 모델 업데이트입니다. 무료 플랜 포함 모든 사용자에게 자동 적용됐고, API에서는 gpt-5.3-chat-latest로 호출할 수 있습니다.
OpenAI가 이번 업데이트에서 집중한 건 성능 지표가 아니라 일상 대화의 느낌이었습니다. “벤치마크에는 잘 안 잡히지만 실제로 쓸 때 거슬리는 것들”을 잡겠다는 게 핵심 방향이었고, 공식 발표문에도 그대로 나옵니다. (출처: OpenAI 공식 블로그, 2026.03.03)
GPT-5.2 Instant가 너무 조심스럽고 잔소리가 많다는 피드백이 쌓였고, 이번에는 반대 방향으로 조정됐습니다. 불필요한 경고문, “잠깐, 숨부터 쉬어요” 같은 멘트, 질문과 무관한 감정 가정을 줄이는 데 초점을 맞췄습니다.
할루시네이션 26.8% 감소, 숫자 뒤에 있는 조건
OpenAI 공식 발표에서 가장 크게 부각된 수치가 할루시네이션 26.8% 감소입니다. 웹 검색을 사용했을 때 기준이고, 내부 지식만 쓸 때는 19.7% 감소입니다. 사용자 피드백 기반 평가에서는 웹 검색 시 22.5%, 웹 없이는 9.6% 감소로 나옵니다. (출처: OpenAI 공식 블로그, 2026.03.03)
💡 공식 발표문과 시스템 카드를 같이 보니 이런 차이가 보였습니다
발표문이 강조한 “26.8% 감소”는 웹 검색을 켠 상태의 수치입니다. 그런데 내부 지식만 쓰는 경우(웹 검색 없이)는 9.6%까지 내려갑니다. 웹 검색을 끄고 쓰는 사용자라면 체감 차이가 훨씬 작을 수 있습니다.
더 눈에 띄는 건 HealthBench 수치입니다. 의료 대화 품질 평가 벤치마크인 HealthBench에서 GPT-5.3 Instant는 54.1%를 기록했습니다. GPT-5.2 Instant가 55.4%였으니, 오히려 1.3%p 내려갔습니다. 어려운 케이스 집합인 Hard 버전에서도 26.8%에서 25.9%로 0.9%p 하락했습니다. (출처: OpenAI GPT-5.3 Instant System Card, 2026.03.03)
| 평가 항목 | GPT-5.2 Instant | GPT-5.3 Instant |
|---|---|---|
| HealthBench 종합 | 55.4% | 54.1% (▼1.3%p) |
| HealthBench Hard | 26.8% | 25.9% (▼0.9%p) |
| HealthBench Consensus | 95.8% | 95.3% (▼0.5%p) |
| 할루시네이션 감소(웹 검색) | 기준치 | −26.8% |
출처: OpenAI GPT-5.3 Instant System Card (deploymentsafety.openai.com, 2026.03.03)
일상 대화 품질이 올라간 대신 의료·건강 관련 정보의 정확도는 소폭 내려갔습니다. 의료 정보를 ChatGPT로 확인하는 경우라면 이 차이가 의미 있습니다.
한국어 품질, OpenAI가 직접 공식 인정한 내용
이번 업데이트에서 한국어 사용자에게 가장 중요한 부분입니다. OpenAI는 공식 발표문에서 한국어와 일본어를 콕 집어 “아직 해결되지 않은 문제”로 직접 적었습니다.
“Non-English languages: The response style of ChatGPT in some languages—such as Japanese and Korean—can sound stilted or overly literal. Improving tone and naturalness across languages remains an ongoing focus.”
— OpenAI 공식 블로그 (openai.com/index/gpt-5-3-instant/, 2026.03.03)
직역체, 어색한 존댓말, 문맥과 안 맞는 문장 구조 — 이미 GPT-5.2에서도 지적됐던 문제들이 5.3에서도 그대로 남아 있습니다. 발표문이 “개선 중”이라고 쓴 건 아직 해결하지 못했다는 뜻이기도 합니다.
클리앙 등 국내 커뮤니티에서는 학습 데이터셋의 한국어 비율 문제를 원인으로 짚는 의견이 나왔습니다. 초거대 모델은 한 번 학습을 시작하면 데이터셋 구성을 수정할 수 없는 구조라, 영어 중심으로 짜인 비율이 그대로 반영된다는 분석입니다. OpenAI가 공식적으로 이유를 밝히지는 않은 부분입니다.
💡 발표 내용의 흐름을 같이 보니 이런 패턴이 보였습니다
GPT-5.3 Instant는 영어 기준에서 “덜 어색해진” 모델입니다. 그런데 한국어·일본어는 아직 5.2보다 낫다고 보기 어렵습니다. 한국어로만 ChatGPT를 쓴다면, 이번 업데이트가 체감상 거의 없을 수 있습니다.
Thinking 모드 켜면 5.3이 아닙니다
GPT-5.3 Instant 출시 소식이 나오자 “드디어 5.3으로 올라갔다”고 생각한 경우가 많았습니다. 막상 해보면 다릅니다.
OpenAI 공식 발표에는 이렇게 나와 있습니다. “GPT‑5.3 Instant is available starting today… Updates to Thinking and Pro will follow soon.” (출처: OpenAI 공식 블로그, 2026.03.03) — 2026년 3월 3일 현재, 5.3 업데이트가 적용된 건 Instant 모드뿐입니다.
⚠️ 확인이 필요한 상황
ChatGPT에서 Thinking 모드 또는 Pro 모드로 작업하고 있다면, 2026년 3월 기준으로 그 모델은 여전히 GPT-5.2입니다. “5.3 업그레이드 됐으니 더 정확해졌겠지”라고 가정하면 실제와 다를 수 있습니다.
ChatGPT 요금제 페이지(chatgpt.com/pricing)에서도 Free, Go, Plus, Pro 모두 “flagship model GPT-5.3″로 표기하고 있지만, 이는 기본(Instant) 기준입니다. Thinking·Pro 변형은 별도 일정으로 업데이트 예정이라고 OpenAI가 밝혔습니다. 일정은 아직 공개되지 않았습니다.
API에서는 gpt-5.3-chat-latest 또는 gpt-5.3-instant로 5.3 Instant를 호출할 수 있습니다. API 가격은 입력 $1.75/1M 토큰, 출력 $14/1M 토큰입니다. (출처: Inworld AI 모델 페이지, 2026.03)
안전 벤치마크에서 내려간 항목들
이번 업데이트에서 조용히 공개된 내용이 있습니다. 제한이 줄어든 만큼 안전 벤치마크의 일부 항목이 전작보다 낮아졌다는 것입니다. OpenAI가 직접 공개한 시스템 카드에 나와 있습니다.
“gpt-5.3-instant shows regressions relative to gpt-5.2-instant and gpt-5.1-instant for disallowed sexual content, and relative to gpt-5.2-instant for self-harm on both standard and dynamic evaluations.” (출처: OpenAI GPT-5.3 Instant System Card, deploymentsafety.openai.com, 2026.03.03)
쉽게 말하면, GPT-5.3 Instant는 성적으로 부적절한 콘텐츠와 자해 관련 내용에 대해 5.2보다 더 통과시킬 가능성이 있다고 OpenAI 자체 평가에서 나왔습니다. 덜 제한적인 모델로 만들면서 이 트레이드오프가 생겼습니다.
💡 시스템 카드를 블로그 발표문과 같이 놓고 읽으면
“덜 잔소리하는 AI”와 “더 안전한 AI”는 동시에 달성하기 어렵습니다. 이번 5.3은 전자를 선택했고, 후자의 일부 항목에서 후퇴했습니다. 어느 쪽이 더 중요한지는 사용 목적에 따라 다릅니다.
OpenAI는 ChatGPT 플랫폼 레벨에서 시스템 안전장치를 별도로 운용한다고 밝혔고, 그 장치가 위 회귀를 완화할 것이라고 했습니다. 실제로 온라인 실험에서는 자해 관련 응답 증가가 관측되지 않았다고도 했습니다. 다만 평가 시점과 출시 이후 상황이 다를 수 있으며, OpenAI가 지속 모니터링 중이라고 밝혔습니다.
실사용 후기에서 갈리는 지점
Reddit r/OpenAI, r/ChatGPTcomplaints에서 나온 반응들을 살펴보면, 업무용과 창작용 사이에서 경험이 갈립니다.
웹 검색 기반 정보 수집, 요약, 간단한 업무 보조에서는 “훨씬 자연스러워졌다”는 반응이 많습니다. 불필요한 경고 멘트나 주제 이탈이 줄었다는 점을 긍정적으로 봤습니다. DataCamp가 직접 테스트한 결과에서도 GPT-5.2 Thinking이 틀렸던 “차 세차장까지 걸어갈까요, 운전할까요” 유형의 문맥 문제를 5.3 Instant가 정확히 잡아냈습니다.
반면 창작·소설 쓰기·길게 이어지는 대화에서는 “5.2가 나았다”는 반응도 상당합니다. “답을 하는 척하면서 같은 결론을 다른 말로 반복한다”, “중간에 사용자 심리를 분석하기 시작한다”는 비판이 있었습니다. Reddit에서 투표 196개를 받은 한 글은 GPT-5.3이 “성능이 아니라 컴플라이언스를 파는 모델”이라는 꽤 날카로운 비판을 담고 있었습니다.
솔직히 말하면, 이번 5.3 Instant는 “모두에게 맞는 업그레이드”가 아닙니다. 영어로 정보를 검색하거나 실용 문서를 작성할 때는 체감 개선이 있습니다. 한국어로만 쓰거나 창작 작업이 많다면 변화가 크지 않거나 오히려 불편할 수 있습니다.
GPT-5.2 Instant는 2026년 6월 3일까지 레거시 모델 항목에서 선택할 수 있습니다. 5.3이 맞지 않는다면 그 전까지는 5.2로 돌아갈 수 있습니다. (출처: OpenAI 공식 블로그, 2026.03.03)
Q&A 5가지
마치며 — 총평
GPT-5.3 Instant는 분명 나쁘지 않은 업데이트입니다. 영어 기반 작업에서 잔소리가 줄고, 웹 검색 결과를 더 잘 소화하게 됐습니다. 할루시네이션 수치도 실제로 내려갔습니다.
다만 한국어 사용자 입장에서는 이 업그레이드를 “내 것”으로 체감하기 어렵습니다. OpenAI가 직접 인정한 한국어 품질 문제가 해결되지 않은 상태이고, HealthBench처럼 의료·전문 분야에서는 오히려 5.2보다 점수가 내려간 항목도 있습니다.
Thinking 모드를 주로 쓴다면 지금 당장 체감 변화는 없습니다. 여전히 5.2 기반입니다. 한국어 창작이나 전문 분야에서 ChatGPT를 쓴다면 6월 3일까지는 5.2 Instant를 레거시에서 선택하는 게 현실적인 옵션입니다.
이번 5.3 Instant가 잘 작동하는 경우를 하나 꼽으라면 — 영어로 웹 검색 결과를 바탕으로 문서를 정리하는 작업입니다. 그 외 용도라면 직접 테스트해보고 판단하는 게 맞습니다.
📎 본 포스팅 참고 자료
- OpenAI 공식 블로그 — GPT-5.3 Instant 발표문 (openai.com/index/gpt-5-3-instant/)
- OpenAI GPT-5.3 Instant System Card (deploymentsafety.openai.com/gpt-5-3-instant)
- VentureBeat — GPT-5.3 Instant 할루시네이션 감소 보도 (venturebeat.com)
- DataCamp — GPT-5.3 Instant 기능 테스트 (datacamp.com/blog/gpt-5-3-instant)
- ChatGPT 요금제 페이지 (chatgpt.com/pricing/)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치 및 기능은 GPT-5.3 Instant 기준 (2026.03.03 출시 버전)이며, 이후 업데이트에 따라 달라질 수 있습니다. 정확한 최신 정보는 openai.com에서 확인하시기 바랍니다.


댓글 남기기