ChatGPT Health v1.0 (2026.01.07 출시)
ChatGPT Health, 응급 상황 절반을 놓칩니다
2026년 1월 출시 직후 하루 4천만 명이 쓰기 시작한 ChatGPT Health. 그런데 출시 한 달도 안 돼 Nature Medicine에 충격적인 연구가 실렸습니다. 진짜 응급 상황의 52%를 응급이 아니라고 판단한다는 내용입니다. 뇌졸중처럼 증상이 뚜렷한 케이스는 100% 맞히는데, 당뇨병성 케톤산증이나 호흡 부전처럼 애매한 케이스에서는 “24~48시간 내 병원 가세요”라는 답이 나왔습니다. 지금 바로 응급실에 가야 하는 상황에서요.
ChatGPT Health가 뭐길래 이렇게 많이 쓰나요?
ChatGPT Health는 2026년 1월 7일 OpenAI가 공개한 건강 특화 기능입니다. 일반 ChatGPT와 달리 의료 기록, Apple Health, MyFitnessPal 같은 건강 앱을 연동해서 “내 혈액 검사 결과가 어떤 의미인지”, “진료 전에 어떤 질문을 준비해야 하는지” 같은 맥락 있는 답변을 받을 수 있도록 설계됐습니다.
OpenAI에 따르면 전 세계에서 매주 2억 3천만 명 이상이 ChatGPT에 건강·웰니스 관련 질문을 합니다 (출처: OpenAI 공식 발표, 2026.01.07). 이 숫자 자체가 이미 놀라운데, ChatGPT Health 출시 이후 하루 이용자만 4천만 명에 달한다는 OpenAI 내부 집계가 나왔습니다. 그 중 70%는 일반 진료 시간 외에 접속하고, 매주 58만 건 이상의 메시지는 병원까지 차로 30분 이상 걸리는 지역에서 들어옵니다 (출처: OpenAI AI Healthcare Report, 2026.01).
OpenAI는 이 서비스가 “진단이나 치료를 위한 게 아니라, 의료를 탐색하는 데 도움을 주는 도구”라고 명시했습니다. 하지만 막상 써보니까 많은 사람들이 ‘지금 응급실에 가야 하나 말아야 하나’를 이 챗봇에 묻고 결정을 내립니다. 이 지점에서 문제가 생깁니다.
연구는 어떻게 진행됐을까요?
뉴욕 마운트 시나이 의과대학(Icahn School of Medicine at Mount Sinai) 연구팀이 ChatGPT Health 출시 직후부터 독립 안전성 평가를 시작했습니다. 2026년 2월 23일 Nature Medicine에 게재된 이 연구는 ChatGPT Health 최초의 독립 안전성 평가입니다 (출처: Nature Medicine, DOI: 10.1038/s41591-026-04297-7).
연구팀은 21개 의학 전문과에 걸친 60개 임상 시나리오를 만들었습니다. 집에서 쉬면 되는 경미한 증상부터 즉시 응급실이 필요한 케이스까지 망라했고, 56개 의학회 가이드라인을 바탕으로 3명의 독립 의사가 각 시나리오의 정답 긴급도를 판정했습니다. 그리고 각 시나리오를 환자의 인종(백인/흑인), 성별(남/여), 증상 최소화 여부, 보험·교통 접근 장벽 등을 조합해 16가지 변형으로 만들었습니다. 총 960번 ChatGPT Health와 상호작용하고 의사 판정과 비교했습니다.
4단계 분류 기준은 A(집에서 쉬기), B(일반 진료), C(24~48시간 내 응급), D(지금 응급실)입니다. 연구팀이 D가 맞는 케이스에 ChatGPT Health가 C를 뱉었을 때, 이것이 바로 “응급 저평가(undertriage)”입니다. 이게 전체 진짜 응급 케이스의 52%에서 발생했습니다.
52%가 틀렸다는 게 실제로 어떤 의미일까요?
💡 공식 연구 수치와 실제 의료 현장 맥락을 같이 놓고 보니 이런 차이가 보였습니다
52%는 단순한 오답율이 아닙니다. 당뇨병성 케톤산증(DKA)나 호흡 부전은 제때 응급실을 가지 않으면 수 시간 내에 사망할 수 있는 케이스입니다. “하루 이틀 내 병원 가보세요”라는 답을 들은 사람이 그 말을 믿고 기다리면 생명이 위험해집니다.
더 흥미로운 건 반대 방향입니다. ChatGPT Health는 응급 케이스를 52% 저평가하는 동시에 비응급 케이스는 65% 과잉 평가했습니다 (출처: Nature Medicine, 2026.02.23). 3일 된 목감기 환자에게 “24~48시간 내 진료 받으세요”라는 답이 나온 거죠. 집에서 쉬면 되는 상황에서요.
이 패턴을 의학 용어로 “역U자형 오류 분포”라고 표현할 수 있습니다. 쉬운 말로 하면, 진짜 위험한 상황에서는 안심시키고, 별거 아닌 상황에서는 걱정시킵니다. 이게 맞는 방향의 정반대입니다. 뇌졸중처럼 증상이 너무 명백한 케이스는 100% 응급실로 보냈습니다. 반면 증상이 조금 애매하거나 복잡한 응급 케이스에서 판단이 무너졌습니다.
납득이 가는 면은 있습니다. 뇌졸중은 “갑자기 한쪽 팔이 안 움직여요”처럼 패턴이 뚜렷합니다. DKA는 “숨이 조금 가쁘고 배가 아파요”처럼 여러 조건이 합쳐져야 응급인 케이스입니다. AI는 패턴 매칭에는 강하지만, 복합적인 임상 판단에서는 약합니다. 이 부분이 핵심입니다.
설명은 맞히면서 권고는 틀리는 이상한 패턴
연구팀이 가장 당황한 장면
마운트 시나이 수석 저자 Ashwin Ramaswamy 박사가 특히 주목한 케이스가 있습니다. 천식 악화 시나리오에서 ChatGPT Health가 자신의 설명문에는 “호흡 부전의 초기 경고 신호가 있다”고 정확히 썼습니다. 그런데 권고는 “기다리세요”였습니다 (출처: Mount Sinai 공식 보도자료, 2026.02.24).
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
LLM은 텍스트를 생성하는 과정에서 “설명”과 “권고”를 별개의 확률 분포로 처리합니다. 설명에서 위험 신호를 인식했더라도, 권고 토큰을 생성할 때 훈련 데이터의 “안심 패턴”이 개입하면 판단이 뒤집힐 수 있습니다. 이것은 단순한 오타가 아닌, 모델 구조의 근본적인 특성입니다. 즉 ChatGPT Health가 거짓말을 하는 게 아니라, 두 개의 서로 다른 답을 동시에 출력하는 겁니다.
Ramaswamy 박사는 이를 두고 “어떤 의사도, 기초 교육을 받은 누구라도 응급실로 보낼 케이스에서 기다리라는 답이 나왔다”고 밝혔습니다. 이 부분이 아쉬웠습니다. ChatGPT Health는 설명 능력과 판단 능력이 따로 돌아가는 경우가 있다는 게 이번 연구의 핵심 발견 중 하나입니다.
자살 위기 경보도 반대로 작동했습니다
이 연구에서 신체 응급 케이스보다 더 충격적인 발견이 있었습니다. ChatGPT Health는 사용자가 자해 의도를 표현하면 988 자살·위기상담전화로 연결하도록 설계되어 있습니다. 그런데 막상 테스트하니까 이 경보가 저위험 시나리오에서는 발동하고, 구체적인 자해 계획을 밝힌 고위험 시나리오에서는 발동하지 않는 경우가 있었습니다 (출처: Nature Medicine, 2026.02.23).
시니어 저자인 Girish N. Nadkarni 박사는 이를 “임상 위험과 정반대로 작동한 경보 시스템”이라고 표현했습니다. 구체적인 방법까지 말하는 사람이 더 즉각적이고 심각한 위험 상태에 있다는 건 임상적 상식입니다. 그런데 AI는 막연한 표현에서 더 자주 경보를 울렸습니다.
OpenAI 자체 데이터에 따르면 매주 100만 명 이상의 ChatGPT 사용자가 자살 계획 또는 의도와 관련된 메시지를 보내고, 56만 명이 정신증이나 조증 가능성을 보이는 메시지를 보냅니다 (출처: NBC News 인용 OpenAI 공식 데이터, 2026.03.03). 이 숫자를 감안하면 경보 오작동이 단순히 “테스트 결과”로 끝나는 문제가 아닙니다.
⚠️ 현재 확인된 사실: ChatGPT Health의 자살·자해 위기 경보는 임상 위험 수준과 반드시 일치하지 않습니다. 자해 관련 생각이 있다면 AI가 경보를 울렸는지 여부와 무관하게 988(자살예방상담전화) 또는 응급실에 직접 연락하는 것이 맞습니다.
가장 취약한 사람들이 가장 위험하게 노출돼 있습니다
병원 없는 동네 58만 명의 문제
ChatGPT Health 사용자 중 매주 58만 건 이상의 건강 관련 메시지가 병원 접근 불가 지역(Hospital Desert, 병원까지 차로 30분 이상)에서 발생합니다 (출처: OpenAI AI Healthcare Report, 2026.01). 이 숫자가 의미하는 건 뭐냐면, AI를 건강 어드바이저로 가장 적극적으로 쓰는 사람들이 실제 의료 접근성이 낮은 사람들이라는 겁니다.
그리고 그 사람들이 AI에게서 “24~48시간 내에 병원 가보세요”라는 답을 받으면, 30분 거리 병원을 찾아가기 어려운 상황이라 “그래도 내일 가도 되겠지”라고 판단할 가능성이 높습니다. 반면 도시에 사는 사람은 같은 상황에서도 10분 거리 응급실로 바로 갈 수 있습니다. 결과적으로 AI의 오류가 의료 취약계층에게 더 치명적으로 작용할 수 있습니다.
하버드 의대 바이오메디컬 인포매틱스 학과장 Isaac Kohane 박사는 이 연구에 대해 “LLM은 2026년 현재 임상적 극단값에서 가장 안전하지 않다”고 말했습니다 (출처: Mount Sinai 공식 보도자료, 2026.02.24). 수백만 명이 응급실을 갈지 말지 결정할 때 AI를 쓰고 있는 상황에서, 독립적인 안전성 평가는 선택이 아닌 필수라고도 강조했습니다.
OpenAI는 뭐라고 했나요?
OpenAI 측은 이 연구를 환영하면서도 방법론에 이의를 제기했습니다. “이 연구는 ChatGPT Health가 실제로 사용되는 방식과 다르다”는 입장입니다. 실제 사용자는 한 번에 하나의 시나리오를 던지지 않고, 여러 번 대화하며 추가 정보를 주고받는다는 것입니다 (출처: NBC News 인용 OpenAI 대변인 발언, 2026.03.03).
이 반박은 맞는 말이기도 합니다. 실제로 사람이 ChatGPT와 대화할 때는 “근데 숨도 좀 가쁜데요”처럼 추가 맥락을 주면서 답변이 바뀔 수 있습니다. 연구는 단일 프롬프트 기준으로 테스트했습니다.
다만 이 반박에는 생각해볼 지점이 있습니다. 응급 상황에서 사람이 “더 많은 정보를 입력해야 올바른 답을 받을 수 있다”는 걸 알고 있을까요? 막상 숨이 가쁘고 어지러운 상황에서 AI와 꼼꼼하게 대화를 이어갈 여력이 있을까요? 그 추가 대화가 없으면 첫 답을 그대로 믿게 됩니다.
OpenAI는 ChatGPT Health가 아직 제한된 사용자에게만 열려 있고, 안전성 개선 작업 중이라고 밝혔습니다. 연구팀도 “AI 건강 도구를 당장 폐기하라는 게 아니다”라고 했습니다. 하지만 지금 이 순간 하루 4천만 명이 쓰고 있다는 게 현실입니다.
| 케이스 유형 | 의사 판정 | ChatGPT Health | 결과 |
|---|---|---|---|
| 뇌졸중 (명백한 증상) | 즉시 응급실 | 즉시 응급실 | ✅ 100% 정확 |
| 당뇨병성 케톤산증 (DKA) | 즉시 응급실 | 24~48시간 내 진료 | ❌ 오분류 |
| 호흡 부전 전조 증상 | 즉시 응급실 | 24~48시간 내 진료 | ❌ 오분류 |
| 3일 된 목감기 | 집에서 쉬기 | 24~48시간 내 진료 | ⚠️ 과잉 분류 |
※ 출처: Nature Medicine (DOI: 10.1038/s41591-026-04297-7), 2026.02.23 기준
Q&A
Q1. ChatGPT Health는 지금 한국에서도 쓸 수 있나요?
Q2. 그럼 ChatGPT Health는 아예 쓰면 안 되는 건가요?
Q3. 일반 ChatGPT도 똑같이 위험한가요?
Q4. 인종·성별에 따라 판정이 달라졌나요?
Q5. 앞으로 개선될 수 있을까요?
마치며
ChatGPT Health가 나쁜 서비스라는 얘기가 아닙니다. 진료 전 질문 준비, 검사 결과 해석, 건강 기록 정리 같은 영역에서는 분명히 도움이 됩니다. OpenAI가 260명 이상의 의사와 2년을 함께 개발했다는 것도 사실입니다.
하지만 “지금 응급실을 가야 하나”를 결정하는 용도로 쓰기엔, 지금 시점에서 52%라는 오분류율은 받아들이기 어렵습니다. 특히 증상이 복잡하거나 애매한 케이스일수록 AI가 틀릴 가능성이 높다는 게 이번 연구의 핵심입니다. 그리고 이런 애매한 케이스가 임상적으로 판단이 가장 필요한 케이스이기도 합니다.
써보니까 느낀 건, AI는 맥락이 충분히 쌓인 비응급 상황에서는 꽤 쓸 만합니다. 하지만 첫 증상이 나타났을 때, 빠른 판단이 필요할 때는 AI를 보조 수단으로만 두고 직접 병원이나 응급의료 정보센터(국내 1339)에 먼저 연락하는 게 맞습니다.
본 포스팅 참고 자료
- Nature Medicine — ChatGPT Health performance in a structured test of triage recommendations (2026.02.23) — https://www.nature.com/articles/s41591-026-04297-7
- OpenAI 공식 블로그 — Introducing ChatGPT Health (2026.01.07) — https://openai.com/index/introducing-chatgpt-health/
- Mount Sinai 공식 보도자료 — Research Identifies Blind Spots in AI Medical Triage (2026.02.24) — https://www.mountsinai.org/about/newsroom/2026/research-identifies-blind-spots-in-ai-medical-triage
- NBC News — ChatGPT Health ‘under-triaged’ half of medical emergencies (2026.03.03) — https://www.nbcnews.com/health/health-news/chatgpt-health-under-triaged-half-medical-emergencies-rcna261409
- Medical Economics — ChatGPT Health missed half of medical emergencies (2026.03.06) — https://www.medicaleconomics.com/view/chatgpt-health-missed-half-of-medical-emergencies-in-first-independent-safety-test
⚠️ 본 포스팅은 공개된 학술 연구 및 공식 자료를 바탕으로 작성된 정보성 콘텐츠입니다. 의학적 진단·치료를 대체하지 않습니다. 응급 상황에서는 즉시 응급의료 서비스(119) 또는 응급의료정보센터(1339)에 연락하세요. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. ChatGPT Health는 AI 모델 업데이트에 따라 성능이 달라질 수 있으며, 본문 수치는 2026.02.23 Nature Medicine 발표 기준입니다.

댓글 남기기