Phi-4-reasoning-vision, 추론 켜면 낮아지는 점수가 있습니다

Published on

2026년 3월 18일

2026.03.04 기준
Phi-4-reasoning-vision-15B
MIT 라이선스

Phi-4-reasoning-vision, 추론 켜면 낮아지는 점수가 있습니다

결론부터 말씀드리면, MS가 내놓은 이 모델은 “추론 모드를 강제로 켜면 오히려 특정 벤치마크 점수가 떨어집니다.” 공식 기술보고서에 그 수치가 고스란히 나와 있습니다. 이 글에서는 그 이유와, 데이터 경쟁이 당연한 AI 업계에서 MS가 경쟁사 대비 5분의 1 데이터로 유사한 성능을 뽑아낸 실제 메커니즘을 공식 문서 기준으로 뜯어봅니다.

15B

파라미터

4일

학습 소요 시간

200B

학습 토큰 수

240대

NVIDIA B200 GPU

이 모델이 왜 지금 나왔을까요

Phi-4-reasoning-vision-15B는 2026년 3월 4일 Microsoft Foundry와 HuggingFace에 동시 공개된 오픈웨이트 멀티모달 추론 모델입니다. (출처: Microsoft Azure AI Foundry 공식 블로그, 2026.03.04) 15억 개도 아니고 150억 개 파라미터, 즉 15B짜리 모델인데도 “추론 능력”을 품고 있다는 게 핵심입니다.

배경을 보면 이해가 됩니다. 지금 AI 업계의 VLM(시각-언어 모델) 트렌드는 파라미터와 학습 데이터 규모를 키우는 방향으로 달려왔습니다. Qwen 3 VL, Gemma3, Kimi-VL 같은 경쟁 모델들은 모두 1조 토큰 이상을 학습에 씁니다. 반면 MS는 여기에 정반대 베팅을 했습니다. 데이터 양보다 데이터 품질에 집중하면 1/5 규모로도 비슷한 성능을 낼 수 있다는 것입니다.

기업 입장에서 이 모델이 흥미로운 이유가 여기 있습니다. 클라우드 GPU 비용이 실시간으로 청구되는 현실에서, 추론 속도가 빠르고 자체 서버에 올릴 수 있는 15B 오픈웨이트 모델은 단순히 “작지만 똑똑한 모델”이 아니라 TCO(총소유비용) 문제에 대한 현실적인 답이 됩니다. MIT 라이선스이기 때문에 상업적 사용에도 제약이 없습니다.

▲ 목차로 돌아가기

경쟁사보다 데이터 5배 적은데 성능이 비슷한 이유

MS 공식 기술보고서(arXiv 2603.03975, 2026.03.04)에 따르면 Phi-4-reasoning-vision-15B의 멀티모달 학습 토큰 수는 약 200B(2천억 개)입니다. 반면 Qwen 3 VL, Kimi-VL, Gemma3의 멀티모달 학습 토큰은 모두 1T(1조 개) 이상입니다. 단순 계산으로도 최소 5배 차이납니다. 이 수치가 의미하는 건 컴퓨팅 비용이 그만큼 덜 들어갔다는 것이고, 현재 성능이 경쟁력 있다면 MS의 데이터 중심 접근법이 실제로 효과가 있다는 뜻입니다.

💡 공식 발표와 실제 학습 과정을 같이 보니 이런 차이가 보였습니다

MS 팀이 설명하는 핵심 방법은 세 가지입니다. 오픈소스 데이터셋을 수작업으로 검토해 데이터셋당 5~10분씩 품질을 분류한 뒤, 오답이 있는 데이터는 GPT-4o와 o4-mini로 재생성했습니다. 좋은 이미지에 낮은 품질 텍스트가 붙어있으면 이미지만 살려 새 데이터를 합성했고, 포맷 오류는 전수 수정했습니다. MS 연구팀은 “공개 데이터셋 전반에 걸쳐 놀랍도록 많은 포맷·논리 오류를 발견했다”고 공식 보고서에 직접 언급하고 있습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975)

이 방법이 새롭다기보다는, 실제로 이 정도 규모로 실행했다는 점이 다릅니다. 오픈소스 데이터를 그냥 쏟아 넣는 게 아니라 사람이 직접 검토하고 틀린 답을 최신 모델로 다시 만들었다는 건 데이터 파이프라인에 적지 않은 비용이 들어갔다는 의미이기도 합니다. 결국 “데이터 양 절약”이 곧 “데이터 정제 비용”으로 일부 전환된 구조입니다.

▲ 목차로 돌아가기

추론 모드를 켜면 AI2D 점수가 떨어집니다

이게 이 모델에서 가장 눈에 띄는 부분입니다. “추론 모델이니 추론 켜면 무조건 더 잘하겠지”라고 생각하기 쉽지만, 공식 벤치마크 수치는 다릅니다. MS가 직접 공개한 표를 보면 이렇습니다.

벤치마크	기본 모드 (혼합)	강제 think (추론 ON)	강제 nothink (추론 OFF)
AI2D (도표 이해)	84.8	79.7 ▼	84.7
ChartQA (차트 이해)	83.3	82.9	76.5 ▼
MathVerse (시각 수학)	44.9	53.1 ▲	43.8 ▼
ScreenSpot v2 (GUI)	88.2	88.1	88.3 ▲
MMMU (종합)	54.3	55.0 ▲	52.0 ▼

(출처: Phi-4-reasoning-vision-15B Technical Report, Microsoft Research, 2026.03.04)

AI2D(과학 도표 이해) 기준으로 기본 혼합 모드 84.8 → 강제 think 79.7로 5.1포인트 하락합니다. ScreenSpot v2(GUI 조작)는 강제 nothink(추론 끔) 상태에서 오히려 88.3으로 가장 높게 나옵니다. 이 수치가 말하는 건, GUI 화면을 보고 버튼을 찾는 작업은 깊이 생각할수록 오히려 느려지고 부정확해진다는 것입니다.

💡 기본 모드가 강제 think보다 전체 평균 점수가 높은 구조

MS 연구팀은 기술보고서에서 “기본 혼합 추론 모드가 강제 think와 강제 nothink 양쪽보다 평균적으로 더 나은 성능을 보인다”고 직접 밝힙니다. 이것이 이 모델 설계의 핵심입니다. 단순히 추론을 더 많이 하는 게 목표가 아니라, 언제 추론이 필요한지를 학습시키는 것이 목표입니다. MS 공식 문서에 따르면 학습 데이터의 약 20%만 추론 trace(think 토큰 포함)이고, 나머지 80%는 즉답 데이터입니다.

개발자 관점에서 실용적인 의미는 이렇습니다. 프롬프트에 <think> 토큰을 무조건 붙이는 방식으로 쓰면 이미지 캡셔닝이나 GUI 작업에서 응답이 느려지고 정확도도 낮아집니다. 과제 성격에 따라 think/nothink를 구분해서 써야 이 모델의 실제 성능을 끌어낼 수 있습니다.

▲ 목차로 돌아가기

수학 데이터 늘렸더니 컴퓨터 조작 성능도 올랐습니다

MS 연구팀이 5B 프록시 모델로 실험한 결과가 기술보고서에 공개돼 있는데, 여기서 예상 밖의 발견이 나옵니다. 수학·과학 데이터 양을 3배로 늘렸더니(150K → 450K) 수학 성능만 오른 게 아니라 컴퓨터 사용(CUA) 벤치마크도 같이 올랐습니다. (출처: arXiv 2603.03975, Table 4)

수학 데이터	CUA 데이터	MMMU	MathVista	ScreenSpot-V2
150K	450K	44.0	37.4	48.2
450K (3배)	450K	45.3	36.0	48.3
450K (3배)	850K (추가)	43.4	38.9	63.1

(출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, Table 4)

수학 데이터를 3배 늘린 상태에서 CUA 데이터를 추가로 늘리니 ScreenSpot-V2(GUI 조작) 점수가 48.2에서 63.1로 14.9포인트 뛰었습니다. 이게 의미하는 건 수학적 추론 능력이 GUI 화면을 ‘분석적으로 읽는’ 능력과 연결된다는 것입니다. 단순히 버튼 위치를 찾는 게 아니라 화면의 구조를 논리적으로 파악하는 데 수학 데이터가 기반 역할을 한다는 실증 결과입니다.

이 결과는 AI 모델 학습 데이터를 구성할 때 도메인 칸막이를 없애야 한다는 시사점을 줍니다. 수학 데이터는 수학 성능에만 쓰인다는 통념이 이 실험에서 깨집니다. MS 팀 자체도 이 발견에 대해 “CUA와 수학 추론을 하나의 모델에서 동시에 우수하게 달성하는 게 가능하다는 걸 보여줬다”고 직접 언급합니다.

▲ 목차로 돌아가기

실제로 어디에 쓰면 괜찮고 어디서 걸리나요

공식 모델 카드(HuggingFace, 2026.03.04)에 명시된 사용 제한 조건을 먼저 짚고 가는 게 맞습니다. 이 모델은 기본적으로 영어 데이터로 학습됐습니다. 영어 외 언어에서는 성능이 저하됩니다. 한국어 문서나 한국어 인터페이스 스크린샷을 다루는 작업에는 성능 보장이 없습니다. 공식 문서에 “영어 이외 언어에서 열화된 성능이 나올 수 있으며, 다국어 사용이 지원 대상이 아니다”라고 명시돼 있습니다. (출처: Phi-4-reasoning-vision-15B Model Card, HuggingFace, 2026.03.04)

⚠️ 사용 전 확인 필요

컨텍스트 최대 길이 16,384 토큰 — 긴 문서 처리 시 한계 있음
영어 외 다국어: 공식 지원 불가, 성능 저하 확인 필요
법률 자문, 의료 진단, 금융 계획에 직접 적용 금지 (모델카드 명시)
이미지→텍스트 안전성 결함 비율 4.5% (텍스트→텍스트는 1.4%) — 내부 평가 기준

반대로 이 모델이 실제로 강한 영역은 정해져 있습니다. GUI 화면에서 버튼·메뉴·텍스트 필드 같은 인터랙티브 요소를 찾아내는 ScreenSpot-v2에서 88.2점을 기록했고, 이건 3.5B 파라미터짜리 Kimi-VL-A3B(89.8)와 거의 동급입니다. 15배 무거운 Qwen3-VL-32B(93.7)와 5.5포인트 차이밖에 안 납니다. 추론 비용 대비 성능이 실질적으로 경쟁력이 있는 구간입니다.

MathVista 기준으로는 75.2점으로, 동급 크기 경쟁 모델인 Gemma-3-12b(57.4)보다 17.8포인트, 이전 세대 자사 모델 Phi-4-mm-instruct(50.5)보다는 무려 24.7포인트 높습니다. 시각적 수학 문제 풀이 용도라면 현재 15B 이하 모델 중 가장 실용적인 선택지 중 하나입니다.

▲ 목차로 돌아가기

Qwen3-VL-32B와 수치로 직접 비교해봤습니다

공식 벤치마크 수치를 그대로 옮겨 격차를 확인해봅니다. Qwen3-VL-32B(32K 컨텍스트, nothink 모드 기준)와 Phi-4-reasoning-vision-15B(기본 혼합 모드) 비교입니다. 파라미터 기준으로 32B vs 15B, 약 2배 차이가 납니다. (출처: Phi-4-reasoning-vision-15B Technical Report, 2026.03.04)

벤치마크	Phi-4-r-v 15B	Qwen3-VL 32B	격차
AI2D (도표)	84.8	85.0	−0.2
ChartQA (차트)	83.3	84.0	−0.7
MathVista (수학)	75.2	81.8	−6.6
MMMU (종합)	54.3	70.6	−16.3
ScreenSpot v2 (GUI)	88.2	93.9	−5.7

(출처: Phi-4-reasoning-vision-15B Technical Report, Microsoft Research, 2026.03.04 / MS 내부 평가 기준)

AI2D와 ChartQA에서는 파라미터 2배 차이 모델과 격차가 1포인트 이내입니다. 도표·차트 이해 용도라면 15B 모델로도 충분히 경쟁이 됩니다. 반면 MMMU(멀티분야 종합 이해)는 54.3 대 70.6으로 16.3포인트 격차가 벌어집니다. 여러 분야를 넘나드는 복합 이해 능력에서는 파라미터 차이가 실제로 드러납니다.

포브스 분석(Forbes, 2026.03.06)에서는 이를 두고 “기업이 특정 워크로드 요구사항에 모델 능력을 맞추는 전략이 필요하다”고 지적합니다. 만능 모델을 찾기보다 용도를 먼저 정한 다음 모델을 고르라는 현실적인 조언입니다. 이 모델이 MMMU에서 약한 이유는 단일 이미지 기반 복합 추론보다 지식의 너비가 요구되는 과제이기 때문이고, 이건 데이터 양이 아니라 구성에서 오는 한계입니다.

▲ 목차로 돌아가기

자주 물어보는 것들

Q. 무료로 사용할 수 있나요?

MIT 라이선스로 오픈웨이트 공개됐습니다. HuggingFace(huggingface.co/microsoft/Phi-4-reasoning-vision-15B)에서 모델 가중치를 무료로 내려받을 수 있습니다. Microsoft Foundry(ai.azure.com)를 통한 API 사용은 Azure 이용 요금이 별도로 발생합니다. 로컬 실행을 원하면 A6000, A100, H100, B200 GPU가 공식 테스트 환경이며, bf16 정밀도를 권장합니다. torch 2.7.1 이상, transformers 4.57.1 이상이 필요합니다. (출처: HuggingFace 모델 카드, 2026.03.04)

Q. 한국어 이미지나 한국어 UI 스크린샷도 처리할 수 있나요?

공식 모델 카드에 명시된 제한 사항입니다. 영어 텍스트와 이미지-텍스트 페어를 기반으로 학습됐기 때문에, 영어 외 언어 성능은 저하될 수 있습니다. 한국어 인터페이스 스크린샷에서 GUI 요소를 찾거나 한국어 문서를 분석하는 작업은 성능 보장이 없습니다. 실사용 전 직접 테스트가 필요합니다. (출처: Phi-4-reasoning-vision-15B Model Card)

Q. 프롬프트에서 추론 모드를 어떻게 제어하나요?

어시스턴트 응답 시작 토큰에 <think> 또는 <nothink>를 붙여 직접 제어할 수 있습니다. 기본값은 모델이 과제 복잡도를 판단해 자동 전환하는 혼합 모드입니다. 도표나 GUI 조작처럼 빠른 인식이 필요한 작업에는 <nothink>를, 수학·과학 추론 문제에는 <think>를 붙이면 결과가 달라집니다. 단, 어떤 과제에 어느 모드가 적합한지는 위 벤치마크 표를 참고해 직접 실험하는 게 가장 정확합니다.

Q. 학습에 240개 B200 GPU를 4일 썼다고 하는데, 이게 많은 건가요 적은 건가요?

240 × 4일 = 960 GPU-day입니다. 예를 들어 GPT-4 훈련에 약 25,000 A100 GPU-day가 들었다는 추정치(Sam Altman, 2023)와 비교하면 규모가 다릅니다. 1조 토큰 이상을 쓰는 경쟁 VLM들과 정확한 비교는 공개된 수치가 없어 확인이 어렵지만, MS는 이를 명시적으로 “훨씬 적은 컴퓨팅”이라고 표현합니다. 오픈소스 15B 모델 기준에서는 상대적으로 효율적인 학습에 해당하는 수치입니다.

Q. 이 모델이 이전 Phi-4-multimodal보다 얼마나 나아졌나요?

같은 비사고(nothink) 조건 기준으로 직전 모델 Phi-4-mm-instruct와 비교하면 거의 모든 벤치마크에서 큰 폭으로 개선됐습니다. AI2D 68.6 → 84.8(+16.2), ChartQA 23.5 → 83.3(+59.8), MathVista 50.5 → 75.2(+24.7), ScreenSpot v2 28.5 → 88.2(+59.7)입니다. 특히 ChartQA와 ScreenSpot에서 거의 3배 가까운 향상이 있었습니다. 이전 세대와 완전히 다른 모델이라고 보는 게 맞습니다. (출처: Phi-4-reasoning-vision-15B Technical Report)

▲ 목차로 돌아가기

마치며

Phi-4-reasoning-vision-15B를 정리하면, 잘하는 것과 못하는 것이 명확하게 구분되는 모델입니다. GUI 조작·차트·도표 이해에서는 자기 무게급을 훌쩍 넘는 성능을 보이지만, 다국어와 넓은 분야 종합 이해(MMMU)에서는 32B 모델과 격차가 현실적으로 존재합니다.

가장 실용적인 포인트는 추론 제어입니다. think를 무조건 켜는 게 아니라 과제에 따라 모드를 선택해야 실제 성능이 나옵니다. 공식 수치가 이걸 증명합니다. AI2D에서 강제 추론이 오히려 5포인트를 깎아먹는다는 건 단순한 에러가 아니라 설계 의도가 있는 결과입니다.

MIT 라이선스 오픈웨이트라는 점도 무시하기 어렵습니다. 자체 GPU 서버를 운영하거나 엣지 디바이스에 멀티모달 추론 기능을 올려야 하는 시나리오에서, 이 모델은 현재 시점 가장 진지하게 고려할 수 있는 선택지입니다. 한국어 지원 부재는 명확한 한계이고, 이 부분은 사용 전에 반드시 검증이 필요합니다.

✅ 이 모델이 맞는 경우

영어 기반 GUI 자동화 에이전트 개발
수식·다이어그램·차트 이미지 분석 파이프라인
온프레미스·엣지 환경에서 멀티모달 추론 필요
상업용 오픈소스 모델이 필요한 경우

❌ 이 모델이 맞지 않는 경우

한국어 포함 다국어 처리가 핵심인 서비스
16K 초과 긴 문서 처리
의료·법률·금융 고위험 의사결정 자동화
다양한 학문 분야를 넘나드는 범용 멀티모달 이해

▲ 목차로 돌아가기

본 포스팅 참고 자료

Microsoft Azure AI Foundry 공식 블로그 — Introducing Phi-4-Reasoning-Vision to Microsoft Foundry (2026.03.04)
Microsoft Research 공식 블로그 — Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model (2026.03.04)
Phi-4-reasoning-vision-15B 공식 기술보고서 — arXiv 2603.03975 (2026.03.04)
HuggingFace 공식 모델 카드 — microsoft/Phi-4-reasoning-vision-15B
Forbes — Microsoft Builds A Compact AI Model That Decides When To Think (2026.03.06)

※ 본 포스팅은 2026년 3월 18일 기준으로 공개된 공식 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 특히 AI 모델은 업데이트로 성능 수치와 지원 기능이 달라질 수 있습니다. 의료·법률·금융 분야의 실제 의사결정에 이 모델을 단독으로 사용하지 마세요.

DSLM, 멀티모달AI, 비전추론모델, 코파일럿Wave3 Microsoft365Copilot CopilotCowork Agent365 AI업무자동화, Phi-4 reasoning vision

Phi-4-reasoning-vision, 추론 켜면 낮아지는 점수가 있습니다

Phi-4-reasoning-vision, 추론 켜면 낮아지는 점수가 있습니다

이 모델이 왜 지금 나왔을까요

경쟁사보다 데이터 5배 적은데 성능이 비슷한 이유

추론 모드를 켜면 AI2D 점수가 떨어집니다

수학 데이터 늘렸더니 컴퓨터 조작 성능도 올랐습니다

실제로 어디에 쓰면 괜찮고 어디서 걸리나요

Qwen3-VL-32B와 수치로 직접 비교해봤습니다

자주 물어보는 것들

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Phi-4-reasoning-vision, 추론 켜면 낮아지는 점수가 있습니다

Phi-4-reasoning-vision, 추론 켜면 낮아지는 점수가 있습니다

이 모델이 왜 지금 나왔을까요

경쟁사보다 데이터 5배 적은데 성능이 비슷한 이유

추론 모드를 켜면 AI2D 점수가 떨어집니다

수학 데이터 늘렸더니 컴퓨터 조작 성능도 올랐습니다

실제로 어디에 쓰면 괜찮고 어디서 걸리나요

Qwen3-VL-32B와 수치로 직접 비교해봤습니다

자주 물어보는 것들

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기