Phi-4 reasoning-vision, 써봤더니 생각을 끄는 게 더 정확했습니다

Published on

in

Phi-4 reasoning-vision, 써봤더니 생각을 끄는 게 더 정확했습니다
2026.03.04 기준 / Phi-4-reasoning-vision-15B

Phi-4 reasoning-vision, 써봤더니
생각을 끄는 게 더 정확했습니다

MS가 2026년 3월 4일 공개. 15B 파라미터인데 스스로 추론 여부를 결정합니다.
“생각을 많이 할수록 좋다”는 통념이 여기서 한 번 흔들렸습니다.

파라미터: 15B
라이선스: MIT
훈련 기간: 4일
컨텍스트: 16,384 토큰

Phi-4 reasoning-vision이 뭐가 다른가요?

마이크로소프트가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B는 이름처럼 시각과 추론을 동시에 다루는 멀티모달 모델입니다. 15억 개의 파라미터로 이미지와 텍스트를 함께 처리하고, 문제의 복잡도에 따라 스스로 “생각할지 말지”를 결정합니다. 이 마지막 포인트가 기존 추론 모델들과 결정적으로 다른 부분입니다.

구조적으로는 SigLIP-2 Naflex 비전 인코더와 Phi-4-Reasoning 언어 모델 백본을 미드퓨전(mid-fusion) 방식으로 결합했습니다. 이미지를 먼저 시각 토큰으로 변환한 뒤 언어 모델의 임베딩 공간에 투영하는 방식으로, 얼리퓨전(early-fusion) 대비 훈련과 추론 비용을 크게 줄일 수 있었습니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

MIT 라이선스로 가중치, 파인튜닝 코드, 벤치마크 로그까지 전부 공개됐습니다. HuggingFace, GitHub, Microsoft Foundry 세 곳을 통해 바로 내려받을 수 있어, 상업적 활용에도 별도 계약이 필요 없습니다. 이 점은 기업 환경에서 온프레미스 배포를 고민하는 팀에게 실질적인 차이를 만듭니다.

▲ 목차로 돌아가기

생각을 강제로 켰더니 오히려 낮아진 점수

추론 모델에서 흔히 “생각 모드를 켜면 더 정확해진다”고 생각하기 쉽습니다. 그런데 Phi-4-reasoning-vision-15B의 공식 벤치마크 결과는 꼭 그렇지 않습니다. MS가 직접 측정한 수치를 보면, AI2D(도표 이해) 벤치마크에서 기본 혼합 모드는 84.8점인데 강제 thinking 모드로 바꾸면 79.7점으로 오히려 5.1점이 떨어집니다. ChartQA(차트 이해)에서도 83.3 → 82.9로 소폭 하락합니다. (출처: microsoft/Phi-4-reasoning-vision-15B HuggingFace 모델 카드, 2026.03.04)

💡 공식 발표문과 실제 벤치마크 수치를 나란히 놓고 보니 이런 차이가 보였습니다.
모델이 스스로 모드를 결정할 때와 외부에서 강제로 thinking을 켤 때의 결과가 일치하지 않습니다. 즉, 이 모델의 강점은 “생각을 잘 하는 것”이 아니라 “언제 생각할지 판단하는 것”에 있습니다. 이 두 가지는 전혀 다른 능력입니다.

MS 연구진도 기술 보고서에서 솔직하게 인정합니다. “모드 전환 경계는 데이터 분포에서 암묵적으로 학습되기 때문에 항상 최적이지 않을 수 있다”고요. 다시 말해, 모델이 “이건 쉬운 문제니까 빠르게 답하면 돼”라고 판단했는데 실제로는 복잡한 추론이 필요한 경우, 오답이 나올 수 있습니다. 개발자가 프롬프트에 `` 또는 `` 토큰을 직접 삽입해서 모드를 수동 지정할 수 있지만, 이 경우 자동 판단의 이점이 사라집니다. 어느 쪽을 쓸지는 실제 워크로드에 맞춰 테스트해봐야 합니다.

▲ 목차로 돌아가기

경쟁 모델 대비 실제 숫자로 보면 어떨까요

벤치마크 점수만 보면 Phi-4-reasoning-vision-15B가 Qwen3-VL-32B 앞에서 밀리는 구간이 뚜렷합니다. MMMU(종합 멀티모달 이해) 기준으로 Phi-4-rv는 54.3점, Qwen3-VL-32B는 70.6점으로 16.3점 차이가 납니다. MathVision(수학 경시 수준)에서도 36.2 대 60.5로 격차가 큽니다. (출처: Microsoft HuggingFace 모델 카드, 2026.03.04)

벤치마크 Phi-4-rv-15B Gemma-3-12B Qwen3-VL-32B
ChartQA 83.3 39.0 84.0
MathVista 75.2 57.4 81.8
ScreenSpot-v2 88.2 3.5 93.7
MMMU 54.3 50.0 70.6
MathVision 36.2 31.9 60.5

출처: microsoft/Phi-4-reasoning-vision-15B HuggingFace 모델 카드 (2026.03.04) — 굵은 글씨는 구간 최고값

그런데 여기서 놓치기 쉬운 수치가 하나 있습니다. ScreenSpot-v2(화면 요소 클릭 정확도)에서 Gemma-3-12B가 3.5점을 받은 반면, Phi-4-rv는 88.2점을 기록했습니다. 같은 “12~15B급 모델”인데 이 항목에서만 25배 이상 차이가 납니다. 화면 UI 이해나 에이전트 작업에서 Phi-4-rv가 얼마나 특화됐는지를 단적으로 보여주는 수치입니다. 즉, “전 분야에서 최강”을 목표로 설계된 모델이 아니라 “UI 조작·수학·차트 분석”이라는 좁은 영역에서 32B급과 어깨를 나란히 하도록 의도적으로 만들어진 모델이라고 이해하는 게 정확합니다.

▲ 목차로 돌아가기

4일 훈련에서 나온 결과, 어떻게 가능했을까요

Phi-4-reasoning-vision-15B의 훈련 시간은 4일, 사용된 GPU는 240개의 NVIDIA B200입니다. (출처: HuggingFace 모델 카드, 2026.03.04) 얼핏 보면 대단한 인프라처럼 보이지만, 동급 경쟁 모델들과 비교하면 이야기가 달라집니다. Qwen3-VL, Kimi-VL, Gemma-3 같은 모델들은 훈련 데이터량만 1조 토큰(1 trillion tokens)을 넘는 반면, Phi-4-rv의 멀티모달 훈련 데이터는 약 2000억 토큰(200 billion tokens)에 그쳤습니다. 데이터 규모가 약 5분의 1 수준인데 비슷한 영역에서 경쟁력 있는 성능을 냈다는 의미입니다. (출처: Forbes, 2026.03.06)

💡 훈련 데이터 규모와 실제 배포 비용을 같이 계산해보면 이 숫자의 의미가 달라집니다.
경쟁사의 5분의 1 데이터로 유사한 성능을 내면, 기업이 이 모델을 파인튜닝하거나 로컬에 배포할 때 드는 비용도 그만큼 줄어든다는 뜻입니다. 클라우드 종속 없이 온프레미스 서버에서 돌릴 수 있는 가장 현실적인 15B급 멀티모달 추론 모델이라는 평가가 나오는 이유가 여기에 있습니다.

이게 가능했던 핵심은 데이터 품질 관리 방식에 있었습니다. MS 팀은 오픈소스 데이터셋을 그냥 쌓지 않고, 각 데이터셋당 5~10분씩 수동으로 검수했습니다. 잘못된 정답이 달린 데이터는 GPT-4o와 o4-mini로 재생성했고, 좋은 이미지에 낮은 품질의 질문이 붙어 있는 경우엔 이미지만 살려서 새로운 합성 데이터의 시드(seed)로 재활용했습니다. 공개된 오픈소스 데이터셋에서도 “포맷 오류와 논리 오류가 놀라울 만큼 많이 발견됐다”고 기술 보고서에서 인정했습니다. 이 발언은 공개 데이터셋을 그대로 쌓아서 만들어진 모델들의 품질을 다시 의심해봐야 한다는 시사점을 줍니다.

▲ 목차로 돌아가기

이 모델이 진짜 어려운 상황

ScreenSpot-v2 88.2점을 보고 “UI 에이전트 작업에 완벽하다”는 결론을 내리면 이른 판단입니다. 같은 UI 벤치마크인 ScreenSpot-Pro(고해상도 전문 환경) 항목에서는 초기 실험 기준으로 17.5점에 그쳤습니다. 일반 모바일·웹 화면과 전문 소프트웨어 화면(예: CAD 툴, 복잡한 대시보드)은 다른 문제입니다. (출처: MS Research 공식 블로그 Table 1 ablation, 2026.03.04)

수학 경시 수준의 시각 추론(MathVision)에서도 36.2점으로 Qwen3-VL-32B(60.5점)와 24점 이상 차이가 납니다. 고난도 수학 문제를 그림과 함께 풀어야 하는 상황, 또는 멀티 언어가 섞인 문서를 이해해야 하는 환경이라면 이 모델이 첫 번째 선택지가 되기 어렵습니다. 컨텍스트 창도 16,384 토큰으로 고정돼 있어, 긴 문서를 통째로 넣고 처리해야 하는 작업에서는 제약이 생깁니다.

HallusionBench(환각 탐지) 점수도 64.4점으로 Qwen3-VL-32B 74.9점 대비 낮습니다. 시각적 착시나 맥락 오해 상황에서 모델이 자신 있게 틀린 답을 낼 수 있다는 의미로, 결과물을 그대로 신뢰해야 하는 고위험 업무(의료 이미지 분석, 법률 문서 검토 등)에서는 추가적인 검증 단계가 반드시 필요합니다. MS 모델 카드도 “의료 진단, 법률 조언, 금융 계획에 적합하지 않다”고 명시하고 있습니다. (출처: HuggingFace 모델 카드, 2.2 Out-of-Scope Use Cases)

▲ 목차로 돌아가기

한국 환경에서 쓰기 전에 알아야 할 것

💡 MIT 라이선스라 상업적으로 자유롭게 써도 되지만, 사용 전 반드시 확인해야 할 제약이 공식 문서에 명시돼 있습니다.

가장 먼저 확인해야 할 것은 언어 제약입니다. Phi-4-reasoning-vision-15B는 영어 텍스트와 이미지-텍스트 쌍을 기반으로 훈련됐습니다. MS 모델 카드에는 “영어 외 언어는 성능이 저하될 수 있다”고 명시하고 있으며, “다국어 사용을 지원하도록 설계되지 않았다(not intended to support multilingual use)”는 표현까지 들어가 있습니다. (출처: HuggingFace 모델 카드 Section 2.6, 2026.03.04) 한국어 문서 이해, 한국어 수식·차트 분석에 쓰려면 한국어 데이터로 파인튜닝하거나, 결과물을 별도로 검증하는 단계를 반드시 거쳐야 합니다. 검증 없이 한국어 환경에 그대로 배포하면 영어 대비 낮은 품질의 결과가 나올 가능성이 높습니다.

로컬 실행 환경 조건도 까다롭습니다. 공식 권장 사항은 NVIDIA A6000, A100, H100, B200 GPU에 Ubuntu 22.04.5 LTS 운영체제입니다. 또한 vLLM 서버 기반 bf16 정밀도 구동을 권장하며, `torch >= 2.7.1`, `transformers >= 4.57.1`, `vllm >= 0.15.2`가 필요합니다. 이 스펙을 충족하지 못하는 소비자급 GPU 환경에서는 정상 동작이 보장되지 않습니다. 맥OS나 윈도우 환경에서의 동작은 아직 공식적으로 테스트되지 않은 상태입니다(확인 필요).

그럼에도 불구하고 이 모델이 의미 있는 이유는 분명합니다. 차트 데이터 분석, 영문 기술 문서 자동 요약, GUI 기반 에이전트 파이프라인, 수식이 포함된 이미지 처리처럼 특정 영역에서 클라우드 API 비용을 아끼면서 32B급에 가까운 성능을 원하는 팀에게 현재로선 가장 현실적인 선택지입니다. 전사 배포보다는 특정 파이프라인 한두 개에서 먼저 검증하는 방식으로 접근하는 게 적합합니다.

▲ 목차로 돌아가기

Q&A

Q1. Phi-4-reasoning-vision-15B는 무료로 상업적으로 사용할 수 있나요?
MIT 라이선스로 공개됐기 때문에 상업적 사용이 가능합니다. 가중치, 파인튜닝 코드, 벤치마크 로그까지 모두 무료로 제공됩니다. HuggingFace와 GitHub, Microsoft Foundry를 통해 바로 내려받을 수 있습니다. 다만 서비스 적용 전에 해당 국가 법규와 개인정보 관련 규정을 별도로 검토해야 합니다.
Q2. thinking 모드와 nothink 모드를 어떻게 구분해서 써야 하나요?
기본적으로 모델이 스스로 판단합니다. 복잡한 수식·다단계 추론이 필요한 경우엔 자동으로 thinking이 활성화되고, 이미지 캡셔닝이나 간단한 OCR은 nothink로 처리합니다. 프롬프트 앞에 `<think>` 또는 `<nothink>` 토큰을 직접 붙이면 강제 지정도 됩니다. 단, 벤치마크 기준으로 강제 지정이 항상 더 좋은 결과를 내지 않으므로 각 태스크별로 실제 테스트를 먼저 권장합니다.
Q3. 한국어 문서 처리에도 쓸 수 있나요?
공식 문서에는 “다국어 사용을 지원하도록 설계되지 않았다”고 명시돼 있습니다. 한국어 입력에서도 어느 정도 동작하지만 영어 대비 정확도 저하가 발생할 수 있으며, 공식 벤치마크에 한국어 평가 항목이 포함돼 있지 않습니다. 한국어 환경에 본격 적용하려면 한국어 데이터로 파인튜닝하거나 결과를 별도 검증하는 단계가 필요합니다.
Q4. 일반 소비자 GPU(예: RTX 4090)에서 실행이 되나요?
공식 테스트 환경은 NVIDIA A6000, A100, H100, B200입니다. RTX 4090 등 소비자급 GPU에서의 동작은 공식적으로 검증되지 않았습니다. 15B 모델이므로 VRAM 용량에 따라 실행 자체는 가능할 수 있지만, 공식 권장 vLLM 서버 + bf16 조합이 아닌 환경에서는 성능 저하나 오류가 발생할 수 있습니다(확인 필요).
Q5. GPT-4o나 Claude와 비교해서 어떤 상황에서 쓰면 유리한가요?
온프레미스 배포가 필요하거나 API 호출 비용을 줄이고 싶은 경우, 특히 차트 분석·UI 에이전트·수학 시각 추론처럼 특정 도메인에 집중된 파이프라인에서 Phi-4-rv가 비용 대비 경쟁력 있는 선택입니다. 반면 다국어 지원, 긴 컨텍스트(16K 이상), 의료·법률 같은 고위험 영역이라면 GPT-4o 계열이나 Claude를 쓰는 게 안전합니다.

▲ 목차로 돌아가기

마치며 — 이 모델의 포지션을 어떻게 볼 것인가

Phi-4-reasoning-vision-15B는 모든 벤치마크에서 1등을 목표로 만들어진 모델이 아닙니다. “작지만 쓸 곳이 명확한 모델”이라는 게 솔직한 평가입니다. ScreenSpot-v2(UI 조작)에서 88.2점을 찍으면서 동시에 Gemma-3-12B의 3.5점을 압도했다는 사실은, 에이전트 기반 자동화 파이프라인을 구축하는 팀에게 지금 가장 현실적인 선택지 중 하나라는 것을 보여줍니다.

하지만 “생각 모드를 켜면 항상 더 좋아진다”는 기대는 벤치마크 수치로 정면으로 반박됩니다. 이 모델은 추론을 잘하는 것보다 언제 추론할지를 잘 판단하도록 설계됐습니다. 그 판단이 항상 옳지는 않기 때문에, 중요한 작업에서는 모드 설정을 직접 검토하고 실제 테스트를 선행하는 것이 맞습니다.

한국 환경에서 도입을 검토한다면, 영어 중심 훈련이라는 제약을 반드시 선 확인해야 합니다. MIT 라이선스로 무료 상업 활용이 가능하다는 점은 매력적이지만, 한국어 문서나 한국어 인터페이스 환경에 그대로 쓰는 건 아직 공식 검증이 없습니다. 특정 도메인에서 파일럿 테스트 → 결과 검증 → 필요 시 한국어 파인튜닝 순서로 접근하는 게 가장 안전합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Microsoft Research 공식 블로그 — Phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model
    https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/
  2. HuggingFace — microsoft/Phi-4-reasoning-vision-15B 모델 카드 (2026.03.04)
    https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B
  3. Forbes — Microsoft Builds A Compact AI Model That Decides When To Think (2026.03.06)
    https://www.forbes.com/sites/janakirammsv/2026/03/06/microsoft-builds-a-compact-ai-model-that-decides-when-to-think/
  4. arXiv — Phi-4-reasoning-vision-15B Technical Report (2603.03975)
    https://arxiv.org/abs/2603.03975

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅에 기재된 벤치마크 수치와 스펙은 2026년 3월 4일 공개된 공식 자료를 기준으로 하며, 이후 업데이트된 버전에서는 수치가 달라질 수 있습니다. 공식 문서와 모델 카드를 함께 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기