Phi-4 Reasoning Vision, 작을수록 더 느릴까요?

Published on

in

Phi-4 Reasoning Vision, 작을수록 더 느릴까요?

2026.03.04 기준
Phi-4-Reasoning-Vision-15B
MIT 라이선스 오픈소스

Phi-4 Reasoning Vision, 작을수록 더 느릴까요?

마이크로소프트가 2026년 3월 4일 공개한 Phi-4 Reasoning Vision 15B는 15억 파라미터짜리 소형 멀티모달 모델입니다. 결론부터 말씀드리면, 경쟁 모델들이 1조 개 이상의 토큰으로 학습한 것과 달리, 이 모델은 200억 토큰만으로 비슷한 성능을 냅니다. 그리고 추론(chain-of-thought)을 항상 켜두는 게 오히려 독이 되는 상황이 있습니다.

15B
파라미터
200B
학습 토큰
88.2%
ScreenSpot v2
MIT
무료 라이선스

Phi-4 Reasoning Vision이 뭔가요?

마이크로소프트가 2026년 3월 4일 공개한 Phi-4 Reasoning Vision 15B는 텍스트와 이미지를 동시에 처리할 수 있는 멀티모달 AI 모델입니다. 15억 개 파라미터를 갖춘 소형 모델이지만, 수학 문제 풀이·차트 분석·화면 UI 조작·문서 이해 같은 까다로운 작업에서 자기 크기보다 몇 배 큰 모델들과 경쟁하도록 설계됐습니다.

이 모델의 핵심 특징은 딱 두 가지입니다. 첫 번째는 선택적 추론(Selective Reasoning)입니다. 복잡한 수학 문제처럼 단계별 추론이 필요한 상황에서는 생각을 길게 펼치고, 단순한 이미지 설명처럼 빠른 응답이 더 나은 상황에서는 추론을 건너뜁니다. 두 번째는 데이터 효율성입니다. 경쟁사 모델들이 1조 토큰 이상 학습하는 것과 달리, 200억 토큰만 쓰고도 비슷한 성능을 냅니다.

HuggingFace, Microsoft Foundry, GitHub에서 MIT 라이선스로 무료 공개됐습니다. 상업적 활용도 가능합니다.

경쟁 모델의 1/5 데이터로 비슷한 성능이 나오는 이유

💡 공식 발표문과 경쟁 모델 학습 규모를 나란히 놓고 보니 이런 차이가 보였습니다.

Qwen3-VL, Kimi-VL, Gemma3 같은 경쟁 멀티모달 모델들은 학습에 1조(1T) 토큰 이상을 씁니다. Phi-4 Reasoning Vision은 약 200억(200B) 토큰을 사용했습니다. 학습 데이터 양만 보면 1/5 수준입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

성능 차이가 이 정도로 좁혀진 이유는 데이터 양이 아니라 데이터 품질에 있습니다. 마이크로소프트 연구팀은 오픈소스 데이터셋을 그냥 쓰지 않았습니다. 각 데이터셋을 직접 수작업으로 검토해서 틀린 답이 붙어 있는 데이터는 GPT-4o와 o4-mini로 다시 생성하고, 구제 불가능한 항목은 이미지만 남겨 새 질문을 만드는 방식을 택했습니다.

연구팀이 직접 밝힌 내용을 보면 “널리 쓰이는 오픈소스 데이터셋에서 놀라울 만큼 많은 서식 오류와 논리 오류를 발견했다”고 합니다. 바꿔 말하면, 지금까지 많은 모델들이 오염된 데이터를 그대로 먹고 자랐다는 뜻입니다. (출처: Phi-4-Reasoning-Vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)

훈련 인프라도 주목할 만합니다. 240대의 NVIDIA B200 GPU를 사용해 단 4일 만에 학습을 완료했습니다. 이 모델의 학습 비용은 수천만 달러가 드는 대형 모델 대비 훨씬 낮습니다. 직접 재현 가능한 수치: 200B 토큰 ÷ 1T 토큰 = 약 20% 수준의 데이터로 MathVista에서 75.2%, ChartQA에서 83.3%를 기록했습니다.

추론을 끄면 더 잘 되는 조건이 따로 있습니다

💡 추론 모델은 항상 더 생각할수록 좋다는 통념, 공식 벤치마크 수치가 직접 반박합니다.

AI 업계에서 “추론 모델(reasoning model)”은 단계별로 깊이 생각하는 게 강점이라고 알려져 있습니다. 그런데 Phi-4 Reasoning Vision의 공식 기술 보고서는 의외의 사실을 담고 있습니다. 이미지 캡션 작성, OCR(문자 인식), 간단한 물체 감지 같은 작업에서는 추론을 강제로 켜면 성능이 오히려 떨어진다는 겁니다.

실제 수치를 보면 ChartQA 벤치마크에서 기본 모드(혼합 추론)는 83.3점인데, 강제로 추론을 켠 모드(force thinking)는 82.9점으로 약간 낮아집니다. 반면 MathVerse에서는 기본 모드 44.9점, 강제 추론 53.1점으로 추론이 확실히 도움이 됩니다. 즉 작업 유형에 따라 추론 여부가 성능을 결정합니다. (출처: Phi-4-Reasoning-Vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)

마이크로소프트가 선택한 해법은 학습 데이터를 20:80으로 섞는 것이었습니다. 전체 학습 데이터 중 약 20%는 체인 오브 소트(chain-of-thought) 추론 데이터, 나머지 80%는 빠른 직접 응답 데이터입니다. 모델은 이 혼합 데이터를 통해 어떤 상황에서 깊이 생각하고 어떤 상황에서 바로 답해야 하는지를 스스로 학습했습니다.

사용자가 직접 모드를 제어할 수도 있습니다. 프롬프트에 <think> 토큰을 붙이면 강제로 추론 모드, <nothink> 토큰을 붙이면 빠른 응답 모드로 전환됩니다. 응답 속도가 중요한 서비스라면 후자가 유리합니다.

수학 데이터 늘렸더니 컴퓨터 조작 실력도 올랐습니다

💡 수학 훈련과 UI 조작 훈련은 서로 관계없다고 생각하기 쉬운데, 공식 실험 결과는 다른 얘기를 합니다.

연구팀이 수행한 데이터 비율 실험에서 특이한 결과가 나왔습니다. 수학/과학 데이터를 기존 15만 건에서 45만 건(3배)으로 늘렸을 때, 수학 벤치마크 점수만 오른 게 아니라 컴퓨터 사용(Computer Use Agent, CUA) 점수도 함께 올랐습니다.

구체적인 수치입니다. 수학 150K + 컴퓨터사용 450K 조합에서 ScreenSpot-V2(UI 조작 정확도) 점수는 48.2였습니다. 이 상태에서 수학 데이터만 450K(3배)로 늘리고 컴퓨터사용 데이터는 그대로 뒀더니 ScreenSpot-V2가 48.3으로 유지됐고, 두 데이터 모두 450K·850K로 늘렸을 때는 63.1까지 올랐습니다. 수학 훈련이 구조화된 시각 추론 능력 자체를 강화시키고, 이게 UI 조작에도 전이됩니다. (출처: arXiv 2603.03975, 2026.03.04)

이 결과가 갖는 의미는 단순한 수치 이상입니다. 수학 훈련이 UI 조작 능력에도 도움이 된다는 건, 앞으로 코딩 에이전트나 컴퓨터 사용 에이전트를 더 잘 만들려면 수학 데이터 품질을 높이는 게 핵심 전략 중 하나라는 뜻입니다.

벤치마크 실제로 비교해보면 어떻게 나오나요?

주요 벤치마크에서 경쟁 오픈소스 모델들과 비교한 수치입니다. 주목할 건 모델 크기(파라미터 수)와 성능의 관계입니다. (출처: Phi-4-Reasoning-Vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)

모델 파라미터 MathVista ChartQA ScreenSpot v2 MMMU
Phi-4 Reasoning Vision 15B 75.2 83.3 88.2 54.3
Gemma3-12B 12B 57.4 39.0 3.5 50.0
Kimi-VL-A3B 약 3B 67.1 87.0 89.8 52.0
Qwen3-VL-8B 8B 77.1 83.1 91.5 60.7
Qwen3-VL-32B 32B 81.8 84.0 93.9 70.6

표에서 눈에 띄는 건 Gemma3-12B의 ScreenSpot v2 점수 3.5입니다. 화면 UI 조작이 전혀 안 된다는 뜻입니다. 반면 Phi-4 Reasoning Vision은 같은 항목에서 88.2를 기록했습니다. 파라미터 크기는 비슷하지만 용도 면에서 완전히 다른 특성을 보입니다.

MMMU(종합 멀티모달 이해)에서는 32B짜리 Qwen3-VL-32B가 70.6으로 Phi-4 Reasoning Vision(54.3)을 상당히 앞섭니다. 수학 추론(MathVista)도 Qwen3-VL-8B(77.1)에 살짝 밀립니다. 크기 대비 가성비는 뛰어나지만 최고 성능 모델과는 격차가 있습니다.

한계와 주의해야 할 점

마이크로소프트 연구팀이 직접 인정한 한계들입니다. 솔직히 이런 부분을 공개적으로 밝히는 것 자체가 드문 일이라, 그대로 전달하는 게 낫습니다.

첫째, 영어 외 언어 성능이 떨어집니다. 모델 카드에 명시된 내용입니다. 한국어 포함 비영어권 텍스트는 영어 대비 성능이 낮습니다. 한국어 이미지 분석이나 한국어 수학 문제 풀이에 활용할 때는 결과를 별도로 검증해야 합니다. (출처: Phi-4-Reasoning-Vision-15B HuggingFace 모델 카드)

둘째, 추론 모드 전환 경계가 아직 불분명합니다. 모델이 어떤 상황에서 생각하고 어떤 상황에서 바로 답할지는 학습 데이터 분포에서 암묵적으로 학습된 것입니다. 연구팀은 이 경계를 “열린 문제(open problem)”라고 표현했습니다. 즉 어떤 작업에서 추론 모드가 켜지는지 예측하기 어렵습니다.

셋째, 고해상도 처리 시 속도가 느려집니다. 모델은 최대 3,600개의 시각 토큰을 처리할 수 있는데, 이는 약 720p 해상도에 해당합니다. 어텐션 연산이 시퀀스 길이의 제곱에 비례해 증가하기 때문에 고해상도 이미지를 다룰 때 지연이 생깁니다.

넷째, 의료·법률·금융 분야 직접 적용은 권장하지 않습니다. 모델 카드에 명시된 비적합 용도(Out-of-Scope)입니다. 결과에 오류가 있어도 모델이 자신감 있게 답하는 할루시네이션 문제가 여전히 존재합니다.

어떻게 써볼 수 있나요?

접근 경로는 세 가지입니다. 가장 쉬운 방법은 Microsoft Foundry에서 바로 테스트하는 것입니다. 별도 설치 없이 웹 인터페이스에서 이미지를 올려 질문할 수 있습니다. 두 번째는 HuggingFace에서 모델 가중치를 받아 직접 로컬에 올리는 방법입니다. 세 번째는 GitHub에서 파인튜닝 코드와 벤치마크 로그까지 받아 자체 데이터로 추가 학습하는 방법입니다.

로컬 실행 요구 사항은 이렇습니다. 권장 환경은 NVIDIA A6000, A100, H100, 또는 B200 GPU이고, Ubuntu 22.04.5 LTS 운영체제를 기준으로 테스트됐습니다. bf16 정밀도로 실행하는 걸 권장하고, vLLM 서버로 호스팅하는 게 공식 권장 방법입니다. 필요 패키지는 torch >= 2.7.1, transformers >= 4.57.1입니다.

컨텍스트 길이는 16,384 토큰입니다. 입력은 텍스트와 이미지를 받고, 출력은 텍스트만 생성합니다. 이미지 내 공간 좌표(버튼 위치 등)는 [0.0, 1.0]으로 정규화된 값을 출력합니다.

써볼 만한 실제 활용 시나리오를 꼽자면, UI 자동화 에이전트(버튼 감지·클릭 좌표 추출), 수식이 담긴 이미지 풀이, 차트나 영수증 데이터 추출, 수학 숙제 사진 검토 등입니다. 한국어 성능이 제한적이라는 점을 감안하면, 영어 기반 업무 자동화에서 더 안정적인 결과를 기대할 수 있습니다.

Q&A

Q1. Phi-4 Reasoning Vision은 무료로 사용할 수 있나요?
네, MIT 라이선스로 공개됐습니다. HuggingFace에서 모델 가중치를 무료로 받을 수 있고, 상업적 활용도 허용됩니다. Microsoft Foundry에서 API 형태로 사용할 때는 별도 비용이 발생할 수 있으니 공식 페이지에서 확인하는 게 좋습니다.
Q2. 한국어로 이미지 분석을 시키면 잘 되나요?
공식 모델 카드에 “영어 외 언어는 성능이 낮을 수 있다”고 명시돼 있습니다. 한국어 텍스트가 포함된 이미지나 한국어 질문에서는 영어 대비 결과가 떨어질 수 있습니다. 중요한 작업이라면 결과를 별도로 검증하는 걸 권장합니다. 이유는 아직 공개되지 않았으나 학습 데이터 구성에서 비영어권 데이터 비중이 낮은 것으로 추정됩니다.
Q3. GPT-4o나 Gemini 3.1 Pro 대신 쓸 수 있는 수준인가요?
특정 작업에서는 가능합니다. UI 조작(ScreenSpot v2 88.2%), 차트 분석(ChartQA 83.3%)에서 경쟁력 있는 수치를 보입니다. 다만 종합 멀티모달 이해(MMMU 54.3%)는 대형 클라우드 모델에 미치지 못합니다. 비용·속도가 중요한 에이전트 워크플로우에서는 Phi-4 Reasoning Vision이 실용적인 선택이 될 수 있습니다.
Q4. <think>와 <nothink> 토큰은 어떻게 써야 하나요?
프롬프트 마지막에 어시스턴트 차례를 시작하는 부분에 해당 토큰을 붙이면 됩니다. 수학 풀이나 복잡한 추론이 필요하면 <think>를, 이미지 설명이나 OCR처럼 빠른 응답이 필요하면 <nothink>를 사용합니다. 기본 모드에서는 모델이 작업 유형을 스스로 판단합니다.
Q5. 로컬에서 실행하려면 어느 정도 GPU가 필요한가요?
공식 테스트 환경은 NVIDIA A6000, A100, H100, B200 GPU이고 bf16 정밀도 기준입니다. 15B 파라미터 모델 특성상 최소 24GB 이상 VRAM이 필요합니다. 양자화(quantization)를 적용하면 더 낮은 사양에서도 실행 가능하지만, 공식적으로 확인된 성능 수치는 아닙니다. vLLM을 사용해 서버 형태로 실행하는 것이 공식 권장 방식입니다.

마치며

Phi-4 Reasoning Vision은 “클수록 좋다”는 AI 업계 상식에 작지만 유의미한 균열을 냅니다. 1조 토큰이 아니라 200억 토큰으로 비슷한 성능을 낸 건 데이터 품질이 규모를 어느 정도 대체할 수 있다는 실증입니다. MIT 라이선스로 가중치·코드·벤치마크 로그까지 공개한 것도, 자기 결과를 직접 검증할 수 있도록 한 투명성 측면에서 평가할 만합니다.

써볼 만한 상황은 명확합니다. 지연 시간이 민감한 에이전트 워크플로우, 화면 UI 자동화, 수식 이미지 풀이, 차트·문서 데이터 추출. 이 네 가지에서는 상용 클라우드 모델을 대체할 실용적인 선택지가 됩니다.

반면 한국어 지원이 약하고, 종합 멀티모달 이해에서는 대형 모델에 아직 밀립니다. 추론 모드 전환 경계가 불분명하다는 점도 프로덕션에 그대로 투입하기 전 테스트가 필요한 이유입니다. 본인 업무에 맞는 벤치마크를 직접 돌려보고 결정하는 게 가장 정확합니다.

본 포스팅 참고 자료

  1. Microsoft Research 공식 블로그 — Phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model: https://www.microsoft.com/en-us/research/blog/…
  2. Phi-4-Reasoning-Vision-15B Technical Report — arXiv 2603.03975 (2026.03.04): https://arxiv.org/abs/2603.03975
  3. HuggingFace 공식 모델 카드 — microsoft/Phi-4-reasoning-vision-15B: https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B
  4. Microsoft Azure AI Foundry 블로그 — Introducing Phi-4-Reasoning-Vision to Microsoft Foundry (2026.03.04): https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/…
  5. VentureBeat — Microsoft built Phi-4-reasoning-vision-15B to know when to think (2026.03.04): https://venturebeat.com/technology/…

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 4일 기준 Microsoft Research 공식 발표 및 arXiv 기술 보고서(2603.03975)를 바탕으로 작성됐습니다. 의료·법률·금융 분야에 직접 적용할 경우 추가 검증이 필요합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기