Phi-4-reasoning-vision-15B, 작다는 말이 절반만 맞습니다

Published on

in

Phi-4-reasoning-vision-15B, 작다는 말이 절반만 맞습니다

2026.03.04 기준
MIT 라이선스 오픈웨이트
15B 파라미터

Phi-4-reasoning-vision-15B,
작다는 말이 절반만 맞습니다

마이크로소프트가 2026년 3월 4일 공식 발표한 멀티모달 추론 모델입니다. 경쟁 모델의 5분의 1 이하 데이터로 훈련했는데도 수학·과학 추론과 GUI 조작에서 준수한 성능을 냈다고 주장합니다. 그런데 공식 기술 보고서를 직접 읽어보면, 자랑하지 않은 수치가 더 눈에 띕니다.

200B
훈련 토큰 수
4일
B200 240개 기준 훈련 기간
16K
컨텍스트 길이 (최대)
54.3
MMMU 점수 (Qwen3-32B는 70.6)

결론부터: 어떤 모델인가요?

Phi-4-reasoning-vision-15B는 마이크로소프트 리서치팀이 2026년 3월 4일 발표한 15B 파라미터짜리 오픈웨이트 멀티모달 추론 모델입니다. 텍스트와 이미지를 동시에 처리하면서, 복잡한 문제에는 체인오브소트(Chain-of-Thought) 추론을 쓰고 단순한 작업에는 바로 답변을 뱉어냅니다. MIT 라이선스로 공개됐고 HuggingFace와 Azure AI Foundry에서 바로 받을 수 있습니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

주로 쓸 수 있는 영역은 두 가지입니다. 수학·과학 문제를 이미지로 받아서 풀거나, 데스크탑·모바일·웹 화면을 보고 어떤 버튼을 클릭해야 하는지 판단하는 컴퓨터 사용 에이전트(CUA) 작업입니다. 그 외에도 이미지 설명, 문서·영수증 OCR, 차트 읽기 같은 일반 비전-언어 작업도 지원합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기