TranslateGemma, 12B가 27B를 이겼습니다

Published on

in

TranslateGemma, 12B가 27B를 이겼습니다

2026.01.15 공식 출시
Gemma 3 기반
4B / 12B / 27B

TranslateGemma, 12B가 27B를 이겼습니다

구글이 2026년 1월 15일 공개한 오픈소스 번역 모델입니다. 파라미터 절반짜리 모델이 더 큰 베이스라인을 넘어섰고, 한국어도 공식 인간 평가 대상 10개 언어 안에 들어 있습니다. 아직 한국어로 제대로 정리된 글이 없어 공식 기술보고서와 실사용 후기를 교차해서 살펴봤습니다.

3.60
12B MetricX 점수
4.04
27B 베이스라인 점수
55개
지원 언어 (한국어 포함)

TranslateGemma가 뭔지 한 줄로

TranslateGemma는 구글이 2026년 1월 15일에 공개한 오픈소스 번역 특화 모델입니다. 기존의 Gemma 3 파운데이션 모델을 베이스로 삼아, 번역 품질만 집중적으로 끌어올리는 2단계 파인튜닝을 거쳤습니다. 4B, 12B, 27B 세 가지 사이즈로 제공되고, Hugging Face와 Kaggle에서 무료로 내려받을 수 있습니다. (출처: 구글 공식 블로그, 2026.01.15)

일반적인 다목적 LLM과는 다르게, TranslateGemma는 번역만 잘하도록 설계되어 있습니다. 훈련 데이터의 30%는 범용 instruction-following 데이터로 채워 모델이 번역 과적합에 빠지지 않도록 했지만, 나머지는 전부 고품질 병렬 번역 데이터입니다. (출처: arXiv:2601.09012, TranslateGemma Technical Report, 2026.01.21)

💡 공식 발표문에서 말하는 “효율성”이 실제 수치로 어떻게 나타나는지, 아래 섹션에서 바로 확인할 수 있습니다.

▲ 목차로 돌아가기

파라미터가 작아도 성능이 앞서는 이유

보통 AI 모델은 파라미터가 클수록 성능이 좋다고 가정합니다. TranslateGemma는 이 전제를 번역 도메인에서 정면으로 뒤집습니다. 공식 기술보고서의 Table 1에 따르면, 12B TranslateGemma의 MetricX 점수는 3.60인 반면, 두 배 이상 큰 27B Gemma 3 베이스라인은 4.04입니다. MetricX는 낮을수록 오류가 적다는 의미이므로, 절반 크기 모델이 오히려 약 10.9% 더 정확한 번역을 냅니다. (출처: arXiv:2601.09012, Table 1)

이게 가능한 핵심은 훈련 방식에 있습니다. 구글은 Gemini 2.5 Flash로 생성한 합성 번역 데이터와 인간 번역 데이터를 혼합한 뒤, MetricX-QE와 AutoMQM이라는 두 가지 보상 모델을 앙상블로 써서 강화학습을 진행했습니다. 단순히 더 많은 데이터를 때려넣은 게 아니라, Gemini 대형 모델의 번역 “감각”을 작은 모델로 증류(distillation)한 방식입니다.

💡 파라미터 수와 번역 품질이 반드시 비례하지 않는다는 걸 공식 수치로 보여준 첫 사례입니다. 실제로 12B 모델은 맥북 프로에서 구동 가능한데, 27B 베이스라인보다 나은 번역을 냅니다.

4B 모델도 마찬가지입니다. 공식 보고서 기준으로 4B TranslateGemma(MetricX 5.32)는 12B Gemma 3 베이스라인(MetricX 4.86)에 근접한 성능을 냅니다. 스마트폰 수준 디바이스에서 이전 세대 노트북 모델에 필적하는 번역이 나온다는 뜻입니다.

표 1. WMT24++ 벤치마크 MetricX 점수 비교 (낮을수록 우수) / 출처: arXiv:2601.09012 Table 1
모델 크기 MetricX ↓ Comet22 ↑
TranslateGemma 27B 3.09 84.4
TranslateGemma 12B 3.60 83.5
Gemma 3 베이스라인 27B 4.04 83.1
TranslateGemma 4B 5.32 80.1
Gemma 3 베이스라인 12B 4.86 81.6
Gemma 3 베이스라인 4B 6.97 77.2

▲ 목차로 돌아가기

한국어 번역 — 공식 수치로 본 실력

한국어 관련 글이 국내에 거의 없어서 직접 기술보고서를 파봤습니다. TranslateGemma는 55개 언어 자동 평가뿐 아니라, WMT25 테스트셋 기준 인간 평가 10개 언어 쌍 안에 “English→Korean”을 명시적으로 포함합니다. (출처: arXiv:2601.09012, Section 6 Human Evaluation)

Table 4(자동 평가, 언어별 MetricX 세부 결과)에는 en→ko_KR 항목이 별도로 수록되어 있습니다. 27B TranslateGemma는 2.81, 27B Gemma 3 베이스라인은 3.43입니다. 약 18% 오류율 감소입니다. 인간 평가 MQM 기준으로는 27B TranslateGemma가 3.1점, 27B Gemma 3가 3.8점으로, TranslateGemma가 한국어에서도 유의미하게 앞섭니다. (출처: arXiv:2601.09012, Table 3 & Table 4)

💡 공식 기술보고서와 벤치마크 데이터를 같이 놓고 보면, 한국어가 “그냥 포함된 언어”가 아니라 인간 검증까지 거친 언어라는 걸 알 수 있습니다.

단, MQM 점수 차이가 독일어(1.8 vs 2.5)에 비해 한국어(3.1 vs 3.8)는 절대적으로 더 높습니다. 한국어가 영어-독일어 쌍보다 번역 난도가 높다는 건 예상 가능하지만, 같은 조건에서도 여전히 개선 여지가 있다는 의미기도 합니다.

▲ 목차로 돌아가기

모델별 크기와 실행 환경 정리

구글은 모델 세 종류를 각각 다른 환경에 최적화해서 설계했습니다. 아래 표가 핵심입니다.

표 2. 모델 크기별 권장 실행 환경 / 출처: 구글 공식 블로그(2026.01.15)
모델 권장 환경 특징
4B 모바일·엣지 디바이스 오프라인 구동, 12B 베이스라인급 성능
12B 일반 노트북 (Apple Silicon 포함) 27B 베이스라인 초과 성능, 로컬 개발 적합
27B 클라우드 단일 H100 / TPU 최고 품질, 클러스터 불필요

27B 모델이 단일 H100 하나로 돌아간다는 점도 체감 장벽을 낮춰줍니다. 클러스터를 붙이지 않아도 된다는 건 클라우드 비용 측면에서 실질적인 차이가 납니다. 실사용 테스트에서 12B 모델은 Apple Silicon 맥북에서 int8 양자화 기준 120개 UI 문자열을 오프라인으로 처리했고, CPU 전용 구동도 속도는 느리지만 결과물 품질은 유지됐습니다. (출처: wavespeed.ai 실사용 후기, 2026.01.19)

▲ 목차로 돌아가기

쓰기 좋은 상황 vs 한계가 드러나는 상황

잘 맞는 사용 시나리오

개인정보 보호가 중요한 문서 번역에서 효과가 명확합니다. 클라우드에 데이터가 올라가지 않고, 로컬에서 전부 처리됩니다. 배치 번역에서도 강점이 있습니다. 실사용 후기 기준 약 6,800단어 분량의 제품 설명을 CSV 형태로 처리했을 때 HTML 태그가 유지됐고, 비용은 전력비 수준에 불과했습니다. (출처: wavespeed.ai, 2026.01.19) DeepL, ChatGPT API 대비 반복 배치에서 단가가 0원에 수렴한다는 건 실무에서 체감 가능한 숫자입니다.

공개 기술보고서가 밝힌 한계

기술보고서 Section 6에 솔직하게 적혀 있는 내용이 있습니다. 일본어→영어 번역에서 TranslateGemma 12B와 27B 모두 Gemma 3 베이스라인보다 MQM 점수가 나빠졌습니다. 원인은 고유명사(named entity) 오역이었고, 다른 오류 범주는 개선됐지만 이 부분이 발목을 잡았습니다. (출처: arXiv:2601.09012, Table 3 & Section 6) 번역 특화 파인튜닝이 오히려 특정 언어 쌍에서 부작용을 낳을 수 있다는 걸 보여줍니다.

💡 “번역 전용으로 파인튜닝하면 무조건 좋아진다”는 통념이 일본어→영어 조합에서 깨집니다. 이유는 공개되지 않았고, 구글도 named entity 오역이 원인이라고만 밝혔습니다.

슬랭, 반어, 존댓말 뉘앙스도 한계가 있습니다. 실사용 후기에서 일본어 경어는 “안전하지만 딱딱하다”는 평이 나왔고, 용어 일관성은 용어집(glossary)을 따로 공급하지 않으면 문단 내에서 흔들립니다. ChatGPT 번역 모드가 문맥 추론과 어조 조절에서 앞선다는 비교 결과도 있습니다. (출처: wavespeed.ai, 2026.01.19) 요약하면, 정확성과 프라이버시가 중요한 배치 작업에는 TranslateGemma, 뉘앙스와 어조가 중요한 마케팅 카피에는 ChatGPT 번역이 더 적합합니다.

▲ 목차로 돌아가기

지금 바로 쓰는 방법

진입 방법은 세 가지입니다. 코드 없이 시작하고 싶다면 Kaggle 노트북에서 바로 실행 가능합니다. 로컬에 세팅하려면 Hugging Face에서 모델을 내려받은 뒤, 구글이 공식 제공하는 Colab 예제 노트북을 그대로 따라가면 됩니다. 클라우드 배포는 Vertex AI Model Garden에서 TranslateGemma를 검색하면 원클릭 배포 옵션이 있습니다.

프롬프트 형식은 기술보고서 Figure 3에 그대로 나와 있습니다. 핵심은 소스 언어 이름, 언어 코드, 타깃 언어 이름과 코드를 명시하고, 번역 텍스트를 맨 뒤에 붙이는 구조입니다. 이 형식을 그대로 따르지 않으면 품질이 달라질 수 있다고 기술보고서에 명시되어 있습니다. 예를 들어 한국어로 번역할 때는 target_lang=Korean, tgt_lang_code=ko-KR로 설정합니다.

공식 권장 프롬프트 구조 (arXiv:2601.09012, Figure 3)

You are a professional {source_lang} ({src_lang_code}) to {target_lang} ({tgt_lang_code}) translator. Your goal is to accurately convey the meaning and nuances of the original text while adhering to {target_lang} grammar, vocabulary, and cultural sensitivities. Produce only the {target_lang} translation, without any additional explanations or commentary. Please translate the following {source_lang} text into {target_lang}:
{text}

500개 추가 언어 쌍에 대한 학습도 진행됐지만, 이 부분은 공식 평가 지표가 아직 없습니다. 구글은 커뮤니티 탐구와 추가 연구를 위해 전체 목록을 기술보고서 Appendix에 포함했습니다. 한국어 이외 소수 언어를 써야 한다면 이 Appendix를 먼저 확인하는 게 좋습니다. (출처: arXiv:2601.09012, Section 5.1 & Appendix B)

▲ 목차로 돌아가기

Q&A

Q1. TranslateGemma는 완전 무료인가요?
모델 자체는 Hugging Face와 Kaggle에서 무료로 내려받을 수 있습니다. 실행 비용은 본인 컴퓨터나 서버의 전력·연산 비용뿐입니다. Vertex AI를 쓰면 GCP 사용 요금이 발생하지만, 로컬 구동은 비용이 없습니다.
Q2. 한국어 번역 품질은 구글 번역기보다 좋은가요?
공식 기술보고서 기준 TranslateGemma 27B는 WMT25 인간 평가에서 Gemma 3 베이스라인보다 한국어에서 개선됐습니다(MQM 3.1 vs 3.8). 단, 구글 번역기(Google Translate 소비자 앱)와의 직접 수치 비교 데이터는 기술보고서에 포함되어 있지 않습니다. 배치 번역이나 사내 문서처럼 프라이버시가 중요한 상황에서는 TranslateGemma가 명확한 강점이 있습니다.
Q3. 일본어→한국어 번역도 되나요?
공식 WMT24++ 평가는 영어 중심 언어 쌍 위주입니다. 일본어→한국어 같은 비영어 중심 쌍은 SFT 데이터에는 포함됐을 가능성이 있지만, 공식 평가 결과가 별도로 제시되어 있지 않습니다. 구글은 이런 확장 언어 쌍에 대한 공식 평가 지표가 아직 없다고 직접 밝혔습니다. (출처: arXiv:2601.09012, Section 5.1)
Q4. 4B 모델을 스마트폰에서 실제로 쓸 수 있나요?
구글 공식 블로그에 4B 모델을 “모바일 및 엣지 배포에 최적화”됐다고 명시되어 있습니다. 실제로 Pixel 9 Pro SoC에서 Gemma 3 270M 기준 배터리 소모량이 25회 대화에 0.75%였던 사례(출처: 구글 개발자 블로그)를 참고하면, 4B TranslateGemma는 그보다 크지만 온디바이스 구동 자체는 현실적입니다. 다만 실제 스마트폰 배터리 및 속도 벤치마크는 아직 공개된 수치가 없습니다.
Q5. DeepL이나 ChatGPT 번역 대신 쓸 수 있나요?
용도에 따라 다릅니다. 반복 배치 번역, 오프라인 환경, 개인정보 민감 문서라면 TranslateGemma가 비용·프라이버시 양쪽에서 유리합니다. 마케팅 카피나 뉘앙스가 중요한 글쓰기는 ChatGPT 번역이 아직 앞서고, 빠른 한 문장 확인은 구글 번역기가 편합니다. 셋을 혼용하는 게 현실적입니다.

▲ 목차로 돌아가기

마치며

TranslateGemma는 “오픈소스 번역 모델”이라는 카테고리에서 지금까지 나온 것 중 가장 완성도 높은 선택지입니다. 12B가 27B를 능가한다는 수치가 그냥 마케팅 문구가 아니라 arXiv 기술보고서의 Table 1에 그대로 나와 있다는 게 신뢰의 근거입니다. 한국어도 자동 평가뿐 아니라 전문 번역사 인간 평가까지 거쳤습니다.

다만 솔직하게 말하면, 일본어→영어에서 성능 저하가 나온 것처럼 번역 특화 파인튜닝이 모든 언어 쌍에서 만능은 아닙니다. 슬랭·경어·어조 조절에서는 아직 ChatGPT 번역이 앞섭니다. 그래도 무료로 오프라인에서 쓸 수 있고, 한국어에서 인간 평가까지 통과한 모델이라는 점은 가볍게 넘길 사실이 아닙니다.

배치 번역 자동화나 사내 문서 번역을 고민하고 있다면, 일단 12B 모델을 로컬에 올려보는 것부터 시작해도 충분합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. 구글 공식 블로그 — TranslateGemma 발표 (2026.01.15) : https://blog.google/intl/ko-kr/company-news/technology/translategemma/
  2. TranslateGemma Technical Report (arXiv:2601.09012, 2026.01.21) : https://arxiv.org/abs/2601.09012
  3. Google for Developers — Hugging Face 모델 컬렉션 : https://huggingface.co/collections/google/translategemma
  4. TranslateGemma vs ChatGPT Translate 실사용 비교 (wavespeed.ai, 2026.01.19) : https://wavespeed.ai/blog/posts/translategemma-vs-chatgpt-translate/
  5. InfoQ — Google TranslateGemma 분석 (2026.01.28) : https://www.infoq.com/news/2026/01/google-translategemma-models/

본 포스팅은 2026년 4월 2일 기준으로 작성되었습니다. TranslateGemma의 모델 사이즈, 지원 언어, 벤치마크 수치, 배포 환경 등은 구글의 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 공식 구글 블로그 및 arXiv 기술보고서를 직접 확인하시기 바랍니다. 본 포스팅에 포함된 수치는 모두 인용 출처를 명시하였으며, 인용 직후 해석은 작성자 의견이 포함됩니다.

댓글 남기기


최신 글

  • 현금영수증 미발급 신고 2026, 포상금 전 증빙
    현금영수증 미발급 신고 2026 기준으로 결제 증빙, 상호·연락처, 요청 기록 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 보육료 전환 신청 2026, 양육수당 중복 체크
    보육료 전환 신청 2026 기준으로 입소일과 신청일, 양육수당·부모급여, 보육료 자격 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청년월세지원 신청 2026, 임대차 서류 체크
    청년월세지원 신청 2026 기준으로 나이·거주 요건, 계약서와 이체 내역, 본인·원가구 소득 확인 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민취업지원제도 신청 2026, 구직촉진수당 체크
    국민취업지원제도 신청 2026 기준으로 유형과 자격, 월 소득과 재산, 구직활동 계획 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기