Gemma 3 기반
4B / 12B / 27B
TranslateGemma, 12B가 27B를 이겼습니다
구글이 2026년 1월 15일 공개한 오픈소스 번역 모델입니다. 파라미터 절반짜리 모델이 더 큰 베이스라인을 넘어섰고, 한국어도 공식 인간 평가 대상 10개 언어 안에 들어 있습니다. 아직 한국어로 제대로 정리된 글이 없어 공식 기술보고서와 실사용 후기를 교차해서 살펴봤습니다.
TranslateGemma가 뭔지 한 줄로
TranslateGemma는 구글이 2026년 1월 15일에 공개한 오픈소스 번역 특화 모델입니다. 기존의 Gemma 3 파운데이션 모델을 베이스로 삼아, 번역 품질만 집중적으로 끌어올리는 2단계 파인튜닝을 거쳤습니다. 4B, 12B, 27B 세 가지 사이즈로 제공되고, Hugging Face와 Kaggle에서 무료로 내려받을 수 있습니다. (출처: 구글 공식 블로그, 2026.01.15)
일반적인 다목적 LLM과는 다르게, TranslateGemma는 번역만 잘하도록 설계되어 있습니다. 훈련 데이터의 30%는 범용 instruction-following 데이터로 채워 모델이 번역 과적합에 빠지지 않도록 했지만, 나머지는 전부 고품질 병렬 번역 데이터입니다. (출처: arXiv:2601.09012, TranslateGemma Technical Report, 2026.01.21)
💡 공식 발표문에서 말하는 “효율성”이 실제 수치로 어떻게 나타나는지, 아래 섹션에서 바로 확인할 수 있습니다.
파라미터가 작아도 성능이 앞서는 이유
보통 AI 모델은 파라미터가 클수록 성능이 좋다고 가정합니다. TranslateGemma는 이 전제를 번역 도메인에서 정면으로 뒤집습니다. 공식 기술보고서의 Table 1에 따르면, 12B TranslateGemma의 MetricX 점수는 3.60인 반면, 두 배 이상 큰 27B Gemma 3 베이스라인은 4.04입니다. MetricX는 낮을수록 오류가 적다는 의미이므로, 절반 크기 모델이 오히려 약 10.9% 더 정확한 번역을 냅니다. (출처: arXiv:2601.09012, Table 1)
이게 가능한 핵심은 훈련 방식에 있습니다. 구글은 Gemini 2.5 Flash로 생성한 합성 번역 데이터와 인간 번역 데이터를 혼합한 뒤, MetricX-QE와 AutoMQM이라는 두 가지 보상 모델을 앙상블로 써서 강화학습을 진행했습니다. 단순히 더 많은 데이터를 때려넣은 게 아니라, Gemini 대형 모델의 번역 “감각”을 작은 모델로 증류(distillation)한 방식입니다.
💡 파라미터 수와 번역 품질이 반드시 비례하지 않는다는 걸 공식 수치로 보여준 첫 사례입니다. 실제로 12B 모델은 맥북 프로에서 구동 가능한데, 27B 베이스라인보다 나은 번역을 냅니다.
4B 모델도 마찬가지입니다. 공식 보고서 기준으로 4B TranslateGemma(MetricX 5.32)는 12B Gemma 3 베이스라인(MetricX 4.86)에 근접한 성능을 냅니다. 스마트폰 수준 디바이스에서 이전 세대 노트북 모델에 필적하는 번역이 나온다는 뜻입니다.
| 모델 | 크기 | MetricX ↓ | Comet22 ↑ |
|---|---|---|---|
| TranslateGemma | 27B | 3.09 | 84.4 |
| TranslateGemma | 12B | 3.60 | 83.5 |
| Gemma 3 베이스라인 | 27B | 4.04 | 83.1 |
| TranslateGemma | 4B | 5.32 | 80.1 |
| Gemma 3 베이스라인 | 12B | 4.86 | 81.6 |
| Gemma 3 베이스라인 | 4B | 6.97 | 77.2 |
한국어 번역 — 공식 수치로 본 실력
한국어 관련 글이 국내에 거의 없어서 직접 기술보고서를 파봤습니다. TranslateGemma는 55개 언어 자동 평가뿐 아니라, WMT25 테스트셋 기준 인간 평가 10개 언어 쌍 안에 “English→Korean”을 명시적으로 포함합니다. (출처: arXiv:2601.09012, Section 6 Human Evaluation)
Table 4(자동 평가, 언어별 MetricX 세부 결과)에는 en→ko_KR 항목이 별도로 수록되어 있습니다. 27B TranslateGemma는 2.81, 27B Gemma 3 베이스라인은 3.43입니다. 약 18% 오류율 감소입니다. 인간 평가 MQM 기준으로는 27B TranslateGemma가 3.1점, 27B Gemma 3가 3.8점으로, TranslateGemma가 한국어에서도 유의미하게 앞섭니다. (출처: arXiv:2601.09012, Table 3 & Table 4)
💡 공식 기술보고서와 벤치마크 데이터를 같이 놓고 보면, 한국어가 “그냥 포함된 언어”가 아니라 인간 검증까지 거친 언어라는 걸 알 수 있습니다.
단, MQM 점수 차이가 독일어(1.8 vs 2.5)에 비해 한국어(3.1 vs 3.8)는 절대적으로 더 높습니다. 한국어가 영어-독일어 쌍보다 번역 난도가 높다는 건 예상 가능하지만, 같은 조건에서도 여전히 개선 여지가 있다는 의미기도 합니다.
모델별 크기와 실행 환경 정리
구글은 모델 세 종류를 각각 다른 환경에 최적화해서 설계했습니다. 아래 표가 핵심입니다.
| 모델 | 권장 환경 | 특징 |
|---|---|---|
| 4B | 모바일·엣지 디바이스 | 오프라인 구동, 12B 베이스라인급 성능 |
| 12B | 일반 노트북 (Apple Silicon 포함) | 27B 베이스라인 초과 성능, 로컬 개발 적합 |
| 27B | 클라우드 단일 H100 / TPU | 최고 품질, 클러스터 불필요 |
27B 모델이 단일 H100 하나로 돌아간다는 점도 체감 장벽을 낮춰줍니다. 클러스터를 붙이지 않아도 된다는 건 클라우드 비용 측면에서 실질적인 차이가 납니다. 실사용 테스트에서 12B 모델은 Apple Silicon 맥북에서 int8 양자화 기준 120개 UI 문자열을 오프라인으로 처리했고, CPU 전용 구동도 속도는 느리지만 결과물 품질은 유지됐습니다. (출처: wavespeed.ai 실사용 후기, 2026.01.19)
쓰기 좋은 상황 vs 한계가 드러나는 상황
잘 맞는 사용 시나리오
개인정보 보호가 중요한 문서 번역에서 효과가 명확합니다. 클라우드에 데이터가 올라가지 않고, 로컬에서 전부 처리됩니다. 배치 번역에서도 강점이 있습니다. 실사용 후기 기준 약 6,800단어 분량의 제품 설명을 CSV 형태로 처리했을 때 HTML 태그가 유지됐고, 비용은 전력비 수준에 불과했습니다. (출처: wavespeed.ai, 2026.01.19) DeepL, ChatGPT API 대비 반복 배치에서 단가가 0원에 수렴한다는 건 실무에서 체감 가능한 숫자입니다.
공개 기술보고서가 밝힌 한계
기술보고서 Section 6에 솔직하게 적혀 있는 내용이 있습니다. 일본어→영어 번역에서 TranslateGemma 12B와 27B 모두 Gemma 3 베이스라인보다 MQM 점수가 나빠졌습니다. 원인은 고유명사(named entity) 오역이었고, 다른 오류 범주는 개선됐지만 이 부분이 발목을 잡았습니다. (출처: arXiv:2601.09012, Table 3 & Section 6) 번역 특화 파인튜닝이 오히려 특정 언어 쌍에서 부작용을 낳을 수 있다는 걸 보여줍니다.
💡 “번역 전용으로 파인튜닝하면 무조건 좋아진다”는 통념이 일본어→영어 조합에서 깨집니다. 이유는 공개되지 않았고, 구글도 named entity 오역이 원인이라고만 밝혔습니다.
슬랭, 반어, 존댓말 뉘앙스도 한계가 있습니다. 실사용 후기에서 일본어 경어는 “안전하지만 딱딱하다”는 평이 나왔고, 용어 일관성은 용어집(glossary)을 따로 공급하지 않으면 문단 내에서 흔들립니다. ChatGPT 번역 모드가 문맥 추론과 어조 조절에서 앞선다는 비교 결과도 있습니다. (출처: wavespeed.ai, 2026.01.19) 요약하면, 정확성과 프라이버시가 중요한 배치 작업에는 TranslateGemma, 뉘앙스와 어조가 중요한 마케팅 카피에는 ChatGPT 번역이 더 적합합니다.
지금 바로 쓰는 방법
진입 방법은 세 가지입니다. 코드 없이 시작하고 싶다면 Kaggle 노트북에서 바로 실행 가능합니다. 로컬에 세팅하려면 Hugging Face에서 모델을 내려받은 뒤, 구글이 공식 제공하는 Colab 예제 노트북을 그대로 따라가면 됩니다. 클라우드 배포는 Vertex AI Model Garden에서 TranslateGemma를 검색하면 원클릭 배포 옵션이 있습니다.
프롬프트 형식은 기술보고서 Figure 3에 그대로 나와 있습니다. 핵심은 소스 언어 이름, 언어 코드, 타깃 언어 이름과 코드를 명시하고, 번역 텍스트를 맨 뒤에 붙이는 구조입니다. 이 형식을 그대로 따르지 않으면 품질이 달라질 수 있다고 기술보고서에 명시되어 있습니다. 예를 들어 한국어로 번역할 때는 target_lang=Korean, tgt_lang_code=ko-KR로 설정합니다.
공식 권장 프롬프트 구조 (arXiv:2601.09012, Figure 3)
You are a professional {source_lang} ({src_lang_code}) to {target_lang} ({tgt_lang_code}) translator. Your goal is to accurately convey the meaning and nuances of the original text while adhering to {target_lang} grammar, vocabulary, and cultural sensitivities. Produce only the {target_lang} translation, without any additional explanations or commentary. Please translate the following {source_lang} text into {target_lang}:
{text}
500개 추가 언어 쌍에 대한 학습도 진행됐지만, 이 부분은 공식 평가 지표가 아직 없습니다. 구글은 커뮤니티 탐구와 추가 연구를 위해 전체 목록을 기술보고서 Appendix에 포함했습니다. 한국어 이외 소수 언어를 써야 한다면 이 Appendix를 먼저 확인하는 게 좋습니다. (출처: arXiv:2601.09012, Section 5.1 & Appendix B)
Q&A
마치며
TranslateGemma는 “오픈소스 번역 모델”이라는 카테고리에서 지금까지 나온 것 중 가장 완성도 높은 선택지입니다. 12B가 27B를 능가한다는 수치가 그냥 마케팅 문구가 아니라 arXiv 기술보고서의 Table 1에 그대로 나와 있다는 게 신뢰의 근거입니다. 한국어도 자동 평가뿐 아니라 전문 번역사 인간 평가까지 거쳤습니다.
다만 솔직하게 말하면, 일본어→영어에서 성능 저하가 나온 것처럼 번역 특화 파인튜닝이 모든 언어 쌍에서 만능은 아닙니다. 슬랭·경어·어조 조절에서는 아직 ChatGPT 번역이 앞섭니다. 그래도 무료로 오프라인에서 쓸 수 있고, 한국어에서 인간 평가까지 통과한 모델이라는 점은 가볍게 넘길 사실이 아닙니다.
배치 번역 자동화나 사내 문서 번역을 고민하고 있다면, 일단 12B 모델을 로컬에 올려보는 것부터 시작해도 충분합니다.
본 포스팅 참고 자료
- 구글 공식 블로그 — TranslateGemma 발표 (2026.01.15) : https://blog.google/intl/ko-kr/company-news/technology/translategemma/
- TranslateGemma Technical Report (arXiv:2601.09012, 2026.01.21) : https://arxiv.org/abs/2601.09012
- Google for Developers — Hugging Face 모델 컬렉션 : https://huggingface.co/collections/google/translategemma
- TranslateGemma vs ChatGPT Translate 실사용 비교 (wavespeed.ai, 2026.01.19) : https://wavespeed.ai/blog/posts/translategemma-vs-chatgpt-translate/
- InfoQ — Google TranslateGemma 분석 (2026.01.28) : https://www.infoq.com/news/2026/01/google-translategemma-models/
본 포스팅은 2026년 4월 2일 기준으로 작성되었습니다. TranslateGemma의 모델 사이즈, 지원 언어, 벤치마크 수치, 배포 환경 등은 구글의 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 공식 구글 블로그 및 arXiv 기술보고서를 직접 확인하시기 바랍니다. 본 포스팅에 포함된 수치는 모두 인용 출처를 명시하였으며, 인용 직후 해석은 작성자 의견이 포함됩니다.











댓글 남기기