TranslateGemma 직접 써봤습니다
— 작동하는 것과 막히는 것
구글이 조용히 내놓은 오픈소스 번역 모델인데, 공개된 지 두 달이 넘도록 한국어 심층 분석이 없었습니다. 공식 기술 보고서를 직접 파고들어 확인했습니다.
TranslateGemma가 뭔지 먼저 정리합니다
TranslateGemma는 구글이 2026년 1월 15일에 공개한 오픈소스 기계 번역 모델 제품군입니다. Gemma 3를 기반으로 번역 작업에 특화시켜 파인튜닝한 모델로, 4B·12B·27B 세 가지 사이즈로 나옵니다. (출처: Google 공식 블로그, 2026.01.15)
딱 한 가지 먼저 짚고 넘어갈 게 있습니다. TranslateGemma는 구글 번역처럼 웹사이트에 들어가서 쓰는 소비자 서비스가 아닙니다. 개발자와 연구자가 직접 다운로드해서 자기 시스템에 심는 ‘번역 인프라’입니다. HuggingFace, Kaggle, Vertex AI에서 모델 가중치를 내려받아 로컬에서 실행하거나 서버에 올리는 방식으로 씁니다.
그래서 “일반 사람이 지금 당장 쓸 수 있냐”는 질문에 답하자면 — 못 씁니다. 코드를 돌릴 줄 아는 사람이어야 합니다. 그런데 왜 관심을 가져야 하냐면, 이 모델이 앞으로 나올 번역 앱·서비스들의 안쪽 엔진이 될 가능성이 크기 때문입니다.
12B가 27B를 이긴 구체적인 수치
💡 공식 발표문과 벤치마크 수치를 나란히 놓고 보니, 크기와 성능의 통념이 여기서 완전히 뒤집힙니다.
WMT24++ 벤치마크 기준으로 MetricX 점수를 보면 이렇습니다. MetricX는 숫자가 낮을수록 번역 품질이 좋습니다.
| 모델 | MetricX↓ | Comet22↑ | 비고 |
|---|---|---|---|
| TranslateGemma 12B | 3.60 | 83.5 | 27B 베이스라인 능가 |
| Gemma 3 베이스라인 27B | 4.04 | 83.1 | 파인튜닝 전 |
| TranslateGemma 27B | 3.09 | 84.4 | 최고 성능 |
| TranslateGemma 4B | 5.32 | 80.1 | 모바일 최적화 |
| Gemma 3 베이스라인 4B | 6.97 | 77.2 | 파인튜닝 전 |
(출처: TranslateGemma Technical Report, arXiv:2601.09012, 2026.01.21)
12B TranslateGemma(3.60)가 27B Gemma 3 베이스라인(4.04)보다 낮은 에러 점수를 냈습니다. 파라미터 수로 따지면 절반도 안 되는데 더 잘 번역합니다. 크기를 두 배 이상 줄이고도 성능을 올린 셈입니다.
4B TranslateGemma(5.32)도 마찬가지입니다. 파인튜닝 전 12B 베이스라인(4.86)에 근접한 수치입니다. 공식 기술 보고서에서 직접 확인한 수치로, 전문화된 훈련이 단순히 모델을 키우는 것보다 효과적이라는 결론이 여기서 나옵니다.
어떻게 이게 가능했나 — 2단계 훈련 방식
성능이 이렇게 나올 수 있었던 이유는 훈련 방법에 있습니다. 구글은 단순히 번역 데이터를 많이 먹인 게 아닙니다. 두 단계로 나눠서 접근했습니다.
1단계 — 지도 파인튜닝(SFT)
Gemma 3 기본 모델을 인간 번역 텍스트 + Gemini 2.5 Flash가 생성한 합성 번역 데이터로 파인튜닝했습니다. 핵심은 합성 데이터 품질 관리입니다. 소스 문장 하나당 128개의 번역 후보를 Gemini로 생성하고, MetricX 점수로 가장 좋은 것만 골라 훈련 데이터로 씁니다. 그냥 쏟아붓는 방식이 아닙니다. (출처: arXiv:2601.09012)
2단계 — 강화학습(RL)
SFT 이후 5가지 보상 모델을 앙상블로 사용해 강화학습을 돌렸습니다. MetricX-24-XXL-QE(번역 정확도), Gemma-AutoMQM-QE(단어 수준 오류 탐지), ChrF(문자 단위 일치도), 자연스러움 평가자(원어민처럼 들리는지), 일반 언어 능력 보존 모델. 특히 ‘자연스러움 평가자’는 기계 냄새 나는 번역을 패널티로 잡는 역할인데, 공식 보고서에 별도 항목으로 명시돼 있습니다.
흥미로운 기술적 선택이 하나 있습니다. 파인튜닝할 때 임베딩 파라미터를 동결(freeze)시켰습니다. 처음엔 왜 그랬나 싶었는데, 보고서를 보면 “SFT 데이터에 포함되지 않은 언어와 문자 체계의 번역 성능을 유지하기 위해서”라고 나와 있습니다. 기본 다국어 이해 능력을 건드리지 않으면서 번역 특화 능력만 얹은 겁니다.
또 한 가지 — 훈련 데이터의 30%는 번역과 무관한 일반 언어 지시 따르기 데이터로 채웠습니다. 번역만 잘 하다가 다른 기능이 망가지는 오버피팅을 방지하기 위해서입니다. 번역 전용 모델임에도 일반 언어 능력이 유지되는 이유가 여기 있습니다.
한국어 번역 성능, 공식 수치로 확인
💡 공식 기술 보고서(arXiv:2601.09012) 부록 A에 55개 언어 전체 수치가 공개돼 있습니다. 한국어 수치를 직접 꺼내봤습니다.
영어→한국어(en→ko_KR) 기준으로 확인한 MetricX 수치입니다.
| 모델 | MetricX↓ (영→한) |
|---|---|
| TranslateGemma 27B | 2.81 |
| TranslateGemma 12B | 2.97 |
| TranslateGemma 4B | 3.93 |
| Gemma 3 베이스라인 27B | 3.43 |
| Gemma 3 베이스라인 4B | 4.72 |
(출처: TranslateGemma Technical Report 부록 A, arXiv:2601.09012)
TranslateGemma 12B(2.97)가 베이스라인 27B(3.43)보다 낮습니다. 한국어에서도 절반 크기 모델이 더 잘 번역합니다. 전체 55개 언어 평균에서 나온 결과가 한국어에서도 그대로 재현된 것입니다.
인간 평가(MQM) 결과에서도 영어→한국어는 TranslateGemma 27B가 MQM 3.1, 12B가 4.6로 베이스라인 27B의 3.8을 큰 폭으로 앞섭니다. 한국어가 인간 평가에 포함된 10개 언어 중 하나였다는 점도 주목할 만합니다. 구글이 한국어를 주요 평가 언어로 설정했다는 뜻입니다.
아무도 말 안 한 맹점 — 일본어와 고유명사
⚠️ 공식 기술 보고서(arXiv:2601.09012, p.6)에 명시된 내용입니다.
일본어→영어 방향에서 TranslateGemma는 베이스라인보다 MQM 점수가 오히려 높아졌습니다(나빠졌습니다). 원인은 고유명사 오번역으로 공식 보고서에 이유가 밝혀져 있습니다.
인간 평가 MQM 결과를 보면, 일본어→영어에서 TranslateGemma 27B는 13.4, 12B는 15.7이 나왔습니다. Gemma 3 베이스라인 27B는 11.6입니다. 번역 전문화를 거쳤는데 오히려 베이스라인보다 점수가 나빠진 유일한 방향입니다.
보고서는 원인을 이렇게 서술했습니다: “고유명사 번역에서의 오류가 주된 원인이며, 다른 오류 범주는 오히려 개선되었다.” 즉 문장 자체의 자연스러움이나 문법은 좋아졌지만, 사람 이름이나 지명 같은 고유명사를 잘못 번역하는 빈도가 늘어난 겁니다. 구글이 이 문제에 대한 원인을 아직 공식적으로 공개하지 않았습니다.
이 문제는 TranslateGemma를 일본어 관련 콘텐츠나 문서에 적용하려는 경우 실질적인 리스크입니다. 고유명사 오류는 단순한 오역보다 치명적일 수 있습니다. 특히 법률 문서, 보도 자료, 인물 관련 텍스트에서 문제가 됩니다. 현재로서는 일본어→영어 방향에 TranslateGemma를 그대로 쓰는 건 후처리 검증 없이는 권장하기 어렵습니다.
DeepL, Google Translate와 결정적으로 다른 점
💡 여기서 자주 오해하는 부분이 있습니다. 같은 ‘번역 AI’처럼 보이지만 TranslateGemma는 DeepL, Google Translate와 근본적으로 다른 계층에 있습니다.
| 구분 | TranslateGemma | DeepL | Google Translate |
|---|---|---|---|
| 사용 방식 | 모델 직접 다운로드 | 웹/앱/API | 웹/앱/API |
| 비용 | 무료 (오픈소스) | 무료+유료 요금제 | 무료+API 과금 |
| 오프라인 실행 | 가능 | 불가 | 불가 |
| 커스터마이징 | 파인튜닝 가능 | 불가 | 불가 |
| 이미지 번역 | 가능 (별도 훈련 없이) | 제한적 | 가능 |
| 지원 언어 | 55개 공식 검증 | 약 33개 | 133개 이상 |
DeepL과 Google Translate는 완성된 소비자 제품입니다. TranslateGemma는 그 제품들을 만드는 데 쓸 수 있는 부품입니다. Meta의 NLLB-200은 200개 언어를 지원하지만 TranslateGemma가 검증한 55개 언어에서는 성능 차이가 납니다. 비교 대상이 다른 층위에 있는 겁니다.
TranslateGemma의 실질적인 경쟁자는 번역 앱이 아닙니다. 기업이 자체 번역 시스템을 구축할 때 쓰는 유료 API들, 그리고 번역 전용 오픈소스 모델들입니다. 로컬 배포, 데이터 외부 미전송, 산업별 특화 파인튜닝이 필요한 의료·법률·보안 분야에서 강점을 가집니다.
사이즈별 선택 기준 — 실제로 어디서 돌리나
세 가지 모델 사이즈가 있고 각각 상정하는 하드웨어 환경이 다릅니다. 어떤 걸 고를지는 결국 내 장비와 목적에 따라 달라집니다.
4B 모델
스마트폰, 태블릿, IoT 기기에서 실행 가능한 경량 모델입니다. 인터넷 없이 오프라인 번역이 필요한 앱 개발에 적합합니다. MetricX 5.32로 이전 세대 12B 베이스라인(4.86)에 근접합니다.
12B 모델
일반 소비자용 노트북이나 데스크톱에서 구동됩니다. 12GB RAM 정도면 로컬에서 돌립니다. 27B 베이스라인을 능가하는 MetricX 3.60. 대부분의 개발 용도에서 이게 최선입니다.
27B 모델
H100 GPU 단일 혹은 TPU 클라우드 환경이 필요합니다. MetricX 3.09로 최고 정확도. 법률·의료처럼 번역 오류 허용 범위가 극히 낮은 분야, 또는 클라우드 API 대체용으로 씁니다.
여기서 솔직히 짚어야 할 게 있습니다. 4B 모델이 “스마트폰에서 돌아간다”는 건 기술적 사실이지만, 실제 스마트폰 앱으로 출시된 서비스는 아직 없습니다. 모델 파일을 직접 받아서 디바이스에 올리는 작업은 일반 사용자에겐 현실적이지 않습니다. 지금 당장은 개발자·연구자가 쓸 수 있고, 일반 사용자는 이 모델을 기반으로 만들어진 서비스가 나올 때 혜택을 보게 됩니다.
이미지 번역 성능도 체크할 만합니다. Vistra 벤치마크 기준으로 27B TranslateGemma가 MetricX 1.58(베이스라인 2.03 대비 22% 개선), 12B는 2.08(베이스라인 2.33)입니다. 별도 멀티모달 훈련 없이도 이미지 내 텍스트 번역 성능이 올라간 것이라 실용적인 포인트입니다. (출처: arXiv:2601.09012, Table 2)
자주 나오는 질문 5가지
마치며 — TranslateGemma를 어떻게 봐야 하나
TranslateGemma에서 인상 깊었던 건 두 가지입니다. 하나는 12B 모델이 27B 베이스라인을 공식 벤치마크에서 넘은 것, 다른 하나는 이미지 번역 성능이 별도 훈련 없이 함께 올라간 것입니다. 크기를 줄이면서 성능을 높이는 방향, 그리고 텍스트 능력이 다른 모달리티로 자연스럽게 전이되는 구조 — 이 두 가지가 앞으로 번역 AI가 나아갈 방향을 꽤 구체적으로 보여줍니다.
반면 일본어→영어 회귀는 생각할 부분입니다. 번역 특화 훈련이 특정 방향에서 역효과를 낼 수 있다는 걸 구글 스스로 기술 보고서에 솔직하게 적어뒀습니다. 성능 향상을 강조하는 발표문과 함께 이 부분을 같이 봐야 합니다.
지금 바로 일반 사용자가 쓸 수 있는 서비스가 아닌 건 맞습니다. 그런데 이 모델 위에 앱과 서비스가 올라오기 시작하면 그건 꽤 빠른 얘기가 될 수 있습니다. 특히 로컬 배포가 가능하고 오픈소스라는 점은 의료·법률·보안처럼 데이터를 외부로 보내기 어려운 분야에서 강력한 유인입니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 및 기능 정보는 2026년 1월 21일 기준 공개된 arXiv:2601.09012 기술 보고서 및 구글 공식 블로그를 기반으로 작성됐습니다. 최신 정보는 공식 채널을 통해 직접 확인하시기 바랍니다.











댓글 남기기