2026.01.20 기준
kanana-2-30b-a3b-thinking-2601
오픈소스

Kanana-2 Thinking, 추론 올리면 한국어가 무너집니다

카카오가 오픈소스로 공개한 Kanana-2 Thinking 모델. 추론 성능을 높이려다가 한국어 벤치마크 점수가 절반 이하로 떨어진 실험 데이터가 공식 개발기에 고스란히 남아 있습니다. 그 데이터와, 이를 막기 위해 카카오 팀이 쓴 방법을 직접 확인했습니다.

74.0%

AIME 2025 pass@1

실제 활성화 파라미터

+197%

Tool Calling 향상 (vs 전작)

결론부터: 30B인데 실제 연산은 3B입니다

Kanana-2 Thinking 모델의 공식 명칭은 kanana-2-30b-a3b-thinking-2601입니다. 이름에 이미 답이 들어 있습니다. 전체 파라미터 수는 30B(300억 개)지만, 실제 추론 시에 활성화되는 파라미터는 3B(30억 개)에 불과합니다. (출처: Kanana-2 HuggingFace 공식 모델 카드, 2026.01.15)

이게 가능한 이유는 MoE(Mixture of Experts) 아키텍처 때문입니다. 128개의 전문가 모듈 중 매번 6개(+ 공유 전문가 2개)만 꺼내서 사용합니다. 고급 인프라 없이 A100 수준 범용 GPU에서도 돌아간다는 카카오 측 설명이 허풍이 아닌 이유입니다. 일반 30B 밀도 모델 대비 연산 부담이 대폭 줄어듭니다.

💡 공식 발표문의 파라미터 수치와 실제 vLLM 서빙 요구 사양을 같이 놓고 보면, 로컬 환경에서 구동 가능한 이유가 보입니다.

▲ 목차로 돌아가기

추론을 강화했더니 한국어가 무너진 실험

솔직히 이 부분이 가장 충격적이었습니다. 카카오 공식 개발기(2026.01.15)에는 추론 능력을 높이는 훈련을 적용했을 때 실제로 어떤 일이 벌어졌는지 수치가 그대로 공개되어 있습니다.

실험 모델	MT-bench (영어 대화)	KoMT-bench (한국어 대화)	AIME24 (수학)
일반 SFT만 적용	8.15	7.86	9.21
추론 SFT/RL 적용	6.57	2.95 ▼	53.21 ▲
추론 SFT/RL + Instruct SFT	7.68	6.52	28.31

(출처: 카카오 Kanana-2 개발기 2편, tech.kakao.com/posts/808, 2026.01.15)

영어 추론 데이터로 집중 훈련하면 수학 점수(AIME24)는 9.21 → 53.21로 폭발적으로 오릅니다. 반면 한국어 대화 점수(KoMT-bench)는 7.86에서 2.95까지 곤두박질칩니다. 한국어 점수가 62% 감소한 겁니다.

이건 데이터 품질 문제가 아닙니다. 영어 추론 패턴을 집중적으로 학습하는 과정에서 한국어 표현·스타일 정렬이 밀려나는 치명적 망각(Catastrophic Forgetting) 현상입니다. 한국어에 특화된 LLM을 만들겠다면서 오히려 한국어가 무너진다는 것, 기존 블로그에서는 거의 다루지 않은 포인트입니다.

💡 추론 훈련 후 Instruct SFT를 다시 걸어도 한국어 점수는 6.52에 그쳐 원래 수준(7.86)을 회복하지 못합니다. 순서를 바꿔도 손실은 남습니다.

▲ 목차로 돌아가기

Replay 전략이 두 마리 토끼를 잡은 방법

카카오 팀이 찾아낸 답은 Mid-training 단계에 Pre-training 데이터를 섞어 재학습하는 Replay 전략입니다. 구체적으로는 영어 추론 데이터 약 200B 토큰에 한국어가 포함된 Pre-training 데이터 50B 토큰을 같이 섞어서 총 250B 토큰 규모의 Mid-training 데이터셋을 구성했습니다. (출처: tech.kakao.com/posts/808, 2026.01.15)

결과는 아래 표에 나옵니다. Mid-training을 거친 모델에 동일한 Instruct SFT를 적용했을 때, 한국어 벤치마크(KoMT-bench)는 7.81 → 8.02로 오히려 소폭 상승했습니다. 수학 성능(MATH)도 74.30 → 81.26으로 6.96점 올랐습니다. 망각 없이 둘 다 잡는 데 성공했습니다.

훈련 설정	KoMT-bench	MATH	IFEval
Base + 일반 SFT	7.81	74.30	75.60
Base + Mid-training + SFT	8.02 ▲	81.26 ▲	79.11 ▲

(출처: 카카오 Kanana-2 개발기 2편, tech.kakao.com/posts/808, 2026.01.15)

250B 토큰 중 50B(20%)만 한국어 재학습 데이터로 섞은 것이 핵심입니다. 비율이 작아 보이지만 이 20%가 망각 방어막 역할을 했습니다.

▲ 목차로 돌아가기

Thinking 모델이 도구 호출을 유지하는 구조

일반적으로 추론(Thinking) 특화 모델은 도구 호출(Tool Calling) 능력과 트레이드오프 관계에 놓입니다. 복잡한 사고 과정에 집중하다 보면, 외부 도구를 적시에 불러오는 세밀한 제어 능력이 약해지는 겁니다. 많은 오픈소스 추론 모델이 이 함정에 걸립니다.

Kanana-2 Thinking은 이 한계를 정면으로 건드렸습니다. 공식 테크 블로그에 따르면, Thinking 모델임에도 Instruct 버전 수준의 지시 이행 능력과 도구 호출 능력을 동시에 유지했습니다. 벤치마크 수치로 확인하면, BFCL-v3 Live 도구 호출에서 Thinking-2601 기준 75.9%로, 일반 Instruct 모델(76.66%)과 거의 동등한 수준입니다. (출처: HuggingFace Kanana-2 공식 모델 카드, 2026.01.15)

💡 추론 모드와 도구 호출을 동시에 쓸 수 있다는 건 MCP(Model Context Protocol) 기반 에이전트 파이프라인에 바로 연결할 수 있다는 뜻입니다.

Parallel RL: 태스크별로 따로 훈련하고 마지막에 합칩니다

이것이 가능한 핵심 비결은 Parallel RL(병렬 강화학습) 파이프라인입니다. 지시 이행, 도구 호출, 수학, 코딩을 각각 독립 파이프라인으로 훈련한 뒤 Linear Merging으로 하나의 모델로 통합합니다. 마지막에 Calibration Tuning으로 병합 과정의 성능 손실을 복원합니다. 하나의 훈련 루프에서 모든 걸 해결하려다 나타나는 도메인 간 간섭을 이 구조로 차단한 것입니다.

▲ 목차로 돌아가기

Qwen3-30B-A3B와 수치로 비교하면

Kanana-2 Thinking의 경쟁 기준선은 중국 알리바바의 Qwen3-30B-A3B입니다. 같은 MoE 30B급이라는 점에서 직접 비교가 가능합니다. 아래는 HuggingFace 공식 모델 카드 수치입니다.

벤치마크	Kanana-2 Thinking-2601	Qwen3-30B-A3B (Thinking)
AIME 2025	74.0%	82.3%
AIME 2024 (한국어 번역)	75.0%	80.3%
LiveCodeBench (한국어)	51.2%	66.3%*
BFCL-v3 Multi-Turn (도구 호출)	43.7%	53.6%
IFBench (지시 이행)	47.8%	47.6%

*Qwen3 한국어 코드 생성 시 대부분의 응답이 영어로 출력됨 (공식 모델 카드 주석). (출처: kakaocorp/kanana-2-30b-a3b-thinking-2601, HuggingFace, 2026.01.15)

수학 추론(AIME)에서는 Qwen3 Thinking이 앞섭니다. 그러나 지시 이행(IFBench)에서는 Kanana-2 Thinking이 47.8% vs 47.6%로 역전합니다. 그리고 흥미로운 것은 Qwen3의 한국어 코드 생성 점수(66.3%)가 높아 보이지만, 공식 모델 카드 주석에 “응답 대부분이 영어로 출력됨”이라고 명시되어 있습니다. 한국어로 문제를 줬는데 답변이 영어로 나온 것을 66.3%로 채점한 겁니다.

Kanana-2 Thinking의 한국어 코드 벤치마크 51.2%는 한국어 답변으로 낸 점수입니다. 맥락이 다릅니다.

▲ 목차로 돌아가기

직접 써볼 수 있는 방법과 주의 사항

HuggingFace에서 모델 가중치를 무료로 받을 수 있습니다. vLLM 또는 SGLang으로 서빙하는 방법이 공식 모델 카드에 나와 있습니다. Thinking 모델 서빙 시에는 --reasoning-parser deepseek_r1 플래그를 반드시 붙여야 합니다.

⚠️ 공식 모델 카드에 명시된 주의 사항

Thinking 모델에는 greedy decoding 사용 금지. 성능 저하와 무한 반복 루프가 발생합니다.
권장 파라미터: temperature=0.6, top_p=0.95, top_k=20
기본 컨텍스트 길이: 32,768 토큰. 그 이상 처리하려면 YaRN 설정 수동 적용 필요

어떤 상황에 쓰면 유리할까요

이미 한국어 서비스에 LLM을 연동 중이고, 추론 능력과 도구 호출을 동시에 써야 하는 경우가 핵심 사용처입니다. MCP 기반 에이전트를 만들거나, 한국어 수학·논리 추론 파이프라인을 구성할 때 A100급 단일 GPU로도 돌릴 수 있다는 점이 실용적인 장점입니다.

반면 순수 코딩 성능만 필요하다면 Qwen3-30B-A3B가 HumanEval+(86.59% vs 81.10%)에서 앞서므로, 목적에 따라 선택이 달라집니다. 카카오 상업 라이선스는 Kanana License를 따르며, 별도 문의가 필요한 상업 이용은 공식 연락처로 확인해야 합니다.

▲ 목차로 돌아가기

Q&A

Q1. Kanana-2 Thinking은 무료로 상업 이용이 가능한가요?

Kanana License를 따릅니다. 비상업 연구 목적은 자유롭게 사용 가능하지만, 상업 이용은 라이선스 조건 확인이 필요합니다. 문의는 alpha.k@kakaocorp.com으로 하면 됩니다. (출처: HuggingFace Kanana-2 공식 모델 카드)

Q2. 파라미터가 30B인데 왜 A100 한 장으로 돌릴 수 있나요?

MoE 구조 때문입니다. 전체 30B 파라미터 중 추론 시 실제로 활성화되는 것은 3B(30억 개)뿐입니다. 연산 부담이 실질적으로 3B급 모델과 비슷합니다. 단, 전체 가중치를 메모리에 올려야 하므로 저장 공간은 30B 규모가 필요합니다.

Q3. Kanana-2 Instruct와 Thinking 중 무엇을 써야 할까요?

복잡한 수학·논리 추론이 필요하면 Thinking, 빠른 응답과 다양한 지시 이행이 중심이면 Instruct가 적합합니다. 도구 호출 성능은 두 버전이 비슷하게 측정되었으므로 에이전트 목적이라면 둘 다 검토해볼 수 있습니다.

Q4. 카카오 서비스 사용자 데이터로 학습했나요?

아닙니다. HuggingFace 공식 모델 카드에 “No Kakao user data was used for either pre-training or post-training”이라고 명시되어 있습니다. (출처: HuggingFace Kanana-2 공식 모델 카드, 2026.01.15)

Q5. 32K 토큰을 넘는 긴 문서를 처리하려면 어떻게 해야 하나요?

기본 설정은 32,768 토큰까지입니다. 그 이상 처리하려면 YaRN(rope_scaling)을 수동으로 설정해야 합니다. 예를 들어 65,536 토큰으로 늘리려면 factor를 2.0으로 설정하면 됩니다. 단, 짧은 텍스트에 YaRN을 상시 켜두면 오히려 성능이 하락할 수 있으므로 필요할 때만 활성화하는 것이 권장됩니다.

▲ 목차로 돌아가기

마치며

Kanana-2 Thinking을 보면서 인상 깊었던 건 결과 수치보다 공식 개발기에 담긴 실패 데이터였습니다. 추론 강화 훈련이 한국어를 무너뜨리는 과정이 표로 공개되어 있고, 그걸 막기 위해 어떤 비율로 데이터를 섞었는지까지 나와 있습니다.

AIME 수학 점수나 벤치마크 순위보다 이 과정이 실제로 한국어 LLM을 만들겠다는 조직이 어떤 문제에 부딪히는지를 잘 보여줍니다. Qwen3와 비교하면 순수 추론 성능은 뒤지는 부분이 있습니다. 하지만 도구 호출을 유지하는 Thinking 모델이라는 설계 방향, A100 한 장으로 돌릴 수 있는 실용성, 그리고 MCP 파이프라인과의 연결 가능성은 국내 AI 개발자들에게 꽤 구체적인 선택지입니다.

현재 더 큰 스케일의 Kanana-2-155b-a17b 모델이 학습 중이며, 카카오 측은 공식 발표 이후 별도 일정을 밝히지 않았습니다. 다음 버전에서 이 갭이 어느 정도 좁혀질지가 개인적으로 궁금한 부분입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

카카오 공식 테크 블로그 — 더 똑똑하고 효율적인 Kanana-2 오픈소스 공개 (tech.kakao.com/posts/804)
카카오 공식 테크 블로그 — Kanana-2 개발기 2편: Post-training recipe (tech.kakao.com/posts/808)
카카오 공식 뉴스룸 — Kanana-2 모델 4종 오픈소스 추가 공개 (kakaocorp.com/page/detail/11904)
HuggingFace 공식 모델 카드 — kanana-2-30b-a3b-thinking-2601 (huggingface.co/kakaocorp/kanana-2-30b-a3b-thinking-2601)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.01.20 기준 공식 자료를 바탕으로 작성되었으며, 이후 업데이트된 모델 버전에서는 달라질 수 있습니다. 투자·구매 결정 등에 본 포스팅을 단독 근거로 사용하지 마시기 바랍니다.

Kanana-2 Thinking, 추론 올리면 한국어가 무너집니다

결론부터: 30B인데 실제 연산은 3B입니다

추론을 강화했더니 한국어가 무너진 실험

Replay 전략이 두 마리 토끼를 잡은 방법

Thinking 모델이 도구 호출을 유지하는 구조

Parallel RL: 태스크별로 따로 훈련하고 마지막에 합칩니다

Qwen3-30B-A3B와 수치로 비교하면

직접 써볼 수 있는 방법과 주의 사항

어떤 상황에 쓰면 유리할까요

Q&A

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Kanana-2 Thinking, 추론 올리면 한국어가 무너집니다

결론부터: 30B인데 실제 연산은 3B입니다

추론을 강화했더니 한국어가 무너진 실험

Replay 전략이 두 마리 토끼를 잡은 방법

Thinking 모델이 도구 호출을 유지하는 구조

Parallel RL: 태스크별로 따로 훈련하고 마지막에 합칩니다

Qwen3-30B-A3B와 수치로 비교하면

직접 써볼 수 있는 방법과 주의 사항

어떤 상황에 쓰면 유리할까요

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기