2026.03.26 기준
cohere-transcribe-03-2026
Apache 2.0

Cohere Transcribe, 1위라는데
한국어가 빠졌습니다

Cohere가 2026년 3월 26일 공개한 오픈소스 음성인식(ASR) 모델 cohere-transcribe-03-2026이 HuggingFace Open ASR 리더보드 1위를 차지했습니다. 영어 평균 WER 5.42%로 Whisper Large v3(7.44%)와 ElevenLabs Scribe v2(5.83%)를 모두 제쳤습니다. 한국어도 지원 언어 목록에 들어 있습니다. 그런데 막상 벤치마크 수치를 보면 한국어의 숫자가 빠져 있습니다.

영어 WER 1위

5.42%

Open ASR Leaderboard

처리속도

RTFx 525

동급 대비 약 3배 빠름

모델 크기

파라미터 / Apache 2.0

Cohere Transcribe가 갑자기 1위를 차지한 배경

Cohere Transcribe(공식 모델명 cohere-transcribe-03-2026)는 2026년 3월 26일 오픈소스로 공개됐습니다. Cohere는 그동안 텍스트 임베딩과 생성 모델 쪽에만 집중해 왔는데, 이번이 음성 모델 첫 출시입니다. (출처: Cohere 공식 블로그, 2026.03.26)

공개 당일 HuggingFace Open ASR Leaderboard에서 영어 평균 WER 5.42%를 기록하며 곧바로 1위에 올랐습니다. 이 수치는 동일 벤치마크에서 Whisper Large v3의 7.44%보다 2.02%포인트 낮고, ElevenLabs Scribe v2의 5.83%보다도 0.41%포인트 낮습니다. 오차 1점대 격차에서 선두를 차지했습니다.

모델은 Apache 2.0 라이선스로 공개돼 있어 상업적 활용도 가능합니다. 파라미터 규모는 2B로, 동급 1B+ 모델 중에서 정확도와 처리속도 두 축을 동시에 갱신했습니다.

▲ 목차로 돌아가기

영어 1위와 한국어 순위는 다른 기준으로 매깁니다

💡 공식 발표문과 리더보드 구조를 함께 놓고 보니 이런 차이가 보였습니다 — 영어 WER 1위 수치를 한국어에 그대로 적용할 수 없는 이유가 있습니다.

HuggingFace Open ASR Leaderboard는 사실 두 개로 나뉩니다. 영어 전용 리더보드와 다국어 리더보드입니다. Cohere Transcribe가 1위를 차지한 건 영어 리더보드입니다. 다국어 리더보드에서는 전체 4위(오픈소스 기준 2위)로 내려갑니다. (출처: HuggingFace 공식 블로그, 2026.03.26)

한국어·일본어·중국어(만다린)의 경우 WER(단어 오류율) 대신 CER(문자 오류율)로 측정합니다. 공백으로 단어를 구분하는 영어와 달리, 한자·한글·가나는 단어 경계를 다르게 정의하기 때문입니다. 공식 HuggingFace 기술 블로그에 “CER for zh, ja, ko — WER otherwise”라고 명시돼 있습니다. 두 지표는 스케일 자체가 달라서 WER 5.42%라는 숫자를 한국어에 곧바로 대입할 수 없습니다.

공식 자료에서 한국어 CER 수치는 별도 공개되지 않았습니다. 한국어 성능이 나쁘다는 의미가 아니라, 그 숫자를 직접 영어 WER과 비교해서 “1위”라고 말하기 어렵다는 것입니다.

▲ 목차로 돌아가기

처리 속도가 3배 빠른 이유가 구조에 있습니다

이 모델의 구조는 일반적인 Transformer 방식과 다릅니다. Fast-Conformer 인코더 + 경량 Transformer 디코더의 비대칭 구조입니다. 파라미터의 90% 이상이 인코더에 집중되고, 디코더는 최소화됩니다. 이렇게 하면 자동 회귀(autoregressive) 연산이 크게 줄어들어 추론 속도가 올라갑니다. (출처: HuggingFace 기술 블로그, 2026.03.26)

반면 Qwen3-ASR-1.7B나 IBM Granite 4.0 Speech는 텍스트 LLM 위에 오디오 이해 기능을 올린 구조입니다. LLM을 기반으로 하면 학습 비용은 줄지만, 자동 회귀 연산이 많아져 추론이 느려집니다. Cohere는 공식 문서에서 이 방식이 “serving cost를 높인다”고 명시했습니다.

📊 RTFx 직접 비교 (1B+ 파라미터 모델 기준, 2026.03.26)

모델	RTFx	영어 WER
Cohere Transcribe	약 525	5.42%
NVIDIA Canary Qwen 2.5B	약 418	5.63%
IBM Granite 4.0 1B Speech	약 380	5.52%
OpenAI Whisper Large v3	낮음	7.44%

※ RTFx = 실시간 처리 배속 (높을수록 빠름). (출처: Cohere 공식 블로그, 2026.03.26)

RTFx 525는 오디오 1초를 약 0.002초 만에 처리한다는 뜻입니다. 실무에서 1시간짜리 회의록을 처리할 때 걸리는 시간 차이가 분 단위로 납니다.

▲ 목차로 돌아가기

쓰다 보면 반드시 마주치는 세 가지 제약

공식 문서에 한계 항목(Limitations)이 세 가지 명시돼 있습니다. 벤치마크 수치만 보고 도입했다가 현장에서 막히는 경우가 생기는 지점입니다. (출처: HuggingFace 모델 카드, 2026.03.26)

① 언어 태그를 직접 넣어야 합니다

이 모델에는 자동 언어 감지 기능이 없습니다. API 호출 또는 로컬 추론 시 language="ko"처럼 언어 코드를 명시적으로 지정해야 합니다. 지정하지 않으면 모델이 어느 언어로 출력할지 불확실한 상태로 동작합니다. 한국어와 영어가 섞인 코드 스위칭 음성도 공식적으로 지원 범위 밖입니다.

② 배경 소음이 있으면 환각이 생깁니다

모델이 침묵 구간과 환경 소음도 텍스트로 변환하려고 시도합니다. 공식 문서에 “VAD(음성 활동 감지) 모델을 앞단에 붙이는 것이 권장된다”고 직접 나옵니다. 야외 녹음, 카페 배경음이 섞인 인터뷰, 빈 구간이 많은 회의 녹음에서는 전처리 없이 바로 쓰면 허위 텍스트가 삽입될 수 있습니다.

③ 화자 분리와 타임스탬프가 없습니다

여러 화자가 등장하는 회의 녹취나 인터뷰 전사에서는 누가 언제 말했는지 구분하는 기능(diarization·timestamps)이 필요한 경우가 많습니다. 현재 Cohere Transcribe에는 이 기능이 없으며, 공개된 로드맵에서도 이 부분에 대한 일정은 아직 나오지 않았습니다.

▲ 목차로 돌아가기

Whisper와 직접 수치로 비교해봤습니다

💡 공식 리더보드에서 같은 테스트셋 기준으로 두 모델 수치를 나란히 놓고 보니 구체적인 맥락이 달랐습니다 — 어느 환경에서 차이가 크고 어디서 비슷한지 보였습니다.

아래는 HuggingFace Open ASR Leaderboard 동일 데이터셋 기준으로 두 모델을 비교한 수치입니다. (출처: Cohere 공식 블로그, 2026.03.26)

데이터셋	Cohere Transcribe	Whisper Large v3	차이
AMI (다화자·회의)	8.13%	15.95%	-7.82%p
LibriSpeech clean (읽기 음성)	1.25%	2.01%	-0.76%p
VoxPopuli (다양한 억양)	5.87%	9.54%	-3.67%p
SPGISpeech (금융 음성)	3.08%	2.94%	+0.14%p

※ WER 기준, 낮을수록 정확. (출처: HuggingFace Open ASR Leaderboard, 2026.03.26)

수치에서 눈에 띄는 부분이 있습니다. 다화자 회의 환경(AMI 데이터셋)에서 두 모델의 격차가 7.82%포인트로 가장 큽니다. 실제 회의 상황을 시뮬레이션하는 이 테스트에서 Whisper가 15.95%까지 오르는 반면 Cohere Transcribe는 8.13%에서 멈춥니다. 회의 녹취를 주된 목적으로 쓴다면 숫자 차이가 의미 있습니다.

반면 금융·비즈니스 음성(SPGISpeech)에서는 Whisper가 2.94%로 Cohere Transcribe(3.08%)를 오히려 앞섭니다. 모든 환경에서 고르게 1위를 유지하는 건 아닙니다. 목적과 환경에 맞게 선택해야 합니다.

▲ 목차로 돌아가기

실제로 한국어 프로젝트에 쓸 수 있을까요

결론부터 말씀드리면, 조건이 맞으면 충분히 쓸 만합니다. 단, 세 가지 전제가 충족돼야 합니다.

첫째, 음성이 단일 언어(한국어)로만 구성돼 있어야 합니다. 영어 단어가 섞이는 비즈니스 발표, 영어 고유명사가 빈번한 IT 회의에서는 언어 태그를 "ko"로 고정하면 영어 단어 처리가 불안정할 수 있습니다. 공식 문서가 코드 스위칭을 “비공식 지원”으로 분류한 이유입니다.

둘째, 앞단에 VAD 처리를 붙여야 합니다. 한국어 녹음이라도 회의 시작 전 잡음, 마이크 테스트 소리, 배경 음악이 있으면 모델이 그 구간을 텍스트로 채웁니다. Silero VAD나 WebRTC VAD 같은 경량 VAD를 먼저 통과시키는 파이프라인이 필요합니다.

셋째, 화자 구분이 필요 없는 사용 시나리오에 적합합니다. 1인 팟캐스트 전사, 개인 메모 음성 변환, 유튜브 자막 생성처럼 발화자가 한 명이거나 구분이 불필요한 환경에서는 지금 바로 도입해도 됩니다.

Apple Silicon(M시리즈)에서는 mlx-audio 라이브러리로 로컬 실행도 가능합니다. (출처: HuggingFace 모델 카드, 2026.03.26) GPU가 없는 개발 환경에서도 테스트해볼 수 있다는 점은 실용적인 장점입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Cohere Transcribe는 완전 무료인가요?
▼

Apache 2.0으로 오픈소스 공개돼 있어 HuggingFace에서 모델 가중치를 무료로 내려받을 수 있습니다. Cohere API로 호출할 경우 rate limit 이내에서는 무료 실험이 가능합니다. rate limit을 넘는 프로덕션 수준의 사용은 Model Vault 요금제(시간당 과금)를 통해야 합니다. 로컬에 직접 배포해서 쓰는 경우엔 별도 요금이 없습니다.

GPU 없이도 쓸 수 있나요?
▼

CPU로도 돌아가지만 속도가 많이 느려집니다. Apple Silicon(M1/M2/M3/M4)에서는 mlx-audio 라이브러리를 통해 메탈 가속으로 실행 가능합니다. 가벼운 테스트 목적이라면 HuggingFace Space의 웹 데모(WebGPU 기반)를 브라우저에서 바로 사용하는 방법도 있습니다.

한국어 인식 정확도가 실제로 어느 정도인가요?
▼

공식 발표에서 “13개 나머지 언어에서도 오픈소스 최고 모델과 동등하거나 우수하다”고 밝혔지만, 한국어 CER 수치는 별도로 공개되지 않았습니다. 공식 HuggingFace 블로그에서 한국어는 CER(문자 오류율)로 평가한다고 명시돼 있으며, 다국어 리더보드 기준으로는 전체 4위(오픈소스 2위)입니다.

Whisper를 대체할 수 있나요?
▼

영어 중심, 속도 중시, 다화자 회의 녹취 환경에서는 Cohere Transcribe가 우위입니다. 반면 100개 이상의 다양한 언어를 다루거나, 타임스탬프·화자 분리가 필요한 경우엔 현재 Whisper나 서드파티 diarization 파이프라인이 더 나은 선택일 수 있습니다. 두 모델이 경쟁하는 성격이라기보다는 사용 환경이 다릅니다.

상업적 프로덕트에 바로 사용해도 되나요?
▼

Apache 2.0 라이선스이므로 상업적 사용이 가능합니다. 단, 고용량 프로덕션 환경에서는 VAD 전처리와 언어 태그 관리 파이프라인을 반드시 구축해야 합니다. 또한 vLLM을 통한 서빙 구성이 공식으로 제공되므로, 프로덕션 배포는 vLLM + Model Vault 조합을 권장합니다.

▲ 목차로 돌아가기

마치며

Cohere Transcribe는 분명히 잘 만들어진 모델입니다. 2B 규모에서 영어 WER 5.42%로 1위를 차지하고, 처리 속도도 동급 최고인 RTFx 525를 찍었습니다. Conformer 기반 비대칭 구조 덕분에 속도와 정확도를 동시에 달성했다는 점도 기술적으로 흥미롭습니다.

그런데 “한국어도 지원된다”는 사실과 “한국어에서도 1위”라는 건 다른 이야기입니다. 영어 WER 수치를 그대로 한국어에 붙이는 건 근거가 없습니다. 한국어 성능은 CER 기준으로 측정되고, 해당 수치는 공개되지 않았습니다. 한국어 프로젝트라면 직접 테스트해보는 것이 유일한 검증 방법입니다.

언어 태그 필수, VAD 전처리 필요, 화자 분리 미지원이라는 세 가지 제약은 실무 적용 전에 반드시 확인할 항목입니다. 이 조건들을 알고 쓰면 훌륭한 도구입니다. 모르고 뛰어들면 예상치 못한 곳에서 막힙니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Cohere 공식 블로그 — Cohere Transcribe 출시 발표 (2026.03.26)
https://cohere.com/blog/transcribe
HuggingFace 공식 기술 블로그 — cohere-transcribe-03-2026 모델 카드 (2026.03.26)
https://huggingface.co/blog/CohereLabs/cohere-transcribe-03-2026-release
HuggingFace 모델 카드 — CohereLabs/cohere-transcribe-03-2026 (2026.03.26)
https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
HuggingFace Open ASR Leaderboard (실시간)
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
The Decoder — Cohere open source ASR benchmark 보도 (2026.03.27)
https://the-decoder.com/cohere-releases-open-source-model-that-tops-speech-recognition-benchmarks/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치와 기능은 2026년 3월 26일 공개 기준이며, Cohere 또는 HuggingFace의 공식 업데이트에 따라 달라질 수 있습니다. 최신 정보는 위 참고 자료의 공식 링크에서 직접 확인하시기 바랍니다.

Cohere Transcribe, 1위라는데
한국어가 빠졌습니다

Cohere Transcribe가 갑자기 1위를 차지한 배경

영어 1위와 한국어 순위는 다른 기준으로 매깁니다

처리 속도가 3배 빠른 이유가 구조에 있습니다