How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

🖼️ 인포그래픽

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

NVIDIA Nemotron 3.5 ASR는 40개 언어·로캘을 단일 체크포인트로 실시간 전사하고, 낮은 지연시간·내장 문장부호·대소문자 처리·언어별 파인튜닝을 함께 제공하는 600M 파라미터 스트리밍 음성인식 모델이다.

📌 핵심 요약

Nemotron 3.5 ASR는 기존 영어 전용 Nemotron 3 ASR의 후속 모델로, 하나의 600M 파라미터 체크포인트에서 40개 언어·로캘을 실시간으로 전사하며 문장부호와 대소문자를 기본 출력에 포함한다.
모델은 Cache-Aware FastConformer-RNNT 구조를 사용해 스트리밍 중 겹치는 오디오 구간을 반복 계산하지 않고, 이전 프레임의 내부 상태를 캐시해 낮은 지연시간과 높은 정확도를 동시에 목표로 한다.
사용자는 입력 언어를 알고 있을 때 target_lang으로 명시할 수 있고, 모를 때는 auto 모드로 언어를 감지하게 할 수 있으며, 이 언어 조건화가 다국어 단일 모델 운용의 핵심으로 제시된다.
게시글은 NeMo 체크포인트 기반 추론 방식과 manifest 형식, att_context_size로 조절하는 지연시간·정확도 운영점을 설명한 뒤, 그리스어와 불가리아어를 예로 들어 장기 꼬리 언어·도메인·억양에 맞춘 파인튜닝 절차를 개괄한다.
파인튜닝 실험에서는 공개 말뭉치와 tarred NeMo/Lhotse 샤드를 사용하고, 언어 태그와 기준 모델의 문장 스타일을 맞추는 것이 중요하다고 강조하며, 보류 테스트셋과 실제 배포 지연조건에서 평가해야 한다고 결론짓는다.

🧩 주요 포인트

Nemotron 3.5 ASR는 기존 영어 전용 Nemotron 3 ASR의 후속 모델로, 하나의 600M 파라미터 체크포인트에서 40개 언어·로캘을 실시간으로 전사하며 문장부호와 대소문자를 기본 출력에 포함한다.
모델은 Cache-Aware FastConformer-RNNT 구조를 사용해 스트리밍 중 겹치는 오디오 구간을 반복 계산하지 않고, 이전 프레임의 내부 상태를 캐시해 낮은 지연시간과 높은 정확도를 동시에 목표로 한다.
사용자는 입력 언어를 알고 있을 때 target_lang으로 명시할 수 있고, 모를 때는 auto 모드로 언어를 감지하게 할 수 있으며, 이 언어 조건화가 다국어 단일 모델 운용의 핵심으로 제시된다.
게시글은 NeMo 체크포인트 기반 추론 방식과 manifest 형식, att_context_size로 조절하는 지연시간·정확도 운영점을 설명한 뒤, 그리스어와 불가리아어를 예로 들어 장기 꼬리 언어·도메인·억양에 맞춘 파인튜닝 절차를 개괄한다.
파인튜닝 실험에서는 공개 말뭉치와 tarred NeMo/Lhotse 샤드를 사용하고, 언어 태그와 기준 모델의 문장 스타일을 맞추는 것이 중요하다고 강조하며, 보류 테스트셋과 실제 배포 지연조건에서 평가해야 한다고 결론짓는다.

🧠 상세 정리

1. Nemotron 3.5 ASR의 위치와 기본 성격

글은 NVIDIA Nemotron 3.5 ASR를 600M 파라미터 규모의 스트리밍 다국어 음성-텍스트 모델로 소개한다. 이 모델은 하나의 체크포인트에서 40개 언어·로캘을 실시간으로 전사하고, 문장부호와 대소문자 처리를 출력 단계에 기본 포함한다. 이전 모델인 Nemotron 3 ASR가 영어 전용 모델이었던 것과 달리, 이번 버전은 다국어 실시간 전사를 핵심 가치로 내세운다. 또한 오픈 웨이트로 Hugging Face에 제공되어 사용자가 모델을 살펴보고, 파인튜닝하고, 자체 인프라에서 배포할 수 있다고 설명한다. API 의존이나 호출 단위 과금 없이 운영할 수 있으며, 데이터가 외부로 나가지 않는다는 점도 제품·기업 환경에서의 장점으로 제시된다.

2. 기존 스트리밍 ASR 제품 개발의 네 가지 병목

원문은 음성 전사 기능을 제품에 넣을 때 흔히 마주치는 문제를 네 가지로 정리한다. 첫째는 여러 언어를 지원하려고 언어별 모델이나 벤더 API를 조합하면서 인프라가 복잡해지는 ‘polyglot tax’다. 둘째는 실시간 자막처럼 낮은 지연시간이 필요한 상황에서, 많은 스트리밍 ASR이 겹치는 오디오 창을 반복 처리해 계산량과 지연을 키우는 문제다. 셋째는 원시 ASR 출력이 문장부호 없는 소문자 텍스트로 나와 별도의 문장부호·대소문자 복원 모델을 붙여야 하는 후처리 파이프라인 부담이다. 넷째는 입력 언어를 사전에 알려줘야 한다는 가정으로, 고객지원 통화처럼 한 문장 안에서도 언어가 바뀌는 상황을 다루기 어렵다는 점이다.

3. 하나의 모델로 다국어 전사와 언어 조건화를 처리

Nemotron 3.5 ASR는 하나의 체크포인트로 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 아랍어, 일본어, 한국어, 포르투갈어, 러시아어, 힌디어, 터키어, 베트남어, 네덜란드어, 우크라이나어, 폴란드어, 핀란드어, 만다린, 체코어, 불가리아어, 슬로바키아어, 스웨덴어, 크로아티아어, 루마니아어, 에스토니아어, 덴마크어, 헝가리어, 노르웨이어 계열, 히브리어, 그리스어, 리투아니아어, 라트비아어, 몰타어, 슬로베니아어, 태국어 등을 지원한다고 설명한다. 언어별 배포나 모델 교체 없이 같은 모델을 사용할 수 있다는 점이 강조된다. 사용 방식은 두 가지로 나뉘는데, 언어를 알고 있으면 target_lang에 특정 언어·로캘 값을 넣고, 모르면 target_lang=auto로 두어 모델이 언어를 감지하게 한다. 이 구조는 오디오와 함께 언어 신호를 넣는 prompt-based language-ID conditioning으로 설명되며, 하나의 가중치 집합이 목표 언어에 맞게 출력을 조정하도록 돕는다.

4. Cache-Aware FastConformer-RNNT 구조와 지연시간 설계

모델 구조의 핵심은 24개 레이어의 Cache-Aware FastConformer 인코더와 RNNT 디코더다. 원문은 일반적인 buffered streaming 방식이 매 단계마다 겹치는 오디오 조각을 다시 처리해 같은 계산을 반복한다고 설명한다. 반면 이 모델은 이전 프레임의 self-attention과 convolution activation을 캐시에 보관하고, 새 오디오가 들어올 때 실제로 새로 필요한 부분만 계산한다. 이를 통해 각 오디오 프레임을 정확히 한 번 처리하며 중복 연산을 줄이고, 지연시간과 계산량을 낮추면서도 정확도 손실을 피하는 방향을 취한다. RNNT 디코더는 오디오가 들어오는 즉시 프레임 단위로 텍스트를 내보내는 스트리밍 ASR용 디코더로 제시된다.

5. att_context_size로 조절하는 스트리밍 운영점

글은 스트리밍 ASR의 본질을 ‘얼마나 빨리 텍스트를 내보낼 것인가’와 ‘모델이 결정을 내리기 전에 얼마나 많은 미래 오디오를 볼 수 있는가’ 사이의 절충으로 설명한다. Nemotron ASR는 이를 attention context size라는 설정으로 직접 노출한다. 예로 [56, 1]은 약 160ms의 낮은 지연시간 운영점으로 인터랙티브 보이스 에이전트나 대화형 AI에 적합하다고 제시된다. [56, 6]은 약 560ms 수준으로, 합리적인 지연시간 안에서 더 높은 정확도를 노리는 설정이다. 중요한 점은 같은 체크포인트가 이 범위를 모두 커버하며, 재학습 없이 추론 시점에 운영점을 선택할 수 있다는 것이다.

6. NeMo 기반 추론 절차와 입력 형식

Nemotron 3.5 ASR는 NeMo 체크포인트로 제공되며, 원문은 NeMo 저장소를 클론한 뒤 cache-aware streaming 추론 스크립트에 모델 경로, manifest 경로, 출력 경로, 언어 설정, attention context size 등을 넘기는 방식을 보여준다. 언어를 아는 경우 target_lang=es-ES처럼 지정하고, 모르는 경우 target_lang=auto로 설정할 수 있다. 입력 오디오는 mono-channel wav 형식이어야 하며, manifest는 audio_filepath, duration, text를 포함하는 표준 NeMo JSON-lines 형식이다. 모델은 완성된 문장 끝에 “<en-US>” 같은 language_tag를 예측할 수 있고, strip_lang_tags=True를 사용하면 가독성을 위해 해당 태그를 제거할 수 있다고 설명한다.

7. 파인튜닝이 필요한 상황과 실험 설정

원문은 기본 모델이 강력하더라도 학습 데이터 비중이 언어마다 다르기 때문에, 일부 장기 꼬리 로캘에는 개선 여지가 있다고 말한다. 몇 시간의 도메인 내 음성과 적절한 학습 레시피만으로도 성능을 상당히 끌어올릴 수 있다는 것이 글의 중심 주장 중 하나다. 파인튜닝 대상 사례로는 사전학습 데이터가 적은 언어, 의료·법률·금융·기술처럼 특수 어휘가 많은 도메인, 전화·원거리·차량 내 환경이나 특정 화자 집단의 억양, 아직 지원되지 않는 새 언어 부트스트래핑이 제시된다. 실제 예시는 그리스어와 불가리아어라는 중간 자원 수준의 유럽 언어를 대상으로 하며, 공개 다국어 말뭉치와 보류 평가셋을 활용해 개선 정도를 확인하는 흐름으로 구성된다.