Olmo Hybrid and future LLM architectures

💡 한 줄 요약

Olmo Hybrid는 attention과 RNN 계열 GDN을 섞은 7B 공개 모델로, 사전학습 효율과 장문 처리 가능성은 크게 보였지만 후학습과 오픈소스 추론 도구에서는 아직 해결해야 할 문제가 많다는 글이다.

📌 핵심 요약

글은 최근 공개 가중치 모델들에서 하이브리드 아키텍처가 다시 널리 채택되는 흐름을 짚으며 시작한다. Qwen, Kimi, Nemotron, Granite 같은 모델들이 attention과 RNN 계열 모듈을 섞는 방향을 택했고, 이는 2023년 Mamba와 Striped Hyena가 제기했던 ‘모든 곳에 full attention이 필요한가’라는 질문의 연장선에 있다.
Olmo Hybrid는 기존 Olmo 3 7B와 거의 같은 조건에서 아키텍처만 바꾼 7B base model로 소개된다. 저자는 이 모델이 하이브리드 구조를 연구하기 좋은 공개 산출물이며, 논문은 하이브리드 모델이 transformer나 GDN 단독보다 더 넓은 표현력을 가질 수 있다는 이론과 실험을 제시한다고 설명한다.
핵심 실험에서는 Olmo 기준으로 hybrid GDN 3:1 레이어 비율이 pure GDN, 표준 transformer, hybrid Mamba2, pure Mamba2보다 좋은 결과를 보였고, 이 격차가 더 큰 파라미터와 compute로 확장해도 유지됐다고 한다. 특히 Olmo 3 dense 대비 약 2배의 사전학습 효율 향상이 관찰됐고, long-context extension 이후 평가 성능도 크게 개선됐다.
다만 후학습에서는 결과가 단순하지 않았다. 기존 Olmo 3 계열에서 쓰던 Tulu와 reasoning 레시피는 대체로 그대로 적용됐지만, Olmo Hybrid에서는 지식 벤치마크의 이득과 extended reasoning의 손실이 함께 나타났다. 저자는 원인을 확정하지 않으면서, 다른 아키텍처의 base model은 기존 teacher model과 distillation 데이터에 다르게 반응할 수 있다고 본다.
가장 큰 현실적 제약은 오픈소스 도구 생태계다. 하이브리드 모델은 장문 생성에서 메모리 사용을 줄일 잠재력이 있지만, 현재 VLLM 등 추론 도구의 커널과 내부 구현은 표준 transformer만큼 성숙하지 않아 throughput 저하와 수치 안정성 문제가 발생한다. 안정성을 위해 특정 플래그와 FP32 cache를 쓰면 성능은 유지되지만 속도 이점이 사라져, 실제 RL 학습에서는 dense model보다 더 많은 compute가 들 수 있다고 지적한다.

🧩 주요 포인트

글은 최근 공개 가중치 모델들에서 하이브리드 아키텍처가 다시 널리 채택되는 흐름을 짚으며 시작한다. Qwen, Kimi, Nemotron, Granite 같은 모델들이 attention과 RNN 계열 모듈을 섞는 방향을 택했고, 이는 2023년 Mamba와 Striped Hyena가 제기했던 ‘모든 곳에 full attention이 필요한가’라는 질문의 연장선에 있다.
Olmo Hybrid는 기존 Olmo 3 7B와 거의 같은 조건에서 아키텍처만 바꾼 7B base model로 소개된다. 저자는 이 모델이 하이브리드 구조를 연구하기 좋은 공개 산출물이며, 논문은 하이브리드 모델이 transformer나 GDN 단독보다 더 넓은 표현력을 가질 수 있다는 이론과 실험을 제시한다고 설명한다.
핵심 실험에서는 Olmo 기준으로 hybrid GDN 3:1 레이어 비율이 pure GDN, 표준 transformer, hybrid Mamba2, pure Mamba2보다 좋은 결과를 보였고, 이 격차가 더 큰 파라미터와 compute로 확장해도 유지됐다고 한다. 특히 Olmo 3 dense 대비 약 2배의 사전학습 효율 향상이 관찰됐고, long-context extension 이후 평가 성능도 크게 개선됐다.
다만 후학습에서는 결과가 단순하지 않았다. 기존 Olmo 3 계열에서 쓰던 Tulu와 reasoning 레시피는 대체로 그대로 적용됐지만, Olmo Hybrid에서는 지식 벤치마크의 이득과 extended reasoning의 손실이 함께 나타났다. 저자는 원인을 확정하지 않으면서, 다른 아키텍처의 base model은 기존 teacher model과 distillation 데이터에 다르게 반응할 수 있다고 본다.
가장 큰 현실적 제약은 오픈소스 도구 생태계다. 하이브리드 모델은 장문 생성에서 메모리 사용을 줄일 잠재력이 있지만, 현재 VLLM 등 추론 도구의 커널과 내부 구현은 표준 transformer만큼 성숙하지 않아 throughput 저하와 수치 안정성 문제가 발생한다. 안정성을 위해 특정 플래그와 FP32 cache를 쓰면 성능은 유지되지만 속도 이점이 사라져, 실제 RL 학습에서는 dense model보다 더 많은 compute가 들 수 있다고 지적한다.

🧠 상세 정리

1. 공개 모델에서 다시 부상한 하이브리드 아키텍처

글은 하이브리드 아키텍처가 공개 가중치 모델에서 더 이상 낯선 실험이 아니라고 전제한다. 최근 Qwen 3.5, Kimi Linear, Nvidia Nemotron 3 Nano, IBM Granite 4 등 여러 모델이 attention과 RNN 계열 구조를 섞는 흐름에 들어섰다는 점을 사례로 든다. 저자는 이것을 하나의 연구 유행이 동시에 여러 곳에서 채택되는 순간처럼 묘사한다. 다만 단순히 새 유행을 소개하는 데 그치지 않고, 이 흐름이 왜 다시 설득력을 얻고 있는지를 설명하기 위해 2023년 말 Mamba와 Striped Hyena가 던졌던 질문으로 거슬러 올라간다.

2. Mamba와 Striped Hyena가 남긴 질문

2023년 12월 무렵 Mamba와 Striped Hyena는 ‘모델에 full attention이 꼭 필요한가’라는 질문을 강하게 제기했다. 당시 모델들은 큰 관심을 받았지만, 구현 난이도, 오픈소스 도구 문제, 학습 과정의 복잡성, 스케일을 키웠을 때 성능이 흔들리는 문제 때문에 초기 기대만큼 이어지지 못했다. 저자는 오늘날에도 이 어려움이 완전히 사라진 것은 아니라고 본다. 다만 당시의 하이브리드 모델은 충분히 좋지 않았고, 지금은 더 정교한 RNN 계열 모듈과 실험적 검증을 통해 다시 가능성이 열리고 있다는 흐름으로 글을 전개한다.

3. 하이브리드 모델의 기본 아이디어

하이브리드 모델은 transformer를 유명하게 만든 전통적인 attention과 새로운 RNN 모듈을 함께 사용하는 구조를 뜻한다. RNN 레이어는 이전 토큰들의 정보를 hidden state에 압축해 다음 토큰 예측에 활용하며, 이는 LSTM까지 거슬러 올라가는 오래된 딥러닝 아이디어와 연결된다. 이런 방식은 attention의 KV cache가 토큰마다 늘어나며 발생하는 quadratic compute cost를 피할 수 있다는 장점이 있다. 글은 하이브리드 구조가 단순한 비용 절감 장치가 아니라, attention만으로는 어려운 문제를 푸는 데도 도움이 될 수 있다고 설명한다.

4. Olmo Hybrid의 위치와 공개 의의

Olmo Hybrid는 7B base model이며, Instruct 모델을 포함한 3개의 실험적 post-trained checkpoint가 함께 공개됐다. 저자는 이 모델이 하이브리드 모델을 연구하기에 가장 좋은 공개 산출물이라고 평가하는데, 그 이유는 이전 Olmo 3 7B와 거의 동일한 조건에서 아키텍처만 바뀌었기 때문이다. 따라서 성능 변화의 상당 부분을 구조 변화와 연결해 분석하기 쉽다. 또한 함께 공개된 논문은 하이브리드 모델이 표준 transformer보다 나을 수 있는 이유를 이론적으로 다루며, 이 연구가 Will Merrill이 이끈 장기 프로젝트라는 점도 강조한다.

5. 표현력, scaling law, 그리고 이론적 주장

논문의 핵심 주장은 attention과 recurrence가 서로 보완적인 강점을 가지고 있으며, 둘을 섞은 하이브리드 모델은 단순히 두 구성요소의 합보다 더 강력할 수 있다는 것이다. 글에서 인용된 논문 소개에 따르면, code evaluation과 관련된 형식적 문제 중에는 transformer 단독이나 GDN 단독으로는 표현할 수 없지만 하이브리드 모델은 이론적으로 표현하고 경험적으로 학습할 수 있는 문제가 있다. 저자는 이를 더 표현력이 큰 모델이 더 다양한 함수를 학습할 수 있다는 직관으로 설명한다. 또한 expressive power가 language model scaling을 개선할 수 있다는 논리를 quantization model of neural scaling과 연결한다.

6. 사전학습 실험에서 나타난 큰 효율 향상

저자는 이론보다 더 중요한 부분은 명확한 실험이 이를 뒷받침한다는 점이라고 말한다. Olmo 설계 과정에서는 scaling law를 신중하게 연구해 최종 하이브리드 아키텍처를 결정했고, 어떤 RNN block을 얼마나 넣는지가 성능에 매우 민감하다는 점이 드러났다. 실험 결과 Olmo에서는 hybrid GDN 3:1 레이어 비율이 pure GDN, 표준 transformer, hybrid Mamba2, pure Mamba2보다 나았다. 특히 이 차이가 더 많은 파라미터와 compute로 확장해도 유지됐다는 점이 중요하며, 최종 모델은 Olmo 3 dense 대비 약 2배의 학습 효율 향상을 보였다고 설명한다.

7. 후학습에서 드러난 성과와 손실의 혼재

Olmo 팀은 이전에 Tulu 2, Tulu 3, Olmo 3 reasoning 작업에서 쌓은 레시피를 비교적 그대로 적용해 왔고, 이는 기존 모델들에서는 잘 작동했다. 하지만 Olmo Hybrid는 구조가 상당히 다른 모델이었기 때문에 후학습 결과가 더 복잡하게 나타났다. Olmo 3 레시피를 적용했을 때 knowledge 관련 벤치마크에서는 눈에 띄는 이득이 있었지만, extended reasoning에서는 큰 손실도 있었다. 저자는 이것이 base model이 기존 teacher model에서 생성된 distillation 데이터에 다르게 반응하기 때문일 수 있다고 보며, 좋은 teacher의 조건과 base model별로 적합한 teacher가 달라질 수 있다는 문제를 제기한다.

8. 오픈소스 도구의 미성숙이 만드는 병목

글의 후반부는 하이브리드 모델의 현실적 병목으로 오픈소스 소프트웨어 도구를 지목한다. 하이브리드 모델의 큰 장점 중 하나는 장문 생성에서 메모리 사용을 줄일 수 있다는 점이고, 이는 reinforcement learning과 agentic task에서 특히 중요하다. 그러나 현재 VLLM 같은 추론 도구는 표준 transformer에 비해 하이브리드 모델용 커널과 내부 구현이 덜 성숙해 throughput 저하와 수치 안정성 문제를 겪는다. 저자들은 안정성을 위해 cascade attention 비활성화, eager mode 강제, hybrid model cache의 FP32 사용 같은 설정을 적용했지만, 그 결과 추론 처리량이 크게 떨어져 계산 효율상의 잠재 이득이 지워진다고 설명한다.

9. 해결 가능성, 생태계 과제, 그리고 미래 질문

저자는 현재의 도구 문제를 심각하게 보면서도 해결 가능한 문제라고 본다. 오픈소스 커뮤니티가 커널, 내부 구현, 안정성 문제를 개선하면 벤치마크 수치 자체도 나아질 수 있고, 하이브리드 모델이 원래 약속한 장문 처리와 메모리 효율의 이점을 실제 post-training에서 활용할 수 있을 것이라고 본다. 글은 마지막으로 frontier closed model들이 이미 RNN 계열 또는 그와 유사한 효율적 구조를 쓰고 있을지 질문을 던진다. 저자는 이 부분은 추측이라고 명확히 밝히며, scaling advantage가 frontier scale에서도 유지된다면 경제적 유인이 매우 커질 것이라고 말한다.

🧾 핵심 주장 / 시사점

Olmo Hybrid의 핵심 가치는 단순히 새 구조를 공개했다는 데 있지 않고, 거의 같은 Olmo 3 7B 조건에서 아키텍처만 바꿔 비교할 수 있게 만든 공개 연구 대상이라는 점에 있다.
하이브리드 모델의 사전학습 효율 향상이 곧바로 후학습 성능 향상으로 이어지지 않는다는 점은, base model 구조와 teacher data의 궁합이 앞으로 중요한 연구 문제가 될 수 있음을 보여준다.
현재 병목은 모델 아이디어 자체보다 도구 생태계에 가깝다. 안정성을 확보하기 위해 쓰는 설정이 throughput을 떨어뜨리면, 이론적·사전학습상 효율 이득이 실제 RL과 장문 추론 환경에서는 상쇄될 수 있다.

✅ 액션 아이템

Olmo 3 7B와 Olmo Hybrid처럼 조건을 맞춘 비교에서 아키텍처 변경만의 효과를 분리해 평가 기준을 설계한다.
사전학습 후보 구조를 검토할 때 hybrid GDN 3:1, pure GDN, 표준 transformer, Mamba2 계열을 같은 축에서 비교한다.
후학습·RL 적용 전 hybrid cache dtype과 평가 플래그가 안정성, throughput, compute 비용에 미치는 영향을 별도 측정한다.

❓ 열린 질문

사전학습에서 약 2배 효율 이득을 보인 구조가 후학습에서도 유지되지 않고 extended reasoning 손실을 낸 원인은 무엇인가?
GDN이 attention이나 Mamba가 학습하지 못하는 feature를 학습할 수 있다는 주장이 실제 어떤 평가 항목에서 가장 강하게 드러나는가?
오픈소스 추론·학습 도구 문제가 해결될 때까지 hybrid 모델의 실제 배포 판단 기준은 성능 이득과 compute 증가 중 무엇이 되어야 하는가?