Top Companies Are Secretly Working on This (It Will Replace LLMs)
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
SSM은 긴 컨텍스트에서 Transformer의 비용·메모리 병목을 줄이기 위한 대안적 시퀀스 처리 구조로, 특히 장기 작업을 수행하는 에이전트 시스템에서 주목받고 있다는 것이 원문의 핵심 주장입니다.
📌 핵심 요약
- 원문은 LLM의 Transformer 구조가 긴 문맥에서 self-attention과 KV cache 때문에 비용·메모리 병목을 겪는다고 설명합니다.
- State Space Model, 특히 Mamba 계열은 과거 토큰 전체를 직접 참조하는 대신 고정 크기의 hidden state를 갱신해 긴 시퀀스를 처리합니다.
- NVIDIA, IBM, Microsoft 등은 순수 Transformer가 아니라 attention과 SSM을 섞은 hybrid architecture를 활용하고 있다고 원문은 주장합니다.
- 순수 SSM은 정확한 문구 회상에 약점이 있어, 실제 적용에서는 일부 attention layer가 precise recall을 담당하는 혼합 구조가 중요하다고 설명합니다.
- 원문은 SSM이 단순한 긴 컨텍스트 기술이 아니라 agentic memory, 즉 장기 작업 상태를 효율적으로 유지하는 구조와 맞닿아 있다고 봅니다.
- 다만 글에 포함된 기업별 수치와 성능 주장은 원문 속 주장으로 다뤄야 하며, 별도 검증 없이 확정 사실로 확장해서는 안 됩니다.
🧩 주요 포인트
- Transformer의 병목은 모델 크기보다 긴 시퀀스에서 커지는 attention 계산량과 KV cache에 있습니다.
- SSM은 모든 과거 토큰을 저장하지 않고, 입력마다 갱신되는 고정 크기 상태로 이력을 압축합니다.
- 기업들은 비용이 큰 장문 inference 문제를 줄이기 위해 SSM 기반 또는 hybrid 모델을 실험·도입하고 있다고 원문은 설명합니다.
- Mamba, Mamba-2, S4, Hyena, H3 등은 SSM 계열의 주요 발전 흐름으로 제시됩니다.
- 실제 production 관점에서는 SSM 단독보다 attention과 SSM을 결합한 hybrid architecture가 더 현실적인 방향으로 설명됩니다.
- 에이전트 시스템에서는 “더 많이 저장하는 것”보다 “작업 상태를 계속 효율적으로 유지하는 것”이 핵심이라는 thesis가 제시됩니다.
🧠 상세 정리
1. Transformer 병목은 긴 문맥에서 폭발하는 구조적 비용이다
원문은 현재 주요 LLM들이 Transformer architecture에 기반하며, Transformer의 핵심인 self-attention이 모든 토큰이 모든 다른 토큰을 참조하는 방식이라고 설명합니다. 이 방식은 강력하지만 sequence length가 길어질수록 계산량이 빠르게 증가합니다. 원문은 이를 quadratic complexity, 즉 O(N²) 문제로 설명하며, context length를 두 배로 늘리면 compute가 네 배로 늘어나는 구조라고 말합니다.
또 하나의 병목은 KV cache입니다. 긴 대화나 문서, agent 작업 로그를 처리할수록 과거 토큰에 대한 key-value 정보가 쌓이고, 이 cache가 VRAM을 크게 차지합니다. 원문은 7B Transformer 모델에서 128K context만으로 KV cache가 수십 GB의 VRAM을 사용할 수 있다고 주장합니다. 핵심은 모델 weight가 커진 것이 아니라 sequence가 길어졌다는 이유만으로 serving cost가 폭증한다는 점입니다.
2. SSM은 전체 과거를 보지 않고 상태를 갱신한다
State Space Model의 직관은 “긴 강의를 들으며 모든 단어를 적는 대신 머릿속 요약 상태를 계속 갱신하는 것”에 가깝게 설명됩니다. SSM은 이전 토큰 전체를 attention matrix로 다시 계산하지 않고, fixed-size hidden state를 매 step마다 업데이트합니다. 즉, sequence의 전체 history는 이 hidden state 안에 압축됩니다.
이 구조에서는 sequence가 길어져도 memory가 계속 선형적으로 커지지 않습니다. 원문은 이를 “state goes in, state gets updated, output comes out”이라는 흐름으로 설명합니다. attention matrix가 없기 때문에 quadratic explosion을 피하고, linear time과 constant memory에 가까운 처리 구조를 목표로 합니다. 따라서 SSM은 단순히 더 빠른 모델이라기보다, 긴 시퀀스를 다루는 방식 자체가 Transformer와 다릅니다.
3. 기업들이 관심을 갖는 이유는 inference 비용 때문이다
원문은 NVIDIA, IBM, Microsoft 등 여러 기업이 SSM 또는 SSM-hybrid 구조에 관심을 갖는 이유를 production cost에서 찾습니다. 긴 context를 Transformer로 처리하면 latency와 VRAM 사용량이 커지고, 이는 실제 서비스 운영 비용으로 이어집니다. 특히 수많은 사용자가 긴 문맥을 동시에 요청하는 환경에서는 이 문제가 더 커집니다.
원문은 NVIDIA의 Nemotron-H, IBM의 Bamba-9B, Microsoft의 Phi-4-mini-flash-reasoning 등을 사례로 들며, attention layer 일부를 Mamba 계열 block이나 다른 memory unit으로 대체하거나 혼합했다고 설명합니다. 여기서 중요한 점은 “LLM을 마법처럼 대체한다”는 주장이 아니라, Transformer 내부 구성의 일부를 더 효율적인 sequence-processing block으로 바꾸는 engineering decision이라는 관점입니다.
4. SSM 계열의 핵심 흐름은 S4에서 Mamba로 이어진다
원문은 SSM 계열의 주요 흐름으로 S4, Mamba, Mamba-2, S5, H3, Hyena 등을 제시합니다. S4는 structured state space model의 초기 기반으로, long-range dependency 처리 가능성을 보여준 모델로 설명됩니다. 다만 입력에 따라 parameter가 달라지지 않는 고정적 성격이 한계로 제시됩니다.
Mamba는 이 흐름에서 중요한 전환점으로 소개됩니다. 원문에 따르면 Mamba의 핵심은 SSM parameter를 input-dependent하게 만들어, 모델이 무엇을 기억하고 무엇을 흘려보낼지 선택할 수 있게 했다는 점입니다. Mamba-2는 Transformer와 SSM 사이의 수학적 관련성을 structured semiseparable matrix 관점에서 설명하고, 더 빠른 SSD layer를 제시한 흐름으로 소개됩니다. 다만 이 성능·비교 수치는 원문 속 주장으로 다루는 것이 안전합니다.
5. 순수 SSM의 약점은 정확한 회상이다
원문은 SSM이 모든 것을 압축 상태에 담는 구조이기 때문에, 특정 과거 문구를 그대로 회상하는 데는 약점이 있다고 설명합니다. 예를 들어 수천 토큰 전에 사용자가 말한 exact phrase를 물으면, pure Mamba 계열 모델은 Transformer만큼 직접적으로 찾아내기 어려울 수 있습니다. Transformer는 KV cache를 통해 과거 token representation을 명시적으로 보존하기 때문입니다.
이를 원문은 episodic memory와 semantic memory의 차이로 설명합니다. Transformer는 과거 token을 비교적 직접적으로 재참조하는 episodic memory에 가깝고, SSM은 의미를 압축해 유지하는 semantic memory에 가깝다는 구도입니다. 이 구분은 SSM이 모든 상황에서 Transformer를 단순 대체한다기보다, 어떤 memory task에 강하고 어떤 task에는 보완이 필요한지를 보여줍니다.
6. 현실적인 방향은 attention과 SSM의 hybrid architecture다
원문은 실제 모델 설계에서 pure SSM보다 hybrid architecture가 중요하다고 봅니다. 일부 attention layer는 정확한 recall을 담당하고, SSM layer는 긴 sequence의 대부분을 효율적으로 처리합니다. 이 비율은 단순히 50대 50이 아니라, 모델 목적과 scale에 따라 달라질 수 있습니다.
Jamba 같은 hybrid architecture도 이 맥락에서 언급됩니다. 원문은 Mamba-1과 attention의 결합이 Mamba-2와 attention의 결합보다 더 나은 결과를 낸 경우를 예로 들며, 각 component의 개별 성능보다 component 간 상호작용이 중요하다고 설명합니다. 이는 SSM 논의가 단순히 “attention을 없애자”가 아니라 “어떤 layer가 어떤 memory 역할을 맡을 것인가”의 문제임을 보여줍니다.
7. 에이전트 시대의 메모리는 retrieval보다 state에 가깝다
원문에서 가장 중요한 thesis는 agentic memory입니다. 에이전트가 50단계 이상의 작업을 수행하면 tool output, 실패한 시도, 중간 상태, 사용자 지시사항이 계속 쌓입니다. Transformer 방식은 이 모든 것을 context window에 넣고 attention으로 처리하려 하지만, 원문은 이것이 비용도 크고 작업 상태 유지 측면에서도 비효율적일 수 있다고 봅니다.
SSM의 hidden state는 매 입력마다 갱신되고, 관련 없는 정보는 희미해지며, task-relevant structure는 누적되는 구조로 설명됩니다. 원문은 이것이 agent가 장기 작업을 수행할 때 필요한 “상태를 carry forward하는 메커니즘”과 닮아 있다고 주장합니다. 따라서 SSM은 단순한 long-context 최적화가 아니라, 장기 agent workflow에서 비용 예측 가능성과 상태 유지라는 시장적·제품적 요구와 연결됩니다.
🧾 핵심 주장 / 시사점
- 원문은 Transformer의 긴 context 병목을 하드웨어 부족이 아니라 attention과 KV cache가 만드는 구조적 문제로 봅니다.
- SSM은 과거 전체를 직접 저장·조회하지 않고 compressed hidden state를 갱신하기 때문에 장문 처리 비용을 낮출 가능성이 있다고 설명됩니다.
- 기업들의 관심은 연구적 유행보다 실제 inference 비용, latency, VRAM 사용량 문제와 연결되어 있다고 제시됩니다.
- pure SSM은 exact recall에 약점이 있어, 실제 적용에서는 attention과 SSM을 결합한 hybrid architecture가 핵심 방향으로 보입니다.
- 에이전트 시스템에서는 긴 로그를 계속 쌓는 것보다 작업 상태를 효율적으로 유지하는 구조가 중요하다는 시사점이 제시됩니다.
✅ 액션 아이템
- NVIDIA Nemotron-H, IBM Bamba-9B, Microsoft Phi-4-mini-flash-reasoning에서 원문이 언급한 hybrid SSM 적용 범위를 각각 확인한다.
- Mamba, Mamba-2, S4 논문에서 selective state update와 long-sequence efficiency의 핵심 메커니즘을 정리한다.
- Transformer KV cache와 SSM hidden state의 memory scaling 차이를 같은 sequence length 기준으로 비교한다.
- agentic workflow에서 “retrieval memory”와 “state-carrying memory”를 구분해 적용 가능한 use case를 분류한다.
❓ 열린 질문
- 원문에서 언급한 기업별 throughput·memory improvement 수치는 동일 조건 benchmark에서 얼마나 재현 가능한가?
- hybrid architecture에서 attention layer와 SSM layer의 최적 비율은 task 유형별로 어떻게 달라지는가?
- 에이전트 시스템에서 SSM의 compressed state가 장기 작업의 정확한 지시사항 보존 문제를 충분히 해결할 수 있는가?