A startup claims it broke through a bottleneck that’s holding back LLMs

🖼️ 인포그래픽

A startup claims it broke through a bottleneck that’s holding back LLMs 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

마이애미 기반 스타트업 Subquadratic은 LLM의 핵심 병목으로 지목돼 온 dense attention의 계산 비용 문제를 sparse attention 방식의 SubQ로 완화했다고 주장하며, Appen의 일부 독립 평가 결과가 그 주장에 주목할 만한 근거를 제공했다.

📌 핵심 요약

Subquadratic은 SubQ라는 새 LLM이 기존 상위 모델보다 빠르고 저렴하며 에너지 사용이 적고, 대부분의 모델보다 최대 12배 긴 텍스트를 한 번에 처리할 수 있다고 주장했다.
초기 발표 때는 자체 공개 점수 외의 근거가 부족했고 모델도 널리 공개되지 않아, 업계에서는 중대한 돌파구일 수도 있고 과장일 수도 있다는 강한 회의론이 나왔다.
이후 제3자 평가 업체 Appen이 수행한 추가 테스트 결과가 공개되며, SubQ가 일부 속도·코딩·장문 검색 평가에서 Subquadratic의 주장 일부를 뒷받침하는 성과를 보였다는 설명이 제시됐다.
기사의 핵심 기술 배경은 transformer의 dense attention이 토큰 간 모든 조합을 계산하면서 텍스트 길이가 늘수록 계산량이 제곱적으로 증가한다는 점이며, Subquadratic은 이를 동적으로 선택하는 sparse attention으로 줄였다고 설명한다.
다만 벤치마크는 실제 사용을 완전히 대체하지 못하고, SubQ가 널리 공개되지 않았으며, Qwen 모델의 가중치를 재사용했다는 점 때문에 Subquadratic이 병목을 완전히 해결했다는 강한 주장은 아직 충분히 입증되지 않았다는 지적도 남아 있다.

🧩 주요 포인트

Subquadratic은 SubQ라는 새 LLM이 기존 상위 모델보다 빠르고 저렴하며 에너지 사용이 적고, 대부분의 모델보다 최대 12배 긴 텍스트를 한 번에 처리할 수 있다고 주장했다.
초기 발표 때는 자체 공개 점수 외의 근거가 부족했고 모델도 널리 공개되지 않아, 업계에서는 중대한 돌파구일 수도 있고 과장일 수도 있다는 강한 회의론이 나왔다.
이후 제3자 평가 업체 Appen이 수행한 추가 테스트 결과가 공개되며, SubQ가 일부 속도·코딩·장문 검색 평가에서 Subquadratic의 주장 일부를 뒷받침하는 성과를 보였다는 설명이 제시됐다.
기사의 핵심 기술 배경은 transformer의 dense attention이 토큰 간 모든 조합을 계산하면서 텍스트 길이가 늘수록 계산량이 제곱적으로 증가한다는 점이며, Subquadratic은 이를 동적으로 선택하는 sparse attention으로 줄였다고 설명한다.
다만 벤치마크는 실제 사용을 완전히 대체하지 못하고, SubQ가 널리 공개되지 않았으며, Qwen 모델의 가중치를 재사용했다는 점 때문에 Subquadratic이 병목을 완전히 해결했다는 강한 주장은 아직 충분히 입증되지 않았다는 지적도 남아 있다.

🧠 상세 정리

1. Subquadratic의 큰 주장과 초기 반응

마이애미 기반 AI 스타트업 Subquadratic은 지난달 스텔스 모드에서 나오며, 거의 10년 동안 대형 언어 모델의 발전을 가로막아 온 수학적 병목을 해결했다고 발표했다. 회사는 SubQ라는 새 LLM이 더 빠르고, 더 저렴하며, 에너지를 훨씬 덜 쓰는 모델이라고 주장했다. 또한 대부분의 모델보다 최대 12배 많은 텍스트를 한 번에 처리해 수백 개 문서나 전체 코드베이스 같은 데이터가 많은 작업을 수행할 수 있다고 설명했다. 그러나 최초 발표 당시에는 세부 내용이 빈약했고 자체 공개 테스트 점수 외에는 근거가 거의 없었기 때문에 많은 사람들은 이 주장을 곧바로 받아들이지 않았다.

2. 회의론이 커진 이유

Subquadratic이 맞닥뜨린 첫 문제는 검증 가능성의 부족이었다. 회사는 SubQ가 Google DeepMind, OpenAI, Anthropic의 최고 모델들과 코딩 같은 핵심 과제에서 대체로 비슷한 성능을 낸다고 주장했지만, 사람들이 직접 써볼 수 있도록 모델을 널리 공개하지 않았다. 그래서 업계 반응은 자연스럽게 회의적이었다. 한 인공지능 엔지니어는 SubQ가 transformer 이후 가장 큰 돌파구이거나 AI판 Theranos일 수 있다고 표현했는데, 이는 기술적 기대와 불신이 동시에 존재했다는 분위기를 잘 보여준다.

3. Appen의 독립 평가 공개

한 달 뒤 Subquadratic은 모델에 관한 추가 정보와 함께 제3자 업체 Appen이 수행한 독립 테스트 결과를 공개했다. 공동창업자이자 CTO인 Alex Whedon은 건강한 회의론을 예상했으며, 처음부터 제3자 벤치마크를 함께 공개했다면 많은 의심을 줄일 수 있었을 것이라고 말했다. Appen은 다른 회사들의 모델도 평가하는 업체로, SubQ에 대해 여러 테스트를 수행했다. Appen의 생성형 AI 연구 책임자인 Jeanine Sinanan-Singh는 그 결과가 Subquadratic의 아키텍처를 검증하는 것처럼 보였고, 속도와 비효율성으로 어려움을 겪는 모델 환경에서 게임 체인저가 될 수 있다고 평가했다.

4. dense attention이 만드는 계산 병목

기사가 설명하는 기술적 배경의 중심에는 transformer와 dense attention이 있다. 일반적인 LLM은 텍스트를 처리할 때 단어나 단어 조각인 토큰을 숫자로 인코딩한 뒤, 각 숫자를 같은 텍스트 안의 다른 모든 숫자와 곱해 전체 의미를 포착하려 한다. 예를 들어 1만 단어 길이의 텍스트는 거의 5천만 번에 가까운 개별 곱셈을 유발할 수 있다. 텍스트가 길어질수록 새 숫자는 이전의 모든 숫자와 연결되어야 하므로 계산량은 급격히 늘고, 단어 수가 두 배가 되면 계산량은 대략 네 배가 되는 제곱적 증가가 발생한다.

5. SubQ의 sparse attention 접근

Subquadratic의 해법은 transformer의 핵심 연산인 dense attention을 버리고 sparse attention을 사용하는 것이다. sparse attention은 모든 토큰 조합을 계산하지 않고, 의미 파악에 중요하다고 판단되는 일부 관계만 선택해 곱셈을 수행한다. Whedon은 책을 읽을 때 첫 번째 단어와 두 번째 단어, 첫 번째 단어와 세 번째 단어를 모두 살피는 식의 접근은 비현실적이라고 설명했다. 다만 이런 방식 자체는 새롭지 않으며, 이전의 많은 시도는 dense attention만큼 문서 의미를 잘 포착하는 메커니즘을 만들지 못했다는 점도 기사에서 함께 강조된다.

6. 동적 선택이라는 차별점

Subquadratic은 SubQ가 기존 dense-attention 주류 모델과 겨룰 수 있는 첫 sparse-attention LLM이라고 주장한다. 회사가 강조하는 차별점은 고정된 패턴이 아니라 입력 텍스트마다 중요한 관계를 즉석에서 다르게 선택한다는 점이다. Whedon은 과거 방식들이 항상 첫 번째 단어와 다섯 번째 단어를 비교하는 식의 고정 규칙을 사용한 경우가 많았고, 언어는 그런 방식으로 다루기에는 너무 정교하다고 말했다. 다만 SubQ가 어떤 기준으로 어떤 단어들에 집중하는지는 공개하지 않았으며, 그 부분이 회사의 핵심 비법이라고 설명했다.

7. 속도·코딩·비용·장문 처리 평가

Appen의 평가에서 SubQ는 일부 작업에서 빠르고 저렴하게 작동할 수 있다는 가능성을 보였다. 이론적 작동 속도의 기준선을 세우는 단순 속도 테스트에서는 FlashAttention을 사용하는 모델보다 56배 빠른 결과가 나왔다고 기사에 제시됐다. 실제 대회 문제에서 코딩 능력을 평가하는 LiveCodeBench에서는 89.7%를 기록해 상위 코딩 모델들과 같은 범주에 놓일 수 있다는 평가를 받았다. 비용 주장은 아직 널리 검증되기 어렵지만, Dangel은 Nvidia의 RULER 128 테스트를 Anthropic의 Opus 4.6으로 실행하는 데 2,600달러가 들고 SubQ는 8달러가 들었다고 주장했다.

8. 남아 있는 검증 과제와 제한

높은 벤치마크 점수에도 불구하고 기사에서는 아직 신중한 태도를 유지해야 한다고 정리한다. 벤치마크는 특정 조건에서 모델을 시험하는 것이므로, 다양한 실제 작업에서 모델을 장기간 사용하는 경험을 대체하지 못한다. Subquadratic은 SubQ를 코딩과 대규모 데이터 검색에 맞춘 모델로 제공하려 하며 수만 명의 잠재 사용자와 500곳 이상의 기업 고객이 초기 접근을 신청했다고 말하지만, 실제 접근 권한을 받은 사람은 매우 적다. 또한 SubQ가 처음부터 훈련된 것이 아니라 중국 오픈소스 모델 Qwen 버전의 가중치를 재사용했다는 점은, 회사가 LLM 작동 방식을 완전히 재발명했다는 주장과 긴장을 만든다.

🧾 핵심 주장 / 시사점

SubQ의 공개된 결과는 장문 처리와 속도 면에서 주목할 만하지만, 현재로서는 특정 벤치마크와 제한된 접근에 기반한 성과이므로 실제 사용 검증이 핵심이다.
기사의 핵심 쟁점은 단순히 새 모델의 성능이 아니라, LLM의 비용과 에너지 문제를 만들어 온 attention 계산 구조를 실제로 바꿀 수 있느냐에 있다.
Subquadratic이 유용한 모델을 만들었을 가능성과 quadratic attention 병목을 완전히 해결했다는 강한 주장은 구분되어야 하며, 원문은 후자에 대해서는 아직 공개 증거가 충분하지 않다고 제시한다.

✅ 액션 아이템

SubQ는 동적 sparse attention으로 dense attention 제곱 복잡도를 줄였다는 주장을 12배 길이 처리, 비용 절감, 전력 절감 수치와 함께 핵심 정리한다.
Appen이 공개한 속도·코딩·장문 검색 시험 결과를 범주별로 정리해 SubQ 주장이 지지되는 항목과 미확인 항목을 구분한다.
모델 비공개성, Qwen 가중치 재사용, 벤치마크 대체성 한계를 함께 기록해 SubQ의 병목 돌파 주장을 채택 조건별로 정리한다.

❓ 열린 질문

SubQ의 12배 장문 처리 성능이 데모 환경을 넘어 실서비스 워크로드에서 어떤 조건에서 일관되게 재현되는지 정량적으로 확인할 수 있는가?
Appen 평가에서 개선이 확인된 속도·코딩·장문 검색 성능이 다른 공개 데이터와 실제 사용 환경으로 확대될 때 성능 저하 여부는 어떻게 비교할 수 있는가?
모델 미공개와 Qwen 가중치 재사용이 병목 완전 해결 주장 신뢰도에 미치는 영향은 어느 지점부터 위험 신호로 간주해야 하는가?